资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,11/7/2009,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第三节 测验的信度,测量的误差及其来源,测量的信度,补: 测量的误差,测量,结果,测量,因素,1、误差的定义,与测量目的无关,不准确,或不一致,误差:与测验目的无关的因素所导致的测验结果不一致或不准确的现象.,2、误差的种类,系统误差,随机误差,随机误差与系统误差的比较,类型,产生原因,特点,效能,指标,随机,误差,不易控制的偶然因素,方向和大小上,完全随机,影响准确性,影响一致性,信,度,系统,误差,恒定、有规律的因素,稳定地存在于每次测量中,不影响一致性,效度,第一单元 信度的概念,信度指的是测量结果的稳定性程度(或一致性程度)。,信度是反映测量中随机误差大小的指标。,随机误差越大,信度越低。,一、信度的定义,二、信度的指标,1、信度系数与信度指数,信度系数是一种相关系数。,信度指数的平方是信度系数。,2、测量的标准误,信度越高,标准误越小;反之成立。,第二单元 信度评估的方法,信度,重测信度,复本信度,内部一致性,信度,评分者信度,分半信度,同质性信度,(一)重测信度,(Test-retest reliability),含义,同一测验,同组对象,前后测2次,相关系数,稳定性,程序,误差,时间,太短,练习效应,记忆效应,A卷,一,定,时,距,A卷,太长,身心变化,第一,所测的心理特性必须是稳定的。,第二,遗忘和练习的效果基本上相互抵消。,第三,所测心理特质在两次施测的间隔时间内没有获得更多的学习和训练。,第四,报告结果时要报告两次测验的间隔及有关经历.,使用条件,优点,省力、省时,测量属性相同,提供随时间变化的资料,不足,时间间隔长短,评价, 时间间隔视测验目的、性质、被试 特点而定;, 年幼儿童,间隔要小;年长成人,间隔可长;, 智力测验间隔不能太短,成就测验不能太长;,一般以2-4周为宜,智力测验的间隔时间一般在6个月左右。,(二)复本信度,(Alternate-form,raliability),含义,两等值测验,最短时间内,对同组对象,施测结果r,等值性,程序,误差,内容,取样,A卷,最,短,时,距,B卷,第一,前提是有复本测验。,第二,被试有条件接受两个测验(时间和经费等)。,第三,报告结果时要报告两次测验的间隔及有关经历.,使用条件,优点,代表性增强,信度更准,一定程度避免练习、记忆效应,不足,触类旁通,编制复本难,评价,重测信度与复本信度有何异同?,小结与问题,重测,信度,复本,信度,内部,一致性,跨时间,一致性,跨形式,一致性,试题之间,有何关系?,(三)内部一致性信度,含义,测验,各题间,一致性,题目,一致性,分半,信度,类型,同质性,信度,1、分半信度,(Split-half raliablity),分半,方法,奇偶题,分半,分析,程序,两半相关:r,hh,校 正:r,nn,难易:低,高,分半,条件,两半相似:,M、S,项目组间相关,分布常态,使用条件,测验只能施测一次或没有复本的情况下使用.,当一个测验无法分成对等的两半时不宜使用.,2、同质信度,(Homogeneity raliability),同质性,测验内部,所有题目,间的一致性,当测题的得分有较高的正相关时,其测验为同质;,相反,当测题间相关很低或负相关时,其测验为异质.,请给下面的作文评分:,热,夏天来临,总会伴随着一些炎热,我生在北方,却住在南方。对这南方北方的热,我可是深有体会。,南方的热是闷热,而北方的热多少有一些凉爽。处在南方,这热除了呆在家中,否则你是无法躲藏的。热不仅隐藏在太阳光中,而仿佛是一种弥漫在空气中的颗粒,古人说心静自然凉,我看恐怕无法适用于此,即使你在树荫中盘坐,豆大的汗珠还是会源源不断的流下来,就连风也是热的,在这种环境中学习和工作,心也难免有些浮躁了。在北方,天更蓝,太阳光感觉也更烈,但这并没有什么可担心的,走路走累了,就可以在树荫下歇一会,很快汗就消了,偶尔还会有几丝凉风吹来,使人难免有些惬意,也就可以忘记之前的辛苦,继续向下一个目的地进发。,南方的热就像是一场旷日持久的战争,而北方的热却并不赶尽杀绝,仍给人留有余地。在南方,白天和晚上几乎没有什么差别,昼夜温差很小,人们也自然严阵以待,丝毫不敢松懈,在三十几度的高温中坚持整个夏天。在北方,可就不一样,清晨和晚上是一天中最凉快的时候,几乎是只要没有阳光时就一点也不热。正常情况下,最高温度也就在30度左右,超过30度是很少的事,所以,人们也就不用紧张,可以放心的,踏踏实实的度过整个夏天。,。,(四)评分者信度,(Scorer raliability),含义,评分者评分的一致性,一般要求在成对的受过训练的评分者之间平均一致性达到0.90以上方可。,各种信度系数相应误差变异的来源,信度系数的类型,误差变异的来源,再测信度,复本信度(连续施测),复本信度(间隔施测),分半信度,同质性信度,评分者信度,时间取样,内容取样,时间与内容取样,内容取样,内容的一致性,评分者间的差异,第三单元 信度与测验分数的解释,1、解释真实分数与实得分数的相关,如:R,XX,=0.8(1;0)是什么意思?,2、解释个人分数的意义(范围或变化情形),(X-1.96SE),T,(X+1.96SE)(95%的概率水平),例:某受测者在WAIS上言语智商为102,操作智商为110。假设言语智商和操作智商的分半信度分别为了0.78和平利用0.88,问其操作智商是否显著高于言语智商呢?,3、两种测验分数的比较(差异的标准误),所得结果与1.96SE(0.05水平)进行比较,即可得出两个测验的差异是否显著.,4、确定信度的可接受水平,测验类型,最低标准,能力测验,人格测验,非标准化测验,0.90-0.95,0.80-0.85,0.60-0.85,典型测验的一般标准,信度评价的一般原则,R,XX,0.70:不可靠,不能用;,0.70R,XX,0.85:可用于团体;,R,XX,0.85:可用于鉴别个人.,几种典型测验的信度系数,测验类型,低 中 高,成套成就测验,学术能力测验,成套倾向性测验,客观人格测验,兴趣问卷,态度量表,.66 .92 .98,.56 .90 .97,.26 .88 .96,.46 .85 .97,.42 .84 .93,.47 .79 .98,友情提示,实际上,有多少种误差的来源,就有多少种信度估计的方法。一般来说,一个测验哪种误差大,就应该用哪种误差估计。有时一个测验需要几种信度估计。,操作演练,假设对100个六年级学生以两个月的时间间隔先后施测一个创造力测验的A/B两个复本,所得的等值与稳定性系数为0.70。,我们还根据被试对每个复本的反应计算出分半信度为0.80.,同时,我们将另一个评分者随机抽取50份卷子另外评分,得到评分者信度为0.92。,然后,我们对这这三种方法所产生的误差变异进行分析。,一个假想测验的变异数分析,信度类型,误差变异数,误差变异来源,复本信度(间隔),1-0.70=0.30,时间和内容取样,分半信度,1-0.80=0.20,内容取样,上述两者差异,0.30-0.20=0.10,时间取样,评分者信度,1-0.92=0.08,评分者差异,误差变异总和,0.20+0.10+0.08=0.38,真实变异,1-0.38=0.62,第四单元 影响信度的因素,测验长度,样本特征,测验难度,时间间隔,(一)测验长度,含义,测验试题的数量,特点,测验越长,试题取样越具有代表性。,测验越长,猜测因素影响就越小。,增加测验长度的效果应遵循报酬递减率原则。,特点,样本越异质,分数分布越广,有可能高估信度。,样本团体不同,信度就有可能不同 。,(二)样本特征,1、样本团体,异质性,的影响,2、样本团体,平均能力水平,的影响,特点:,团体平均水平太高或太低,分布变窄,可能低估信度.,选择测验时应注意,取样团体的变异性和能力水平,建立信度的团体与欲测团体是否一致,难度对信度的影响只存在于某些测验中。,难度与信度间没有简单的对应关系。,一般趋势:测验太难或太易,分数范围缩小,降低信度.,(三)测验难度,智力的时间变化,间隔期 信度系数,同日或次日 0.900.95,1年 0.85,22.5年 0.80,5年 0.750.80,9年 0.78,(四)时间间隔,可见,用再测法和复本法求信度,两次测验间隔时间越短,其信度系数越大.,间隔六年,r,XX,的变化,年龄的时间变化,年龄越低,信度越低,第一次 第二次 r,XX,4 10 0.73,9 15 0.87,11 17 0.92,信度的特殊问题,1、对于速度测验不存在评分者信度,也无法计算同质性信度。,2、当一个测验有几个分测验时,分测验的分数不如合成分数可靠。,思考,如何提高测量的信度?,适当增加测验的长度;,使测验项目的难度分布接近正态;,努力提高试题的区分度;,选取适当的被试团体;,主试严格执行测验规程;,几点说明,1.有多少种误差,就有多少种估计信度的方法.,2.上面介绍的各种计算方法仅适用于常模参照测验.,3.标准参照测验的信度问题必须以概化理论为依据.,4.不同类型的测验,信度的要求是不一样的.,5.用不同方法估计的信度也会有所差异.,内容总结,第三节 测验的信度。第三节 测验的信度。补: 测量的误差。第一单元 信度的概念。信度指的是测量结果的稳定性程度(或一致性程度)。第三,所测心理特质在两次施测的间隔时间内没有获得更多的学习和训练。 智力测验间隔不能太短,成就测验不能太长。 一般以2-4周为宜,智力测验的间隔时间一般在6个月左右。(二)复本信度(Alternate-form raliability)。第三,报告结果时要报告两次测验的间隔及有关经历.。当测题的得分有较高的正相关时,其测验为同质。(四)评分者信度(Scorer raliability)。评分者评分的一致性。一般要求在成对的受过训练的评分者之间平均一致性达到0.90以上方可。(X-1.96SE)T(X+1.96SE)(95%的概率水平)。例:某受测者在WAIS上言语智商为102,操作智商为110。3、两种测验分数的比较(差异的标准误)。然后,我们对这这三种方法所产生的误差变异进行分析,
展开阅读全文