《心理测量学》课件2第二章测量信度与随机误差控制

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,第二章,测量信度与随机误差控制,学习目标：,1.,什么是信度,?,信度与测量随机误差的关系？,2.,信度的统计定义？,3.,描述信度的指标有哪些？,4.,分析测验信度应注意哪些问题？,5.,信度的标准与作用？,6.,经典测量理论信度系数的估计方法。,7.,提高测量信度的主要方法有哪些？,第一节信度概述,一、信度与测量误差,1.,经典测量理论的假设,上,式中，,X,为观察分数，,T,为一般真分数，,E,为随机误差分数，,V,为目标真分数，,I,为非目标真分数（系统误差）。,第一节信度的概述,一、信度与测量误差,2.,信度的定义,测量追求的初步目标：,T,占,X,的比例越大越好。,测量追求的终极目标：,V,占,X,的比例越大越好。,第一节信度的概述,当,T,占,X,的比例很大时，那么测值就会是稳定的。一般来说，稳定的测值是可靠的、可信的，因此，信度可被认为是测量结果的,稳定性程度,。,一、信度与测量误差,2.,信度的定义,第一节信度的概述,信度（,reliability,）是指在不同时间，使用同一测验，或者使用两个不同项目的等值测验，抑或在其他不同的测试条件下，对同一组被试实施两次或多次测试所得分数的一致性。,测验信度表示测验分数中个体差异可归因于所测特质中“真实”差异的程度，以及可归因于随机误差的程度。,二、信度的统计定义,1.,经典测量理论假设的推论,第一节信度的概述,2.,信度的统计定义,定义,1,：信度是被试团体真分数方差与实得分数方差之比,定义,2,：信度是被试团体真分数与实得分数相关系数的平方,定义,3,：信度是一个测验,X,（,A,卷）与它的任意一个平行测验（,B,卷）的相关系数,第一节信度的概述,三、描述信度的指标,1.,经典测量理论的信度系数,信度系数是表示测量结果的稳定性程度的指标。记为：,第一节信度的概述,信度系数的值域：,0,1,没有百分之百可靠的测量，因此，,r,XX,=1,只是理论上的值，实际当中是不存在的。,？,相关系数的值域是,-1,+1,，信度系数的值域：,0,1,，为什么？,1.,经典测量理论的信度系数,（,1,）,重测信度,（,test-retest coefficients,），是指用同一个量表对同一组被试施测两次所得结果的一致性程度，其大小等于同一组被试在两次测验上所得分数的相关系数。,（,2,）,复本信度,（,alternative-form coefficients,），是指两个平行的测验测量同一批被试所得结果的一致性程度，其大小等于同一批被试在两个复本测验上所得分数的相关系数。,（,3,）,内部一致性系数,（,internal consistency coefficients,）也叫,同质性信度,（,homogeneity reliability,），是指测验内部所有题目间的一致性程度，主要的计算方法有,KR20,公式、,KR21,公式、克龙巴赫,系数，以及荷伊特信度等。,第一节信度的概述,2.,经典测量理论的测量标准误,测量标准误差,（,standard error of measurement,）是测量误差的假设分布的标准差。用下列公式能够容易地计算测量标准误差：,第一节信度的概述,式中，,SD,t,表示测验分数的标准差，,r,XX,表示信度系数。,3.,概化理论,的概化系数,（,generaliabilitycoefficients,）,4.,IRT,的测验信息函数,（,test information function,）,四、分析测验信度应注意的问题,1.,针对测验类型选用恰当指标,（,1,）传统的信度概念适合于,常模参照测验,，这种测验的主要目的是为了区分个体在特定特征上所表现出的差异性。个体在测验分数中表现出的差异范围越大，该测验的信度也就越高。,第一节信度的概述,（,2,）,标准参照测验（内容参照或领域参照测验）,的目标是要确定被试是否达到或未达到某个标准，从而将个体分到不同的组别：“达标”和“未达标”。这种情况下，传统的重测信度、复本信度以及内部一致性系数就不再适用。标准参照测验可根据具体情况分别采用如下指标：,适用于简单的掌握与否的两分决策，即所有的分类误差都被认为同样严重而不管它们离开临界分数的距离。在这种情况下，可以使用平行型式进行再测，以便得出在两次测验上得到相同决策的个体的百分比，进一步可算得,分类一致性系数,（,coefficient of agreement,）。,第一节信度的概述,不仅仅关心对掌握者和未掌握者的质的区分，同时也在分数连续体上描述了关于掌握和未掌握的量的差异。这类信度主要采用,K,2,(,X,T,),指标：,第一节信度的概述,式中，、分别为被试总体在测验上的真分数方差和观测分数方差；、分别为真分数和观测分数的平均值；,n,g,为测验题目数，,c,是以做对题目百分比表示的区分标准。,K,2,(,X,T,),值越大，说明观测分与区分标准分数（划界分数）之间的差异代表真分数的对应差异量的可能性越大，因而观测分与划界分数的差异就越能反映真实能力上的差异。换言之，测验就更可信。,就单个测验的结果而言，,K,2,(,X,T,),的计算公式如下：,第一节信度的概述,式中，是由库德理查德,KR,20,公式求出的信度系数，其余符号意义同前。,（,3,）,在,纯速度测验（,speed test,）,中，个体差异完全取决于速度，此时就无法恰当地解释施测一次测验的信度系数。,如果条件许可，可采用,重测法,或是,复本法,，这是比较合适的。,分半法,也可以使用，但是此时的分半是按时间分半，而不是按照项目来分半。也就是，两半分数必须根据分别规定时间的两个半测验。例如，可以把奇偶项目分别印制在两张卷上，每组项目的用时为全测验的一半。这种方法等于在同一时间实施了两个等值测验。,第一节信度的概述,还有一种替代实施两个半测验的方法，就是把,总时间四等分,，算出每段时间的分数。这种方法简便易行，施测时每当主试发出事先安排的信号，就要测验参加进在他们正在做的项目上打个记号。然后，把第一段和第四段时间内答对的项目数相加，得出一个半测验分数；把第二段和第三段时间内答对的项目数相加，得出另一个半测验分数。四段时间如此相加，往往可以平衡练习、疲劳和其他因素的累积效应。特别是当项目难度水平前后一致，而不是逐渐增加时，这种方法尤其令人满意。,第一节信度的概述,2.,信度的报告,（,1,）,任何一个信度系数是针对引起测验误差的特定因素而言的。有多少种影响测验分数的条件，就有多少种测验信度，因此，报告信度时应该详细说明测试样本的特性和所报告的信度类型。,在信度报告时只是报告信度系数，而缺乏说明估算系数的方法细节，推导系数时所用的被试群体的特征，以及获取数据当时的施测条件，等等，这种信度报告是不合格的。,第一节信度的概述,（,2,）,没有一个单一的、最优的方法来量化信度，没有一个单独的指数能恰当地表达所有的相关事实，没有一个单独的研究方法在所有的情形下都是最佳选择，且测验编制者也不应局限于将某一种方法运用到任何一种测量手段上去。所以，测验编制者在报告测验信度时，可以从多方面予以报告。,第一节信度的概述,（,3,）,提供详细的信度分析报告，让了解相关知识的人能够对结果进行评定，并能够重复信度分析的过程。,例如，简单说一句“某测验的信度是,0.92,”,是不能接受的。较恰当的说法是“某测验的信度系数为,0.92,，该数值是通过计算一份能力测验间隔两周两次测试成绩的相关系数得出的。数据来源是从某市随机抽取的,500,名小学,5,年级的学生施测,”,。,第一节信度的概述,五、信度的标准与作用,1.,信度是评价测验质量的重要指标之一。,测验类型,信度系数,低,中,高,学业成就测验,0.66,0.92,0.98,学术能力测验,0.56,0.90,0.97,特殊能力倾向测验,0.26,0.88,0.96,人格测验,0.46,0.85,0.97,兴趣测验,0.42,0.84,0.93,态度测验,0.47,0.79,0.98,注：表中数据来源，,Lewis R. Aiken: Psychological testing and assessment (eighth edition), Allyn and Bacon, Inc, 1994.,第一节信度的概述,2.,信度是测量过程中所存在的随机误差大小的反映。,第一节信度的概述,例如，我们已知高考文科试卷的总信度,r,XX,=0.965,，文科考生总分的标准差为,53.42,那么，文科考试成绩的标准误为：,3.,信度可以用来解释个人测验分数的意义,测量标准误。,如果某生的考试成绩为,495,分，在置信度为,0.95,时，其真分数的置信区间为：,4.,信度可以帮助进行不同测验分数的比较。,第一节信度的概述,考察两个分数的差异是否可靠，是否真有差异的问题。比如，某人的物理成绩是否真的优于化学？某人的数学技能本学期是否真有进步？某人在韦氏智力量表上操作智商与言语智商的差异是否真有显著意义等。,当两测验的方差相等时，差异分数的信度系数可用如下公式求出,：,式中，,r,XXdiff,是差异分数的信度系数；,r,XX,和,r,YY,是两个测验各自的信度系数；,r,XY,是两测验间的相关系数。,4.,信度可以帮助进行不同测验分数的比较。,第一节信度的概述,差异分数的测量标准误可用如下公式求出：,式中，,SE,diff,是差异分数的测量标准误；,r,XX,和,r,YY,是两个测验各自的信度系数；,SD,是两测验间使用的相同的标准差。在比较分数之前，必须将两个测验分数转为具有相同量表的标准分数。,第一节信度的概述,例如，在韦氏成人智力量表中，言语和操作分测验的信度为,0.97,和,0.93,，而它们的智商的平均数为,100,标准差为,15,故言语和操作智商差数的标准误为：,因为,4.741.96,9.29,因此，言语和操作智商相差,10,分时，在,0.05,水平上，我们说存在显著差异。若要在,0.01,水平上作出差异显著的结论，就要相差,13,分。,？,测验分数的比较与平均数差异显著性检验是一回事吗？,第二节,信度的种类与评估方法,一、重测信度,1.,含义,同一个测量工具在两个不同时间对同一组被试施测所得结果的一致性程度。,重测信度主要考察了一个测量工具是否能够保证在不同时间测量结果的一致性，他反映了测量工具的结果受到时间间隔因素影响的大小。,一般来说，重测的时间间隔越短，那么各种施测情境的变化就越小，重测信度系数就会越大。,重测信度系数较大时，说明该测量工具前、后两次的测量结果比较一致。结果具有较好的跨时间上的稳定性。,第二节测验信度的种类与评估方法,2.,评估方法,重测信度的大小可以通过计算测量工具的,重测系数（,test-retest coefficient,）,或叫,稳定性系数（,coefficient of stability,）,来标志。具体来说，就是求取同一组被试在两个不同时间施测同一个测量工具所得结果分数的相关系数。,第二节测验信度的种类与评估方法,3.,应用条件,测量工具所测量的个体心理特质在时间上应该是相对稳定的。,测量工具所测量的个体心理特质应该不存在明显的练习效应和遗忘效应。,在两次施测间隔期间不应该进行专门的训练和培训，以保证重测信度反映的是随机因素的影响效应。,第二节测验信度的种类与评估方法,4.,使用重测信度时需要注意的问题,两次施测时间间隔的长短会影响重测信度系数估计值的大小，因此，在报告重测信度系数时应该报告间隔的时间长度。,应该根据已有的相关研究结论考虑所测心理特质本身的稳定性程度，以确定前后两次施测时间的间隔究竟应该多长比较合适时，不应该随便选择间隔时间的长短。,第二节测验信度的种类与评估方法,二、复本信度,1.,含义,两个平行的测验（复本测验）测量同一批被试所得结果的一致性程度。,复本信度反映了由于题目的不同以及时间间隔所导致的测量误差。,平行测验或复本测验指的是两个在题目内容、数量、形式、难度、区分度、指导语、时限以及所用的例题、公式和测验等其他方面都相同或相似的测验。也就是用不同的题目测量同样的内容而且其测验结果的平均值和标准差都相同的两个测验。,第二节测验信度的种类与评估方法,2.,评估方法,复本信度的估计过程就是计算同一批被试在两个平行的复本测验上所得分数的相关系数，也叫作,等价系数（,coefficient of equivalence,）,。,测试设计：同时测试和延时测试。,同时测试是在同一个时间段内进行测试，而延时测试则是在两个时间段进行测试，同时测试可能会存在作答疲劳的效应，而延时测试则可能会存在学习或培训效应。,第二节测验信度的种类与评估方法,3.,应用条件,要构造出两份或两份以上真正平行的测验,;,计算复本信度需要对同一批被试测试两份平行测验，这就需要掌握一个合理的时间安排。,应该尽量在测试结果报告中，详尽地说明两次测试的时间间隔、测试顺序安排、测试过程中被试的有关测验经历等。,第二节测验信度的种类与评估方法,三、内部一致性信度,1.,含义,内部一致性信度主要评价了测验各随机组成部分之间是否测量了相同的心理特质，因此，它反映的是题目内容的抽样一致性程度。,具体估计方法主要包括,分半信度评估法,、,库德,-,理查森信度评估法,、,克龙巴赫,Alpha,系数评估法,。,与重测信度和复本信度不同，在估计测验的内部一致性信度时，只要用同一测验对一批被试测试一次。,第二节测验信度的种类与评估方法,2.,分半信度,含义,我们总是可以把一个测验的所有题目随机地划分成对半的两个部分，然后估计所有被试在这两个部分题目上得分的一致性程度，这样得到的测验一致性估计称为,分半信度,。,分半信度评价了测验两个随机组成部分的题目是否测量了相同的心理特质。,第二节测验信度的种类与评估方法,2.,分半信度,评估方法,计算出被试在测验两个随机组成部分的题目上得分之间的相关系数。,由于在用分半测验得分计算相关系数时，测验题量被缩短，信度系数需要通过以下这个公式对分半相关系数进行矫正而得到。,为两个分半测验之间的相关系数，为完整长度测验的信度系数估计值。,第二节测验信度的种类与评估方法,2.,分半信度,评估方法,另外一个估计分半信度系数的方法是,Rulon,公式，他只需要计算所有被试在两部分测验上得分之差的方差以及总分方差：,式中，为完整测验的信度估计值，为被试在两部分测验上得分之差的方差，为完整测验总分方差。,Rulon,公式中分子方差反映了由于题目不同等条件带来的误差方差，他与总方差之比反映了误差方差在总方差中所占的比例。,第二节测验信度的种类与评估方法,2.,分半信度,使用时需注意的问题,在估计测验的分半信度时，虽然要求把一个测验的所有题目随机地划分成对半的两个部分，但是在实践中对测验分半时，为了尽量减少无关因素的影响，通常需要考虑题型、题分、题目测试先后顺序等因素的平衡问题，比如,按照题目顺序奇偶分半,就是一个经常选择的方法,第二节测验信度的种类与评估方法,3.,库德,-,理查森信度,含义,在估计分半信度时，把一个测验的题目分成两半的方式是非常多的。而每种分半方式得到的信度估计值总会存在一些差异，但我们无法知道究竟哪种分半结果所得到的信度估计值是最合适的。,估计所有可能的分半信度系数的平均数，作为完整测验的内部一致性最佳估计值。,第二节测验信度的种类与评估方法,3.,库德,-,理查森信度,评估方法：,所有分半信度系数的平均数的估计方法。,第二节测验信度的种类与评估方法,3.,库德,-,理查森信度,使用条件,Kuder-Richardson,信度系数的估计只能针对,1,、,0,记分题型，对于其他题型需要使用更加一般化的估计方法。,K-R 21,公式假设测验中所有项目的难度是相同的。,Kuder-Richardson,信度反映的是项目间一致性程度，他会严重地受到测验所测行为特质的同质性程度的影响。,第二节测验信度的种类与评估方法,4.,Cronbachs Alpha,系数,含义,是一种比,Kuder-Richardson,方法更加一般化的信度估计方法，它可以针对各种记分方式的题型进行估计。,第二节测验信度的种类与评估方法,4.,Cronbachs Alpha,系数,评估方法,第二节测验信度的种类与评估方法,公式中，,k,是测验题目个数，是被试在题目,i,上得分的方差，是被试测验总分方差。,4.,Cronbachs Alpha,系数,使用条件,可以估计各种记分方式的测验内部一致性信度系数，是更一般化的测验内部一致性信度系数估计方法。,第二节测验信度的种类与评估方法,四、评分者信度,1.,含义,在评价通过主观评分方式得到的分数时，我们必须了解不同的评分者在评价被试作答反应时给的分数值的一致性程度（信度）。,一般的客观型题目在评分时很少出现误差，然而，对于诸如作文测验、语言类测验、以及其他的评价性测验（如人格特质评级、投射测验评分等），这些测验类型的评分过程就显得非常主观。,第二节测验信度的种类与评估方法,2.,评估方法,两个评分者时：计算这两个评分者评定分数之间的相关系数。,多个评价者评价同一批被试：计算和谐系数。,第二节测验信度的种类与评估方法,五、信度系数及其估计方法小结,1.,测试次数和测试卷份数与信度系数估计方法,第二节测验信度的种类与评估方法,测试次数,测试卷份数,1,份,2,份,1,次,分半信度,Kuder-Richardson,信度,Alpha,系数,复本信度（同时测试）,2,次,重测信度,复本信度（延时测试）,2.,各种信度估计方法的误差方差来源,第二节测验信度的种类与评估方法,信度估计方法,误差方差来源,重测信度,复本信度（同时测试）,复本信度（延时测试）,分半信度,Kuder-Richardson,和,Alpha,系数,评分者信度,时间间隔,题目内容,时间间隔与题目内容,题目内容,题目内容与心理行为特质的同质性,评分者间差异,第三节测量的随机误差控制,一、影响测量信度的因素,影响测量信度的因素,施测间隔的时间,被试,主试,施测情境,测量工具,第三节测量的随机误差控制,二、提高测验信度的常用方法,提高测验信度的常用方法,规范施测程序、统一施测环境,适当增加测验的长度,控制试题的难度分布,努力提高每道题的区分度,维持测验的同质性,努力提高测验在被试中各个同质亚团体上的信度,保证被试有充裕的作答时间,严格控制评分误差,第三节测量的随机误差控制,提高信度的方法,适当增加测验的长度,为什么增加测验的长度，会提高信度？,测验长度的增加与信度的提高不是等比例的,提高信度的方法,适当增加测验的长度,增加测验长度与信度提高之间关系的公式：,例：有一包含,10,题的测验，其信度系数为,0.30,，若把测验增加到原测验长度的,3,倍，那么新测验的信度系数应该是多少？,例：原测验共,10,题，信度系数为,0.30,，如要把测验信度系数提高到,0.94,，需要把原测验延长多少倍？增加多少题？,返回,第四节评分者信度及,评分误差的控制,一、评分误差存在的严重性,严重到什么程度？,历史教授的答案被评阅为“不及格”,高考作文,一幅漫画的启示,，,67,位评阅者，,6,至,25,分都有，最高分与最低分相差,19,分,。,1984,年，高考作文评分调查，,438,位老师，,4,篇作文，。最高得分为,41.25,，最低分为,20.75,，标准差为,2.98,。,1985,年，对,1984,年的四篇作文再研究，,347,位老师（有部分,1985,年参加研究的老师），最高得分为,42.5,，最低分为,24.75,，标准差为,3.3,。,第四节评分者信度及评分误差控制,二、评分者信度,定义：多个评分者对同一批答卷评分结果的一致性程度。,估计方法：,两位评分者评同一批试卷；,三位或三位以上评分者评同一批试卷,第四节评分者信度及评分误差控制,两位评分者评同一批试卷的评分者信度,例：甲、乙两位教师评阅,10,份试卷，他们对每一试卷各自所评分数如下表，问这两位教师评分的一致性如何？,返回,试卷,得分,D,甲乙,等级,等级之差,甲评分,乙评分,甲,乙,A,94,93,1,1,1,0,B,90,92,2,2,2.5,0.5,C,86,92,6,3.5,2.5,1,D,86,70,16,3.5,7,3.5,E,86,82,10,5,4,1,F,70,76,6,6,5.5,0.5,G,68,65,3,7,9,2,H,66,76,10,8,5.5,2.5,I,64,68,4,9,8,1,J,61,60,1,10,10,0,多位评分者评同一批试卷的评分者信度,例：六位教师各自评阅相同的,5,篇作文，每位教师给每一篇作文都评了等级（共,5,等）并列入下表，问这六位教师评分的一致性如何？,返回,作文,评分者,1,2,3,4,5,A,3,5,2,4,1,B,3,5,2,4,1,C,3,4,1,5,2,D,3,5,1,4,2,E,3,5,2,4,1,F,3,5,2,4,1,18,29,10,25,8,三、评分误差产生的原因,试题原因,评分者原因,专业知识水平不够,评判能力不够,个性倾向,心理状态,客观效应,“,名片,”,、,“,光环,”,、,“,对比,”,、,“,先后,”,环境、组织管理的原因,第四节评分者信度及评分误差控制,四、控制评分误差的方法,控制试题作答反应方向与范围,预先制订好评分细则,阅卷人员要选择、要培训,流水作业,分因素评分,组织复查,要求评分者自觉防止各种客观效应的影响,大规模阅卷可考虑采用统计手段控制,第四节评分者信度及评分误差控制,

展开阅读全文

《心理测量学》课件2第二章 测量信度与随机误差控制

最新文档

《心理测量学》课件2第二章测量信度与随机误差控制