资源描述
, , , , , ,*,*,*,第四章,测量信度,1,第四章测量信度1,第一节 信度概述,什么是信度?,信度(,reliability,)是指测量结果的稳定性程度,也叫测量的可靠性。,操作定义:,r,xx,=S,T,2,/ S,x,2,r,XX,=,TX,2,r,XX,=,XX,注意:,信度指的是一组测验分数或一系列测量的特性,而不是个人分数的特性;,真分数的变异数是不能直接测量的,因此信度是一个理论上构想的概念,只能根据一组实得分数作出估计。,2,第一节 信度概述什么是信度?2,信度系数与信度指数,信度指数:相关系数,信度系数:相关系数的平方,注意:,信度系数有多种。,同一种信度系数也会因样本、测查时间不同而有多个。,信度系数只是对测量分数一致性的估计,但并没有指出不一致的原因。,获得较高的信度只是测验有效的必要条件。,3,信度系数与信度指数3,三、信度的作用,信度是测量过程中所存在的随机误差大小的反映,信度可以用来解释个人测验分数的意义,SE=S,X,1 - r,XX,真分数的置信区间(,95%,),=X1.96SE,信度可以帮助进行不同测验分数的比较,4,三、信度的作用4,假设在一个智力测验中,某个被试的IQ为100,这是否反映了他的真实水平?如果再测一次他的分数将改变多少?已知该测验的标准差为15,信度系数为0.84、,某被试在韦氏成人智力测验中言语智商为102,操作智商为110.已知两个分数都是以100为平均数,15为标准差的标准分数。假设言语测验和操作测验的分半信度分别是0.87和0.88.问其操作智商是否显著高于言语智商呢?,5,假设在一个智力测验中,某个被试的IQ为100,这是否反映了他,一个测验可以有多个信度估计值,因而其误差估计值也会有多个,在实际工作者要注意选择。,本理论假定同一个团体中所有人的测量误差都是相同的,但实际上水平高的人与水平低的人在做测量时会有不同的随机误差。,测量的结果不能僵硬地看成一个点,而应看成是一个以该点为中心,以SE的某个倍数为半径上下波动的一个范围(区间估计),6,一个测验可以有多个信度估计值,因而其误差估计值也会有多个,在,第二节 信度的估计方法,一、重测信度,含义和计算,重测信度(,test-retest reliability,)是指用同一量表对同一组被试施测两次所得结果的一致性程度。,皮尔逊积差相关系数,(,教材,p48),使用的前提条件,所测量的心理特质必须是稳定的;,练习和遗忘的效果基本上相互抵消;,在两次施测的间隔时期内,被试在所要测查的心理特质方面没有获得更多的学习和训练。,7,第二节 信度的估计方法一、重测信度7,使用重测信度时应注意,两次测验的时间间隔要适当(研究报告中需要说明)。,再测信度适用于速度测验或人格测验,不适用于难度测验。,重测时应注意提高被试的积极性。,优缺点,用再测法估计信度的优点是能提供测验结果是否随时间而变化的资料,可作为预测被试将来行为的依据。,其缺点是易受练习和记忆的影响。,8,使用重测信度时应注意8,SPSS计算,求出两次测量的总分,Analyze-Correlate-Bivariate,9,SPSS计算求出两次测量的总分9,二、复本信度,1,含义和计算,复本信度(,Alternate-form reliability,)指的是两个平行的测验测量同一批被试所得结果的一致性程度,其值等于同一批被试在两个复本测验上所得分数的积差相关系数。复本信度又称为,等值性系数,。,测验实施的时间不同,复本信度所表达的含义略有不同。,如果两个复本测验是同时连续施测的,则称这种复本信度为等值性系数,。,如果两个复本测验是相距一段时间分两次施测的,则称这种复本信度为稳定性与等值性系数,。,10,二、复本信度10,使用的前提条件,两测验真正平行;,被试要有条件接受两个测验。,优点,避免记忆效果和学习效应,11,使用的前提条件11,复本信度的局限性,如果所考虑的行为机能受到练习的影响很大,那么使用复本只能减少但不能消除这种影响。,测验的性质会由于重复而有所改变,比如迁移的影响,编制真正的等值测验实际困难重重,因此许多测验没有复本。,12,复本信度的局限性12,内部一致性信度(1),三、分半信度,含义和计算,分半信度(,split-half reliability,)是指将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。由于分半信度描述的是两半题目间的一致性,所以有时也被称作内部一致性系数,。,计算方法:皮尔逊积差相关,校正公式:斯皮尔曼,-,布朗公式,r,xx,= 2 r,hh,/,(,1+ r,hh,),13,内部一致性信度(1)三、分半信度13,斯布公式只有在两半测验分数的,方差相等,时才能使用,否则,应选择下面两个等价的公式之一:,弗郎那根(,Flanagan,)公式:,r,xx,= 2 1 -,(,S,a,2,+ S,b,2,),/ S,x,2,,,S,a,2,,,S,b,2,,,S,x,2,分别为分半测验的方差和总分的方差,卢仑(,Rulon,)公式,r,xx,= 1 - S,d,2,/ S,x,2,,,S,d,2,是两分半测验之差的方差,14,斯布公式只有在两半测验分数的方差相等时才能使用,否则,应选,应用前提及范围,分半信度通常是在只能施测一次或没有复本的情况下使用。,试卷存在任选题或试卷为速度测验时,不宜采用分半法。,15,应用前提及范围15,常见的分半方法是按测题序号奇偶分半:,测验题目按某种顺序(如难度)排列;,如果是随机排列的题目,则必须是所有题目是平等的(要么难度相等,要么性质一致,是测同一个心理特质的);,如果测验有多个分量表,应在分量表内部排好顺序,再把各分量表的两半组合起来求相关。,16,常见的分半方法是按测题序号奇偶分半:16,SPSS计算,第一种算法,题目排序,分半,求积差相关,进行斯,-,布公式校正,第二章算法,直接求分半系数,17,SPSS计算第一种算法17,内部一致性信度(2),四、同质性信度,含义,同质性信度(,homogeneity reliability,)也叫内部一致性系数,它是指测验内部所有题目间的一致性程度。,同质性信度是指一个测验所测内容或特质的相同程度。,18,内部一致性信度(2)四、同质性信度18,题目间的一致性含有两层意思:其一是指所有题目都测的是同一种心理特质,,,其二是指所有题目得分之间都具有较高的正相关,。,值得注意的是,一些表面上看起来是测量同一种心理特质的题目,如果其题目间不具有较高的正相关,则不能认为它们具有同质性。,19,题目间的一致性含有两层意思:其一是指所有题目都测的是同一种心,计算及适用范围,r,xx,= K r,ij,/ 1 +,(,K - 1,),r,ij,,,其中,K,为一个测验的题目个数,,r,ij,为项目间相关系数的平均数,(,1,),KR,20,公式:,r,xx,= K /,(,K - 1,), 1-,(,p,i,q,i,),/ S,x,2,p,i,为答对第,i,题的人数的比例;,q,i,为答错第,i,题的人数的比例。,K,为题目数,,S,x,2,为测验总分的变异。仅适用于(,0,,,1,)记分的测验。,(,2,),KR,21,公式:,r,xx,= K /,(,K - 1,), 1 -,(,K p q,),/ S,x,2,只有当所有题目的难度接近时才适用,20,计算及适用范围20,(,3,)克龙巴赫,系数:, = K /,(,K - 1,), 1 -,(,S,i,2,),/ S,x,2,克伦巴赫系数可以处理任何测验的内部一致性系数的计算问题。,实际上,,K-R,20,和,K-R,21,只是,系数的特例。,系数是所有可能的分半信度的平均值。,是测量信度的下界的一个估计值。即,值大,必有测量信度高,但,值小时,却不能断定测量信度不高。,21,(3)克龙巴赫系数:21,计算步骤:,按一定要求抽取,n,个被试的试卷,计算几个人测验总分的方差,这几个人在每一个题上都会有一个得分,分别求出这几个人在每道题上得分的方差。,代入公式,最后求出,。,22,计算步骤:22,SPSS计算,Analyze-Scale-Reliability Analysis,单击“Statistics”出现reliability Analysis:Statistics,在Descriptives for 方框中选取 “item”、“scale”、“scale if item deleted”,在“inter-item”,单击“correlations”,单击“continue”按钮回到“reliability Analysis”对话框,单击“ok”按钮。,23,SPSS计算Analyze-Scale-Reliabilit,当研究者采用试题的标准分数总和作为量表分数时,此情况应该选用标准化,系数;,当研究者采用试题的标准分数总和作为量表分数时,则不选用标准化,系数,24,当研究者采用试题的标准分数总和作为量表分数时,此情况应该选用,(,4,)荷伊特信度,测试分数的总变异可分解为被试间变异、项目间变异和人与试题交互作用三部分。荷伊特认为可用,MS,人,作为被试方差估计值,用,MS,人,题,作为误差方差估计值。,R,xx,=1-MS,人,题,/MS,人,一般用于预测的测验或学绩测验可不考虑同质性。而验证理论构想时必须考虑同质性。因此,同质性不但与信度有关,还与效度有关。,25,(4)荷伊特信度25,五、评分者信度,含义,评分者信度(,scorer reliability,)是指多个评分者给同一批人的答卷进行评分的一致性程度。,计算,2,人时:相关系数,多人时:肯德尔和谐系数,W=12 R,i,2 -,(,R,i,),2 / N / K2,(,N3 -N,),(,K=3,20,;,N=3,7,时,查,W,表检验),K,是评分者人数,,N,是被评的对象数,,R,I,为第,i,个被试被评的水平等级之和,26,五、评分者信度26,将数据导入到SPSS中,点击:analyse-nonparametrics tests-K related samples,把所有变量选中(所有作品的列),再选中Kendalls W , Ok,结果出来了,,主要看最下面一个表的数据,一个是Kendalls Wa , 这个数字应该在0.7以上,另一个是Asymp ,这个数字应该小于0.05,如果结果不是符合这两个规则的话,一致辞性检验不通过,成绩要重新打分。,27,将数据导入到SPSS中,点击:analyse-nonpar,重测信度,在两个时间点上对同一群人实施测验,皮尔逊积差相关,复本信度,对同一群人实施一个测验的两个版本,皮尔逊积差相关,内部一致性(分半),一次性施测,然后分为两半计分,皮尔逊积差相关,用斯皮尔曼,-,布朗公式校正,内部一致性(同质性),一次施测,然后比较所有可能的分半法,系数或,KR-20,评判间信度,一次施测,由两个评分者或两种方法评分,皮尔逊积差相关,评判间信度,一次施测,由多个评分者或两种方法评分,肯德尔和谐系数,28,重测信度在两个时间点上对同一群人实施测验皮尔逊积差相关复本信,评判间一致性系数,给出一个评分说明,让两个或更多人来打分,分数是顺序或者称名(等级或者是,/,否),公式,Cohens kappa,参考,心理测量,骆方 孙晓敏译 中国轻工业出版社,评分者内部一致性系数,计算一个评分者在给不同测验打分时分数的一致性,系数或,KR-20,29,评判间一致性系数29,各种信度系数相应误差变异的来源,信度,误差变异来源,重测信度,时间取样,复本信度(连续施测),内容取样,复本信度(间隔施测),时间与内容取样,分半信度,内容取样,同质性信度,内容取样和内容的异质性,评分者信度,评分者间的差异,30,各种信度系数相应误差变异的来源信度误差变异来源重测信度时间取,几种心理测验的信度系数,测验类型,低信度,中信度,高信度,成套成就测验,0.66,0.92,0.98,学术能力测验,0.56,0.90,0.97,成套倾向性测验,0.26,0.88,0.96,客观人格测验,0.46,0.85,0.97,兴趣测验,0.42,0.84,0.93,态度量表,0.47,0.79,0.98,31,几种心理测验的信度系数测验类型低信度中信度高信度成套成就测验,第三节 提高测量信度的方法,影响测量信度的主要因素,被试方面,被试团体同质性越高(个体差异越小),所得相关系数(信度)就越低。,被试团体异质性越高(个体差异越大),所得相关系数(信度)就越高,。,主试方面,指导语、态度、期望等,施测情境,32,第三节 提高测量信度的方法影响测量信度的主要因素32,四)测量工具,测验长度:测验越长,信度越高。,测验难度:过难或过易都会使个体间得分差异减小,降低信度。显然只有当测验难度水平可以使测验分数的分布范围最大时,测验的信度才会最高。通常这个难度水平为,0.50,。,测验内容:试题取样不当,内部一致性低,题意模糊,信度则低。,(五)两次施测的间隔时间,间隔时间越短,信度越高;,间隔时间越长,信度越低。,33,四)测量工具33,斯皮尔曼布郎公式,公式中,,K,为改变后长度与原长度之比,r,xx,为原测验的信度,r,kk,为测验长度是原来,K,倍时的信度估计,34,斯皮尔曼布郎公式 公式中,K为改变后长度与原长度之比 34,例:某一测验有,10,个项目,信度是,0.60,,问测验应增加到多少个项目,才能使信度达到,0.90,?,35,例:某一测验有10个项目,信度是0.60,问测验应增加到多少,解:,即,应扩大为原来的,6,倍,才能满足要求。,调整后的测验长度应是,60,个项目。,36,解:即,应扩大为原来的6倍,才能满足要求。36,提高测量信度的常用方法,适当增加测验的长度,使测验中所有试题的难度接近正态分布,并控制在中等水平,努力提高测验试题的区分度,选取恰当的被试团体,提高测验在各同质性较强的亚团体上的信度,主试者严格执行施测规程,评分者严格按照标准给分,施测场地按测验手册的要求进行布置,减少无关因素的干扰,37,提高测量信度的常用方法37,洛德(Lord)提出学绩测验难度,题型,难度,五选一,0.70,四选一,0.74,三选一,0.77,是非题,0.85,简答题,0.5,38,洛德(Lord)提出学绩测验难度题型难度五选一0.70四选一,几点说明,提高测量信度的方法还有很多。,本章所讨论的各种信度计算方法仅适用于常模参照性测验。,目标参照性,测验的信度必须以测量的,概化理论,为基础才能进行很好的处理。,信度的标准,信度高低的标准:标准化能力或学绩测验:,0.90,;人格测验:,0.80,;教师自编学绩测验:,0.60,测验解释的标准:一般来说,当信度,0.70,,测验不能用于对个人作出评价与预测,而且不能作团体间比较;当,0.70,信度,0.85,时,可用于团体比较;当信度,0.85,时,才能用来鉴别或预测个人成绩。,39,几点说明提高测量信度的方法还有很多。39,速度测验的信度,对于速度测验,不存在评分者信度,也无法计算同质性信度,而重测信度和复本信度均可按传统的方法求得,只有分半信度不能按传统方法估计,要估计速度测验的分半信度,不能按题目的奇偶项来划分测验,而应按测验时间划分相等的两部分,再求出两部分测验的相关,才是分半信度。,将测验分成两部分,然后以总测验的一半时间分别进行施测,计算两部分得分的相关系数。,整个时限分为四部分,并求出在每个时限内的得分。计算第一部分和第四部分的总分数;第二部分和第三部分的总分数,然后计算相关。,40,速度测验的信度40,第五章,测量效度,41,第五章测量效度41,效度,效度(,validity,)是指一个测验或量表实际能测出其所要测的心理特质的程度。,在测验的众多质量指标中,效度是一个最重要的指标。,测验测量的是什么东西?或者说,测验测到了它要测的东西吗?,测验对它所测量的东西测量到什么程度?,42,效度 42,效度是一个相对的概念:每个测量工具都有自己的目的;内隐特质是通过外显行为间接测得的。,效度是测量的随机误差和系统误差的综合反映。,判断一个测量是否有效要从多方面收集证据,效度只有程度上的差异,43,效度是一个相对的概念:每个测量工具都有自己的目的;内隐特质是,在测量理论中,效度被定义为:在一列测量中,与测量目的有关的真实变异数(由所要测量的变因引起的有效变异)与总变异数(实得变异数)的比率。即:,公式中,,r,xy,表示测量的效度系数;,S,V,2,表示有效变异数,,S,X,2,表示总变异数,44,在测量理论中,效度被定义为:在一列测量中,与测量目的有,效度与信度的关系,信度高是效度高的必要而非充分的条件,测验的效度受它的信度制约,信度高,效度未必高,,信度低,效度必然低;,效度高,信度必然高,,效度低,信度未必低。,45,效度与信度的关系45,第二节 效度的估计,测量效度是就测量结果达到测量目的的程度而言的,所以测量效度的估计在很大程度上取决于人们对测量目的的解释。,常见的解释角度主要有三种:,测验内容,内容效度,理论结构,构想效度,工作实效,实证效度,46,第二节 效度的估计测量效度是就测量结果达到测量目的的程度而言,高中化学标准测验双向细目表,识记,了解,应用,分析,综合,评价,合计,第一章,8,2,10,第二章,10,6,2,10,28,第三章,3,6,2,4,7,22,第四章,2,9,12,6,5,6,40,合计,5,25,28,14,22,6,100,47,高中化学标准测验双向细目表识记了解应用分析综合评价合计第一章,内容效度,1.,含义及应用范围,内容效度(,content validity,)是指测验题目对有关内容或行为取样的适当程度,即一个测验实际测到的内容与所要测量的内容之间的吻合程度。,因此,一个测验要有内容效度必须具备两个条件:,(,1,)要有定义完好的内容范围,(,2,)测验题目应是所界定的内容范围的代表性取样。,48,内容效度1. 含义及应用范围48,内容效度主要应用于成就测验。,因为成就测验主要是测量被试掌握某种技能或学习某门课程所达到的程度。,在这种测验中,题目取样的代表性问题是内容效度的主要考察方面。,编制双向细目表就是为了提高内容效度。,49,内容效度主要应用于成就测验。49,内容效度也适合于某些用于选拔和分类的职业测验。,这种测验所要测的内容就是实际工作中所需的知识和技能,编制这种测验应首先对实际工作做较细的分析,否则,题目取样的代表性就难以令人满意。,50,内容效度也适合于某些用于选拔和分类的职业测验。50,内容效度不适合用于能力倾向测验和人格测验。,此外,在使用内容效度时,要避免与表面效度(,surface validity,)相混淆。,表面效度,是外行人对某个测验从表面上看好像是测某种心理特质的一种现象。,51,内容效度不适合用于能力倾向测验和人格测验。 51,2,内容效度的确定方法,(,1,)逻辑分析法:专家判断根据自己的知识经验对量表的有效性(逻辑性)作出判断,也称逻辑效度。,为使内容效度的判断过程更客观,一般采用下列步骤:,确定测验内容的总体范围;,编制双向细目表;,编制评定量表,从测验内容所测的技能、题目对所定义的范围的覆盖率、各种题目数量和分数的比例以及题目形式的适当性等方面,对测验作出总的评价。,52,2内容效度的确定方法52,(,2,)统计方法:用两个测验复本来测同一批被试,若相关高,则内容效度可能高,但若相关低,则说明必有一个测验缺乏内容效度。,(,3,)再测法:,前测教学后测,如果后测成绩优于前测成绩,说明该测验具有一定的内容效度。,53,(2)统计方法:用两个测验复本来测同一批被试,若相关高,则内,内容效度的优缺点,内容效度既具有一定的优点,也有一定的局限。其主要缺点是缺乏可靠的数量指标,因而妨碍了各测验间的相互比较。,54,内容效度的优缺点内容效度既具有一定的优点,也有一定的局限。其,结构效度,含义、特点与应用范围,结构效度(,structure validity,)是指一个测验实际测到所要测量的理论结构或特质的程度,或者说测验分数能够说明心理学理论的某种结构或特质的程度。,特点:,构想效度的大小首先取决于事先假定的心理特质理论。,当实际测量的资料无法证实我们的理论假设时,并不一定就表明该测验构想效度不高 。,不可能有单一的数量指标来描述构想效度。,构想效度主要用于智力测验、人格测验等 。,55,结构效度含义、特点与应用范围55,结构效度的确定方法,(,1,)提出理论框架;,(,2,)依据理论框架推演出有关测验成绩的假设;,(,3,)用逻辑或实证的方法来证明假设。,56,结构效度的确定方法56,确定构想效度的基本方法,(,1,)测验内部寻找证据法,分析测验的内容效度:若内容效度高,说明其结构效度也高;,分析被试对题目反应的特点:,有无社会称许性的题目,如“当事情不顺我意时,我时常动怒。”对该题的回答,也许反映不了要测的性格。,计算测验的同质性信度:分半信度、,系数、,KR20,、,KR21,57,确定构想效度的基本方法57,(,2,)测验之间寻找证据法,相容效度:新老测验之间的相关(两测验测的是同一心理特质)。若相关高,则说明新测验可能有较高的效度。,区分效度:新老测验之间的相关(两测验测的不是同一心理特质),若相关低,则说明新测验可能有较高的效度。,58,(2)测验之间寻找证据法58,(,3,)考察测验的实证效度法,根据效标把被试分组,考察其得分差异。,根据测验得分差异把被试分组,考察其所测特质(行为表现)的差异。,成就测验:分为高分组和低分组,人格测验:分为不同类型的效标组,59,(3)考察测验的实证效度法59,(4)多种特质-多种方法矩阵法,方法:1、2、3,特质:A、B、C,60,(4)多种特质-多种方法矩阵法60,A1,B1,C1,A2,B2,C2,A3,B3,C3,A1,0.90,B1,0.50,0.89,C1,0.35,0.41,0.81,A2,0.58,0.25,0.10,0.95,B2,0.21,0.59,0.09,0.63,0.91,C2,0.14,0.13,0.50,0.57,0.53,0.85,A3,0.55,0.20,0.13,0.69,0.32,0.30,0.93,B3,0.11,0.60,0.19,0.20,0.68,0.29,0.50,0.96,C3,0.15,0.20,0.70,0.21,0.19,0.67,0.53,0.51,0.92,61,A1B1C1A2B2C2A3B3C3A10.90B10.50,(,5,)验证性因素分析,(,confirmatory factor analysis,),验证性因素分析是目前心理学研究中应用的一种重要统计分析方法,是在研究的范围内,对已有的理论结构进行验证性分析的方法。,在研究中,这一方法可以帮助我们讨论测验研究是否具有构想效度。,62,(5)验证性因素分析(confirmatory facto,对构想效度的评价,总的来说,构想效度促使研究者把着眼点放在提出假设、检验假设上,使得测验成为理论研究的重要工具,而不再只是实际决策的辅助工具,从而使测验有了更广阔的发展前景。,63,对构想效度的评价63,三、实证效度,1,含义、种类及作用,实证效度,是指一个测验对处于特定情境中的个体的行为进行估计的有效性。,被估计的行为是检验测验效度的标准,简称,效标,。,所以,实证效度又称,效标关联效度,(,criterion-related validity,)。,同时效度:测验分数与效标资料是同时收集的。,预测效度:先获得测验分数,隔一段时间后,再收集效标资料。,64,三、实证效度64,例:某大学研究生入学考试要求达到一定的分数线,但偶尔也会录取一名没有达到分数线的学生,但要求这名学生在获得学位之前必须达到研究生入学的最低分数线。,你怎样看这个问题?,65,例:某大学研究生入学考试要求达到一定的分数线,但偶尔也会录取,2,效标,(,1,)效标与效标测量,效标,(,criterion,)就是衡量一个测验是否有效的外在标准,独立于测验并可以从实践中直接获得我们所感兴趣的行为。,常用的效标:学业成就、临床诊断、实际工作表现、特殊训练成绩、不同团体的总体表现、先前有效的测验、等级评定。,观念效标,:理论定义,如“大学的成功”,效标测量,:操作定义,如“大学成绩”,66,2效标66,(,2,)效标的特性,a.,多样性:,一个测验可能有不同的观念效标,同一个观念效标又可能有不同的效标测量。,b.,复杂性:,几乎每一种效标行为都由多种特质构成,包含复杂的成分。,c.,时间性:,近期效标与最后效标,67,(2)效标的特性67,(,3,)效标测量的条件,a.,有效性:效标测量能真正反映观念效标。,b.,可靠性:有较高的信度,c.,客观性:,效标测量必须能真正反映观念效标,防止效标污染。,效标污染(,criterion contamination,)是指评定者知道被试的测验分数,因而影响到对效标的客观评定。,d.,实用性:,经济实用,68,(3)效标测量的条件68,确定效标效度的基本步骤,明确观念效标,确定效标测量,考察测验分数与效标测量的关系,69,确定效标效度的基本步骤69,(1)相关法,测验分数与效标测量之间的相关系数。,(2)区分法,测验工作效标测量(工作成绩),按工作成绩分高低两组,如工作成绩高,测验得分也高;工作成绩低,测验得分也低,说明该测验是有一定效度的,70,(1)相关法70,(,3,)命中率,当用测验作取舍决策时,决策的正命中率和总命中率是测验有效性的较好指标。,总命中率是指根据测验选出的人当中工作合格的人数,以及根据测验淘汰的人当中工作不合格的人数之和与总人数之比。若总命中率高,则说明测验的效度高。,正命中率是指用测验选出的人中合格者所占的比例。这个比例越高,测验越有效。,71,(3)命中率71,在总命中率和正命中率之间,究竟采用哪一种指标要根据测验目的来定。,a.,当测验用于提高工作或学习效率时,应重视正命中率;,b.,当强调维护社会公平时,则应重视总命中率。,72,在总命中率和正命中率之间,究竟采用哪一种指标要根据测验目,命中表,效标成绩,失败(,-,),成功(,+,),测,验,预,测,成功(,+,),A,(失误),B,(命中),失败(,-,),C,(命中),D,(失误),73,命中表效标成绩失败(-)成功(+)测成功(+)A(失误)B(,总命中率,正命中率,74,总命中率74,效标成绩,失败(,-,),成功(,+,),测,验,预,测,录取,75,A,(失误,15,),B,(命中,60,),不录取,175,C,(命中,152,),D,(失误,23,),命中率计算实例,75,效标成绩失败(-)成功(+)测录取75A(失误15)B(命中,一、影响测量效度的因素,1,测验本身的因素,(,1,)测验长度,测验长度与效度的关系:,r,(,Kx,),y,= K r,xy,/K,(,1- r,xx,+Kr,xx,),(,2,)测题中所用词汇和句型不能过于困难,(,3,)试题的意思应该清楚,(,4,)所编制的测题应该适合所测量的学习结果,第三节 提高测量效度的方法,76,第三节 提高测量效度的方法76,(,5,)测题中不能提供额外线索,(,6,)测题的编制要合理,(,7,)选择题的正确答案不能有明显的组型,(,8,)测题的难度要适当,常模参照测验的难度在,0.5,标准参照测验与教学目标要求相一致,2,、测验的实施过程,77,(5)测题中不能提供额外线索77,3,接受测验的被试,常模团体的同质性影响到对被试测验得分的解释,进而影响到测验的效度。,样本代表性,样本规模,测验偏倚(,test bias,)是指用不适用于被试的标准来解释被试的测验得分,因而造成解释的偏差。,4,所选效标的性质,测量行为与所选效标的相似性越高,效度越高。,测验分数与效标行为之间是否是线性关系,如果不是线性关系,求皮尔逊相关就会低估效度。,效标本身的测量越可靠,效度就可能越高。,78,3接受测验的被试78,常用效标,测验目的,常用效标,学业,成就,1,学业成绩,2,标准化成就测验,3,教育程度,性向,测量,1,专业能力表现,2,学业成绩,3,特殊训练表现,4,标准化性向测验,79,常用效标测验目的常用效标学业1学业成绩性向1专业能力表现,测验目的,常用效标,工作,能力,1,工作成绩,(,质与量,),2,主管评分,3,工作记录,4,训练表现,教育或心理,诊断,1,性向及成就测验,2,人格测验,3,心理诊断类别,4,特殊教育类别,80,测验目的常用效标工作1工作成绩(质与量)教育或心理1性向,5.,信度,测验的信度是测量的随机误差的反映,而任何误差的增加都会降低测量的效度,所以在考察测验的信度时,一定要注意测验的信度。信度不高的测验不可能具有很高的测量效度。,总之,所有与测量目的无关而又能带来误差的因素都会降低测验的效度。,81,5. 信度81,二、提高测量效度的方法,(,1,)精心编制测验量表,避免出现较大的系统误差,(,2,)妥善组织测验,控制随机误差,(,3,)创设标准的应试情境,让每个被试都能发挥正常的水平,(,4,)选好正确的效标,定好恰当的效标测量,正确地使用有关公式,82,二、提高测量效度的方法82,第六章,测验的项目分析,83,第六章测验的项目分析83,项目分析包括定性分析和定量分析。,定性分析包括考虑内容效度、题目编写的恰当性和有效性等;,定量分析主要是指题目难度和区分度的测量。,对项目进行筛选和修订,可以提高测验的信度和效度。,84,项目分析包括定性分析和定量分析。84,第一节 测验的难度,难度(,difficulty,)的意义,难度,指项目的难易程度。,在最高作为测验中,称为“难度”,而在典型作为测验中,则指“通俗性”。两者都是指在总体中,能够正确或确切回答某项目的人数。,85,第一节 测验的难度难度(difficulty)的意义85,二、难度的计算,(一)二分法记分项目的难度,1,通过率,P=R/N,2,极端分组法(上下,27%,),P=,(,P,H,+P,L,),/2,(二)非二分法记分项目的难度,P=X / X,max,X,为所有被试在该项目上的平均得分,,X,max,为该项目的满分。,86,二、难度的计算86,三、测验难度水平的确定,效标参照测验、掌握测验:不考虑难度;,选拔测验:难度,=,录取率;,对于选择题来说,难度一般应大于猜测概率;,无论是速度测验,还是难度测验,一般都应防止被试得满分,因为满分的意义是不明确的。,大体而言,难度为,0.50,时最理想,此时项目具有最大的鉴别力。但在实际操作中,让所有项目难度都到达,0.50,困难很大,而且也不必要,一般只需使项目的平均难度接近,0.50,,而各个项目的难度在,0.50 0.20,之间变化。,87,三、测验难度水平的确定87,四、难度的等距变换,根据正态分布表,将难度P作为正态曲线下的面积,转换成相应的Z分数,这就是等距量表。(P 75),88,四、难度的等距变换88,美国教育服务中心以 作为难度指标:,=13+4Z,P = 0.0013 Z = +3 = 25,P = 0.16 Z = +1 = 17,P = 0.50 Z = 0 = 13,P = 0.84 Z = -1 = 9,P = 0.9987 Z = -3 = 1,89,美国教育服务中心以 作为难度指标:89,五、难度对测验的影响,(一)测验难度影响测验分数的分布形态,难度大,正偏态,难度低,负偏态,90,五、难度对测验的影响90,(二)难度影响测验分数的离散程度,过难或过易的测验,会使测验分数相对地集中在低分端或高分端,从而使得分数的全距缩小。,根据测验误差与信度的关系,分数分布的范围较广时,测验信度较高。,一般来讲,测验项目的难度在,0.5,左右为最佳,集中在两极端为最差。,91,(二)难度影响测验分数的离散程度91,第二节 测验的区分度,一、区分度的意义,区分度(,discrimination,)是指测验项目对被试心理品质水平差异的区分能力或鉴别能力。,项目的区分度是测验是否有效的“指示器”。,评价测验项目区分度高低依赖于对被试水平的准确测量,通常称作效标分数。测验项目区分度的效标分数更多的是用测验的总分,称为内部效标。,区分度的取值范围介于,-1.00,到,+1.00,之间。,92,第二节 测验的区分度,二、区分度的计算,(一)项目鉴别指数法,1,鉴别指数(,index of discrimination,,,D,)的计算,D = P,H, P,L,取值范围:,-1,+1,当,D,1.00,时,高分组被试全部通过,低分组被试全部失败。,相反,如果低分组的被试全部通过,高分组的被试全部失败,则,D,1.00,。,如果两组通过率相等,则,D,0,。,93,二、区分度的计算93,鉴别指数,题目评价,0.40,以上,很好,0.30-0.39,良好,修改会更好,0.20-0.29,尚可,仍需修改,0.19,以下,差,必须淘汰,表,6,1,项目鉴别指数与评价标准,94,鉴别指数题目评价0.40以上很好0.30-0.39良好,修改,2,极端组的划分,27%,规则,一般情况下,取上下,25-%,均可。,样本少时,可以取,50%,注意:,由于计算机的方便使用,可以上下,50%,作为划分高低组的标准,或者多分几组,对区分度和难度作详细分析。因为只取上下两端,只利用了一部分资料,浪费了很多信息,有可能得出错误结论。,95,2极端组的划分95,(二) 相关法,在大规模测验或标准化测验中,常用各个项目的得分与效标分数(或测验总得分)的相关作为项目区分度的指标,即以测验项目的分数与效标分数或测验总分的相关作为项目区分度的指标。,相关越高,区分能力越好。,96,(二) 相关法96, 点二列相关法,点二列相关适用于项目得分以二分变量记分(如记,0,、,1,),而效标或测验总分是连续变量的数量资料,其计算公式为:,公式中,,S,t,为全体被试效标分数的标准差,97, 点二列相关法公式中,St为全体被试效标分数的标准差 97,例:,15,名被试在某测验第,1,题上的作答情况(通过记,1,分,未通过记,0,分)与效标分数见表,10,2,,试分析第,1,题的区分度。,表,6,2 15,名被试的效标分数与第一题作答情况,序号,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,总分,65,70,31,49,80,50,35,16,81,69,78,55,77,90,42,1,题,0,1,0,1,1,0,1,0,0,1,1,0,1,1,0,98,例:15名被试在某测验第1题上的作答情况(通过记1分,未通过,对计算出的相关系数值需要进行显著性检验,才能确定其意义。,本例的检验结果,相关系数未达到,0.05,的显著性水平,因而该项目的区分度值得怀疑。,99,对计算出的相关系数值需要进行显著性检验,才能确定其意义。99,(,2,)二列相关法,二列相关适用于连续的测量变量,但其中的一个变量因为某种原因被人为分成两类。其计算公式为:,100,(2)二列相关法100,相关法,相关的统计方法适用于两个变量都是二分变量的情况。,在有些情况下,一些连续变量也可以用此方法计算相关程度。,相关不要求变量呈正态分布,所求得的指标为,相关系数。,101,相关法 101,用,相关系数作为区分度指标时,一般是根据效标成绩或测验总分的高分组和低分组,通过和未通过某一项目的人数列成的四格表来计算,计算公式为:,102,用相关系数作为区分度指标时,一般是根据效标成绩或测验总分的,积差相关法,对于主观评分题目,因得分具有连续性,在被试团体较大时,可以认为项目分数服从正态分布。可将项目得分与效标分数之间求积差相关系数以得到项目的区分度。计算公式为:,103,积差相关法103,(三)项目特征曲线(,item characteristic curve, ICC,),项目特征曲线描述了效标分数不同的被试在该项目上的通过率。,曲线坡度越陡,鉴别力越好,预测的误差越小。,率,概,的,目,项,答,回,确,正,1.00,0.00,0.50,低 中 高,能力,鉴别力较好,104,(三)项目特征曲线(item characteristic,低 中 高,能力,率,概,的,目,项,答,回,确,正,1.00,0.00,0.50,低 中 高,能力,率,概,的,目,项,答,回,确,正,1.00,0.00,0.50,鉴别力为负,鉴别力较低,105,低,三区分度与难度的关系,项目的区分度与难度有密切的关系。难度过大或过小,其区分度都较低。,调整项目难度是提高项目区分度的重要方法。,106,三区分度与难度的关系 项目的区分度与难度有密切的关系。难度,表,6,3 D,的最大值与项目难度的关系,难度(,P,),区分度(,D,的最大值),1.00,0.00,0.90,0.20,0.70,0.60,0.50,1.00,0.30,0.60,0.10,0.20,0.00,0.00,107,表63 D的最大值与项目难度的关系 难度(P) 区分度,四、区分度的相对性,(一)不同的计算方法,所得区分值不同,区分度有几种计算方法?,(二)样本容量大小影响相关法区分度值的大小,样本越大,区分度越,(三)分组标准影响鉴别指数,分组越极端,区分度越,(四)被试样本的同质性程度影响区分度值的大小,样本越同质,区分度越,108,四、区分度的相对性108,第三节 猜测问题与猜测率,客观测验题中的猜测问题与猜测率,猜测误差来源,猜相对于不猜引起的误差,是否猜对引起的误差,难度猜测影响的校正,公式中,,CP,为校正后的难度值,K,为选项数目,P,为实得通过率,公式中,,S,为校正后的难度值,R,为被试答对的项目数;,W,为被试答错的项目数;,K,为项目的选项数目,109,第三节 猜测问题与猜测率 客观测验题中的猜测问题与猜测率公式,一个五选一的测题难度指数为0.50,一个四选一的测题难度指数为0.53,哪一个题的难度大?,110,一个五选一的测题难度指数为0.50,一个四选一的测题难度指数,校正的基本假设,被试不知道正确答案时,完全凭猜测作答,猜测的成功与否完全由随机因素所致,即选择哪一个备选项是随机猜测作答,猜测的成功与否完全由随机因素所致,即选择哪一个备选项是随机决定的。,赞成的观点,可避免降低测验的信度,校正后的得分可以反映被试的真正水平和能力,在教育测验中,可以培养被试诚实的美德,比较公平,111,校正的基本假设111,反对的观点,基本假设不成立,只要被试能答完全部试题,则猜测校正无实质作用,不采用测验校正对信度无重大影响,有时会出现无法解释的现象,实际生活中,经常缺乏充分的证据与资料,必须凭借部分知识来判断,且进行合理猜测是值得培养的习惯。,在答题时间充裕,备选答案数目(,K,)在四个或以上的选择题,则没有必要进行校正记分。,112,反对的观点112,第四节 多重选择题的项目分析,(一)分析步骤,按被试测验的总分,从高到低依次排列试卷,从最高分依次向下取全部试卷的27%作为高分组,从最低分依次向上取全部试卷的27%作为低分组,分别登记高分组与低分组中各选择项的人数,根据登记结果进行选择项的质量分析,113,第四节 多重选择题的项目分析(一)分析步骤113,(二)分析时需要注意,如果所有的被试全都选择了正确答案,说明这道试题太容易或者题目中提供了某种暗示。,如果某个错误答案没有一个被试选择,说明该备选答案不具有迷惑性,错得过于明显。,如果所有的被试都选择了同一个错误答案,可能是编制试题时把答案定错了,也可能是在教学中发生了错误。,114,(二)分析时需要注意114,如果高分组被试的选择集中在两个答案上,二者选择率相近,说明该题可能有两个正确答案,或者另一个答案也有一定的道理。,如果高分组对正确答案的选择与低分组相等或低于后者,说明该题所考查的内容与被试的能力水平无关。,如果一个题目被试未答人数过多或选择各个备选答案的人数相等,说明该试题过难或题意不清,使得被试无法作答或凭猜测作答。,115,如果高分组被试的选择集中在两个答案上,二者选择率相近,说明该,速度测验的项目分析,对前面部分的测验项目,难度和区分度都,对后面部分的测验项目,难度和区分度都,项目,-,团体的相互作用,具有不同性质(性别、种族、职业等)的团体,在测验得分上也存在差异,即同样的项目可能有不同的难度。,如果测验要求对所有个体都相对“公平”,那么,就应该排除那些有利于或不利于不同性质的亚团体的项目;,如果测验的目的就是为了考察不同亚团体的差异,那么,就应选择使团体差异尽可能大的题目。,116,速度测验的项目分析116,有效性与可靠性的矛盾,同质性信度要求项目之间有,高相关,,各项目的难度均等;,对于预测效度来说,因为效标的变异范围较大,如果项目越同质,那么效标关联效度则低;因此,效标关联效度要求各项目之间要有一定的差异,即项目之间,相关低,,这样才能保证测验得分与效标之间有高相关,即高的效标关联效度。,因此,对于多数心理测验来说,项目之间中等程度的相关,可使二者调和,获得较为满意的(同质性)信度和(效标关联)效度。,117,有效性与可靠性的矛盾117,
展开阅读全文