资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,第十章、人才测评的信度与效度,人才测评的核心价值在于预测的有效性,预测好,预测不好,实际好,实际不好,正确接受,错误接受,正确拒绝,错误拒绝,在进行测量时,误差是难免的,这就使得真实值和测量值之间是不可能完全一致。我们可以这样来表示真实值和测量值之间的关系。,X=T+B+E,T,表示真实值,,B,表示偏差即系统误差,,E,表示测量误差即随机误差。,一、信度,测试信度,(test reliability),也叫测试的可靠性,指测验结果的一致性、稳定性及可靠性,一般多以内部一致性来加以表示该测验信度的高低。,信度系数愈高即表示该测验的结果愈一致、稳定与可靠。,系统误差对信度没什么影响,因为系统误差总是以相同的方式影响测量值的,因此不会造成不一致性。反之,随机误差可能导致不致性,从而降低信度。,信度可以定义为随机误差,R,影响测量值的程度。如果,R=0,,就认为测量是完全可信的,信度最高。,信度评估的方法,(一),重测信度,,又称为稳定性系数,它的计量方法是采用重测法:用同一测验,在不同时间对同一群体施测两次,这两次测量分数的相关系数即为重测系数。,重测信度所考察的误差来源是时间的变化所带来的随机影响。在评估重测信度时,必须注意重测间隔的时间。对于人格测验,重测间隔在两周到,6,个月之间比较合适。,在进行重测信度的评估时,还应注意以下两个重要问题:重测信度一般只反映由随机因素导致的变化,而不反映被试行为的长久变化。不同的行为受随机误差影响不同。,(二),复本信度,,是以两个测验复本来测量同一群体,然后求得应试者在这两个测验上得分的相关系数。复本信度的高低反映了这两个测验复本在内容上的等值性程度。两个等值的测验互为复本。,计算复本信度的主要目的在于考察两个测验复本的题目取样或内容取样是否等值。复本信度也考虑两个复本实施的时间间隔。,复本信度的主要优点在于:能够避免重测信度的一些问题,如记忆效果、练习效应等;适用于进行长期追踪研究或调查某些干涉变量对测验成绩影响;减少了辅导或作弊的可能性。,复本信度的局限性在于:如果测量的行为易受练习的影响,则复本信度只能减少而不能消除这种影响;有些测验的性质会由于重复而发生改变;有些测验很难找到合适的复本。,(三),内部一致性信度,,主要反映的是测验内部题目之间的关系,考察测验的各个题目是否测量了相同的内容或特质。内部一致性信度又分为分半信度和同质性信度。,分半信度系数是通过将测验分成两半,计算这两半测验之间的相关性而获得的信度系数。测验愈长,信度系数愈高。,同质性信度是指测验内部的各题目在多大程度上考察了同一内容。同质性信度低时,即使各个测试题看起来似乎是测量同一特质,但测验实际上是异质的,即测验测量了不止一种特质。同质性分析与项目分析中的内部一致性分析相类似。,(四),评分者信度,,是指不同评分者对同样对象进行评定时的一致性。最简单的估计方法就是随机抽取若干份答卷,由两个独立的评分者打分,再求每份答卷两个评判分数的相关系数。这种相关系数的计算可以用积差相关方法,也可以采用斯皮尔曼等级相关方法。,提高测验信度的方法,影响测验信度的误差归纳起来主要有,:(1),抽样误差,:,简单说,这是在抽样过程中由于被试间的差异所造成的误差。被试间的差异可以用全距和方差大小来表示。全距是指某一心理量最大值与最小值之差。全距大说明被试间差异大,全距小说明被试间差异小。被试间在某一心理量上参差不齐,差别悬殊,则该心理量的方差大,;,反之,方差小。对于方差小的样本,被试间在某一心理特征上相差较小,则前后两次测验结果的一致性较低,即降低了信度。因为被试之间的差别越小其同质性越高,被试的分数只要发生小的变化,其名次就可能改变,从而降低信度。,(2),随机误差,:,由于各种偶然因素的影响而产生的误差,表现为用同一方法多次测量同一对象时结果上不一致。随机误差是由许多因素造成的,如量标的质量,测量的程序,被试的身心状态,测量的环境等。,根据影响测验信度的因素,可从以下几方面来提高测验的信度,:,一是从测验本身考虑,如测验的长度、难度、区分度、速度、程序、环境条件与计分方法等,;,一是从被试自身考虑,如被试在被测心理特征上的差异大小,参加测验的动机水平,对测验的态度和积极性等。在此主要介绍如下几种提高测验信度的方法,:,(,1,)适当延长测验的长度,:,测验的长度主要指量表所包含的题目多少。对一个测验来说,测验的题目越少,得分越容易受偶然因素的影响,故测验的信度越低。反之如果测验题目较多,即测验长度延长,扩大了被试得分范围,可在一定程度上排除偶然因素的影响,从而提高测验信度。但是测验信度的增加并不是等比例提高信度系数。当信度系数较小时,延长测验长度信度系数增加较大,;,当信度系数已经较大时,延长测验长度对信度系数的影响就较小了。而且,在延长测验长度时,还需考虑其他因素的影响,如被试在回答问题时是否疲倦或产生厌烦情绪,是否节省时间、物力和财力,测题是否附合测验目的等。,(,2,)测验的难度要适中,:,难度即测验的难易程度,当测验难度太大时,被试得分普遍太低,呈负偏态分布,;,当测验难度太小时,被试得分普遍较高,呈正偏态分布。太难太易的测验都使被试得分差异减小,使实得分数方差减小,从而降低测验信度。,(,3,)测验的内容尽量同质,:,性质相同的测验内容,对被试也要求相同的能力、知识和技能,;,而内容不同质的测验,则要求被试不同的能力、知识和技能。因而为了提高测验信度,测验内容应尽量同质。(,4,)测验的时间要充分,:,对某一测验而言,应保证绝大多数被试在规定时间内完成测验,;,否则,如果被试不能从容回答所有问题,就不能反映被试的真实水平。,(,5,)测验的程序要统一,:,包括测验的题目统一,指导语、回答问题的方式、分收试卷的方法、测验时间等都要统一。(,6,)评分要客观,:,评分是否客观对测验信度有直接的影响。对于客观性题目,评分标准明确,评分容易做到客观,;,但对于主观性题目,受评分者影响较大,不易做到客观。为了尽可能客观评分,应制定明确而易掌握的评分标准,尽量做到一卷多评,或一人只评一题等。,二、效度,效度(,Validity,)即有效性,它是指测量工具或手段能够准确测出所需测量的事物的程度。效度是指所测量到的结果反映所想要考察内容的程度,测量结果与要考察的内容越吻合,则效度越高;反之,则效度越低。效度分为三种类型:内容效度、准则效度和结构效度。,从内容效度,到准则效度,再到构念效度,可视为一种累进,即构念效度需要比准则效度更多的信息,准则效度需要比内容效度更多的信息。,效度比,信度,有更高的要求,信度是效度的必要条件,没有信度的测量工具就谈不上具有效度,但信度高的测量工具未必具有高的效度。,测试维度,1,)表面效度(,face validity,)。指测试应达到的卷面标准,即一套测试题从表面看来是否是合适的。例如,若一次阅读理解力的测试包括许多受试者没有学过的方言词汇,则可认为这次测试缺乏表面效度。表面效度是测试出受试者正常水平的一种保证因素。,2,)内容效度(,content validity,)。指一套测试题是否测试了应该测试的内容或者说所测试的内容是否反映了测试的要求,即测试的代表性和覆盖面的程度。例如,如果某一套发音技能测试题仅仅考查发音所必须具备的某些技能,如只考单一音素的发音,而不考查重读、语调或音素在词语中的发音,那么,该测试的内容效度就很低。,3,)编制效度(,construct validity,)。指一套测试题的诸项目对编制该测试所依据的理论的各个基本方面的反映程度。例如,以结构主义语言理论为基础,认为系统的语言习惯是通过句型而获得的,那么,强调词汇和语法环境的测试题目就失去了编制效度。,4,)经验效度(,empirical validity,)。经验效度是一种衡量测试有效性的量度,通过把一次测试与一个或多个标准尺度相对照而得出。经验效度可分为两种:一是共时效度(,concurrent validity,),即将一次测试的结果同另一次时间相近的有效测试的结果相比较,或同教师的鉴定相比较而得出的系数;二是预测效度(,predictive validity,),即将一次测试的结果同后来的语言能力相比较,或是同教师后来对学生的鉴定相比较而得出的系数。,提高测验效度的方法,(,1,)控制系统误差,:,系统误差是影响测验效度的主要因素。它主要包括仪器不准,题目和指导语有暗示性,答案按排不当,(,被试可以猜测,),等,控制这些因素可以降低系统误差,提高效度。,(2),精心编制测题和测验量表,:,首先测题内容要适合测验目的,如知识性测题就不能全面反映被试的智力水平,它主要测量其知识水平。其次,测题要清楚明了,用语要让被试理解,排列由易到难。第三,测题的难度和区分度要合适。,(3),严格按照测验程序进行测量,防止测量误差,:,要严格按照测验手册进行测量,不能作过多的解释,按标准评分,两次测验间隔要适当。,(4),样本容量要适当,:,当样本容量增大时,样本对总体的代表性提高,样本大,被试的内部差异增大,扩大了真分数的方差,使效度提高。样本容量一般不应低于,30,。另外,抽样方法也很重要,一般用随机抽样,当群体很大时,可分层抽样,样本容量扩大时,其代表性才随之增大。,(5),正确处理好信度与效度的关系,:,信度是效度的必要条件,但信度高的测验,效度不一定高,;,而效度高的测验,信度却比较高。但是,既要有高效度,又要有高信度是不容易做到的。“最大可靠度(信度)要求测验项目之间有高度的组间相关;最大预测有效度却要求低度的组间相关。最大可靠度(信度)要求项目等同的难度;最大预测有效度却要求项目的难度有所区别。中等程度的组间相关(,0.10 0.60),通常可产生良好的效度,(0.30 0.80),并且产生满意的信度,(0.90),。”,(6),适当增加测验的长度,:,增加测验的长度可提高测验的信度,也可以提高效度,但增加测验的长度对信度的影响大于对效度的影响。,三、,测评手段有效度,切忌以点代面,比如:韩复榘的选任方法,过分依赖一个情景也会降低面试效度,比如:某商场老总招聘员工的方法,评估方法,R,评价中心,.65,行为面谈,.48-.61,工作样本测验,.54,能力测验,.53,现代人格测验,.39,个人履历,.38,非行为性面谈,.05-.19,各种方法的预测效度比较(工作绩效),
展开阅读全文