第十一章人员素质测评质量分析

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第十一章素质测评的质量分析,目录,效度,信度,项目分析,其他分析方法,第一节效度,测评的效度就是指测评的有效性，即能测评到所要测评目标的程度。效度是评价测评好坏、选择测评的重要标准之一。,效度的作用比信度的作用更为重要。强调测评目标、工具与测评对象的统一。,一、人员测评的有效性,效度的理论定义：与测评目标有关的真实分数方差与总分方差的比率。公式：,其中，为测评效度；为有效方差；为总分方差。,效度的性质,实际上效度指的是“测评结果的效度”，是指测评结果的准确性程度，而并不是指测评本身。也反映了测评结果对测评目标的体现程度。,二、如何评估人员测评的效度,（一）内容效度,1、内容效度是指测评内容取样是否反映测评的目标，适用于测评对象。,2内容效度的评估方法,测评内容范围明确；,测评内容的取样有代表性。,采用如下步骤：,1）确定总体范围；,2）编制双向细目表；,3）制定评定量表。,还可采用经验的方法、统计分析方法。,3内容效度的应用,内容效度最适合于评估教育和职业成就测评。,也适合于某些用于人员选拔和分类的测评。,（二）效标关联效度,效标关联效度，也称效标效度，它反映的是测评分数与外在标准（效标）的相关程度，即测评分数对个体的效标行为表现进行预测的有效性程度。,效标是考察测评效用的外在参照标准。效标关联效度往往用于预测性测评。,1预测效度和同时效度,预测效度的效标资料往往是测评结束后隔一段时间才获得，它反映被试行为表现的预测程度。,同时效度的效标材料可以和测评分数差不多同时搜集。,同时效度多用于诊断现在的状态，预测效度多预测未来的结果。,如：1）“某人成功了吗？”,2）“某人会成功吗？”,2效标和效标测评,效标是衡量测评有效性的参照标准。,把效标转化为某种可以操作的测评指标，称为效标测评。,效标可以细分为观念效标（即效标的实质概念内容）和效标测评（即效标的具体度量方法）。例如，对于筛选销售人员的观念效标是“销售工作的成功”，而效标测评是“年销售量”。,3常用的效标,（1）学术成就,（2）特殊训练成绩,（3）实际工作表现,（4）团体对照,（5）等级评定,（6）先前有效的测评,（三）构想效度,构想效度是指测评能够测评到理论上的构想或特质的程度。所谓构想通常指一些抽象的、假设性的概念或特质，如智力、创造力、言语流畅性、焦虑等。,1确定构想效度的步骤,建立理论框架，以解释被试在测评上的表现；,依据理论框架，推演出各种有关测评成绩的假设；,以逻辑和实证的方法来验证假设，根据累积材料决定这种理论是否能恰当地解释现有材料；如果不能做出恰当解释，则应该修正上述假设，直到能做出恰当的解释为止。,如：创造力测评构想效度。以测评分数与根据创造力的心理学理论观察被试行为所做出的判断做相关分析。,2常见的确定构想效度的指标,（1）发展变化,（2）与其他测评的相关,（3）因素分析,因素分析是分析行为资料内部关系、结构特性的一种统计技术。,（4）内部一致性,如果测评的所有题目被验证为具有很高的内部一致性，说明它们都是关于同一内容的，属于同一种构想。,用来考察内部一致性的方法主要有三种：,1）考察总分数较高和较低两类人在各,题目上通过率的大小，如果通过率低，应淘汰或修改。,2）计算题目与总分的相关，如未达显著水准，应予淘汰。,3）求分测评与总分的相关。各分测评与总分有显著相关，如果不是，则应予删除。,（5）会聚效度和区分效度,会聚效度：测评与测评相同特质或构想等理论上有关的变量高相关；,区分效度：测评与测评不同特质或构想等理论上无关的变量低相关。,如，一个数学推理能力测评与数学课成绩的相关就是会聚效度；而该测评与阅读理解能力测评的相关显著低，就是区分效度。,三、影响效度的因素,测评本身带来的影响因素,1测评题目的质量,2实施测评时的于扰因素,3被试的影响因素,4测评的长度,样本团体的性质,效标的性质,如果其他条件相同，所测评的行为或心理特质与效标行为或特质越相似，效度系数就越高。,第二节信度,一、信度的定义,信度主要是指测评结果的可靠性或一致性。,由测评工具否精确引起的误差叫系统误差。,由操作是否到位引起的误差叫随机误差。,信度考虑两方面的问题。,一是稳定性：不同时间、不同测评条件下所得分数之间的一致性有多大；一个人的所得分数与“真实分数”之间接近程度有多大；是否可以达到实际应用的程度等。,二是影响稳定性的原因：什么因素造成了这种差异；这些影响的相对作用有多大。,二、信度的作用,信度高低的指标通常以相关系数表示，称为信度系数。信度系数一般是同一样本所得的两组资料的相关，在理论上表示为实得分数与真实分数相关的平方。信度系数公式：,它是,其中,：,真实分数标准差与实得分数标准差的比率。,其中，r,xr,有时也称为信度指数，它是真实分数标准差与实得分数标准差的比率。,还可通过分析个人分数再测时的变化（误差）来考察信度。两次测评分数的差异越大，信度就越低。,在人员测评中，对信度系数进行确定通常有以下两方面的作用：,方差：即每个被测评者得分与其算术平均数差的平方和与总个数之商。公式：,标准差公式：,1解释真实分数与实得分数的相关性,总的方差（即标准差的平方的缩略语）中有多少比例是由真实分数的方差决定的。,2说明可以接受的信度水准,一般的能力与成就测评的信度系数在090以上；人格、兴趣等测评的信度系数通常在0800.85之间。r,xx,070时，不能用测评对个人作评价，也不能在团体间作比较；,当r,xx,070时，可用于团体间比较；r,xx,085时，可用于鉴别个人情况。,三、如何评估人员测评的信度,1.重测信度又称为稳定性系数,用同一测评，在不同时间对同一群体施测,N为两次测评结果数据配对总数；x被分析的测评结果；y为重复测评得到的结果。,在进行重测信度的评估时，还应注意以下两个重要问题：,1）重测信度一般只反映由随机因素导致的变化，而不反映被试行为的长久变化。,2）不同行为受随机误差的影响不同。,两次，这两次测评分数的相关系数即为重测系数。一个测评的重测信度越高，说明测评的结果越一致、越可靠。积差相关公式：,2.复本信度又称等值性系数。,它是以两个测评复本（功能等值但题目内容不同）来测评同一群体，然后求得应试者在这两个测评上得分的相关系数（积差相关）。复本信度的高低反映了这两个测评复本在内容上的等值性程度。两个等值的测评互为复本。,3内部一致性信度,内部一致性信度主要反映的是测评内部题目之间的关系，考察测评的各个题目是否测评了相同的内容或特质。,1）分半信度,分半信度系数是通过将测评分成两半，计算这两半测评之间的相关性而获得的信度系数。,分半法经常会低估信度，必须进行修正。斯皮尔曼一布朗公式可以估计增长或缩短一个测评对其信度系数的影响，用这个公式进行修正的前提条件为：两半测评的方差相等。,分半法中的斯皮尔曼一布朗修正公式为：,其中，r,hh,为两半测评的相关系数，r,xx,为估计或修正后的信度。,当两半测评的方差不同时，应采用卢伦公式或弗拉纳根公式进行修正。,卢伦公式只要求将被试在两半测评的分数之差的方差（S,d,2,）和测评总分的方差(S,x,2,)代入如下公式即可直接计算分半信度：,其中S,d,2,为两测评分数之差的方差；S,x,2,为测评总分的方差。,也可以采用弗拉纳根公式直接计算分半信度：,S,a,2,与,S,b,2,为两个分测评分数的方差；,S,x,2,为总分方差。,2）同质性信度,同质性是指所有测评题目测评的只是单一特质或内容，表现为所有测评题目得分的一致性。乐观情绪特质和外向特质、预测和决策、监督与控制等都是不太容易区分的。,如果需要在一个测评中测评不同的内容，就应该将测评设计为几个分测评，每个分测评测评一种内容。例如，16PF人格测评就是包含16个分量表的测评，每个分量表只对一种人格特质进行测评。,常用的同质性信度计算方法是库德理查逊估计方法。计算公式有库德理查逊20号公式（简称（KR20）和21号公式（KR21）。,下面是,KR20,公式,：,其中,n,为测评题目数，,为通过题的人数比例；,q,i,为未通过该题的人数比例；=1;,为所有题目答对与答错人数百分比乘积的总和。,四、评分者信度,在有些测评中，评分者的评判也是误差的来源之一。,评分者信度是指不同评分者对同样对象进行评定时的一致性。最简单的估计方法就是随机抽取若干份答卷，由两个独立的评分者打分，再求每份答卷两个评判分数的相关系数。这种相关系数的计算可以用积差相关方法。,如果评分者在三人以上，而且又采用等级记分时，就需要用肯德尔和谐系数来求评分者信度。其公式为：,其中，,K,为评分者人数，,N,为被评定的人数或答卷数；Ri为评分者给某人（或某一答卷）评分之和。,为每一个对象被评等级。,评分者,答卷编号,一,二,三,四,五,六,甲,4,3,1,2,5,6,乙,5,3,2,1,4,6,丙,4,1,2,3,5,6,丁,6,4,1,2,3,5,R,i,19,11,6,8,17,23,例如，有4名评分者，对6份答卷进行评分，所评等级如下：,五、影响信度的因素,1样本团体的性质,1)样本团体的分数分布,分数分布越广，信度系数就相对越高，分数分布越窄，信度系数就会越低。,2)样本团体的异质性,一般来说，取样团体的异质性越大，信度系数就相对越高。,但是在测评中,往往会因为团体过于同质或过于异质而出现信度被低估或高估的情况。这种情况下，可以采用下面的公式对求出的信度进行修正：,其中,为估计的信度；为取样的信度；S,X,为取样团体的标准差；为估计团体（取样的总体）的标准差。,3)不同团体间能力水平的差异,2.测评的长度,信度还会受测评长度（即题目的多少）的影响。一般来说，测评越长，信度值越高。,3.测评的难度,测评的难度也会对信度产生影响。如果一个测评的难度太低，出现天花板效应；如果难度太大，出现地板效应，,第三节项目分析,项目适合度,在素质测评中，项目不仅仅是试题，更多的是一些咨询问题或观察评定点（指标），它们无难易之分，适合度指的是被测者行为符合项目测评标准的程度。,当项目为试题时，适合度即难度；,当项目是问卷中的问题时，适合度即所有选对的被测者人数与总人数之比；,当项目为观察评定量表中的指标时，适合度即所有被测得分平均值与指标满分值之比。,项目区分度,又称鉴别力，指项目得分对被试实际能力或心理特质水平的区分能力或鉴别力，也即项目得分的高低与被试实际能力或心理特质水平高低的一致性程度。项目区分度的计算方法主要有相关分析法（包括积差相关法、二列相关法和点二列相关法）、极端组法（鉴别度指数、临界比）和因素分析法,项目独立性,在能力测评中，常常需要项目之间有一定的独立性。所谓独立性即非相关性或低相关性。独立性的分析一般采用项目间分数的相关系数揭示，根据实际得分分布是否均匀，可以分别采用r系数法和列联表检验法。,第四节其他指标的分析,客观性,测评的客观性由测评方法的客观性与测评者的客观性两方面构成,总体分布与水平,总体分布指测评结果在各水平层次上的分布情况，总体水平一般指对测评结果集中量的分析。,区分性与差异性,测评工具的区分性是指把不同水平的被测者区分开来的程度，测评区分性一般通过测评结果差异性的分析来揭示。,误差,误差是指通过测评结果的定性定量分析，判断测评结果是否受到心理效应的严重影响。分析的主要内容是心理误差、标准误差以及单个测评结果的致信区间。,误差,心理误差,哈罗效应误差,哈罗效应又称晕轮效应，是指测评者往往会因为对被测评者整体印象的好坏从而影响他对每个素质的测评。例如因看到一个人相貌端庄、严肃，就容易产生此人责任感很强的看法。由哈罗效应引起的误差叫哈罗效应误差。,哈罗效应还表现为因对某个重要因素的印象好坏而对整体评价产生影响，所谓一好百好，一丑白丑。虽然这是一种泛化影响，而前者是一种演绎影响。,趋中心理误差,趋中心理误差是指因为测评者既不愿把被测评的过好，也不愿把被测评的过差而过于集中在中间段而

展开阅读全文

第十一章 人员素质测评质量分析

最新文档

第十一章人员素质测评质量分析