资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第11讲 素养测评的质量分析,本讲内容,效度的概念及其分析方法,信度的概念及其分析方法,区分度的概念及其分析方法,选题质量分析及其分析方法,效度,效度的概念,效度是指测评结果对所测评素养反映的真实程度。对这种真实性的考评,常见的方法有三种:,从内容性质方面分析其内容效度,从效标相关性方面分析其关联效度,从实证方面分析其结构效度,内容效度,是指实际测评到的内容与期望测评的内容的一致性程度。当实际测评到的内容与我们事先所想测评到的内容越一致时,则说明测评结果的内容效度越高,测评结果就越有效。,内容效度在实际操作中的鉴定主要采用定性分析的方法,有蓝图对照分析法与专家比较判断法。,结构效度,结构效度又称作设想效度、构思效度、构念效度、构建效度等。结构效度是指实际所测评的结果与想测评素养的同构程度。它说明了在多大程度上,实际测评结果能够被看作是索要测评的素养在结构上的替代物。,在素养测评中,它是人们最关心的一种效度。这是由素养测评的间接性所决定的。人们总是通过选取一些具体的行为测评来判断实际的素养水平。,结构效度与检验效度的人对素养结构的理解有直接关系。如果李某认为忠诚这一素养即对本企业的忠诚,张某认为忠诚这一素养表现为实事求是的态度,那么对于向其他企业说明本企业产品所存在的问题这一行为,显然李某与张某会把它归类到不同的素养成分中给与不同的素养成分中并给与不同的评价。因此结构效度的检验分析也是一种定性的主观判断。在分析考评过程中,要采取有力措施把主观影响操作在最低点上。,结构效度,结构效度的分析可按一下几步进行:,1.给所要测评的素养的结构模式下一个操作化的定义,“我们所要测评的素养是对xx的态度、有关xx的品质、有关xx的技能。”像这样一些表述所测评素养的具体形象是什么,结构是什么,我们并不清楚,它仍然是从具体行为概括出某种意识或观念,因此对结构效度的分析没有多大意义。这里的构建不是从行为向观念构建,而是相反,由观念向具体行为的构建。不是简单复原,而是在更高的水平上抓住所测素养的本质特征,确定一个可感觉可操作的结构模式,由这种具体的结构模式作为抽象观念建构的替代物。这种替代物的成分显然应该是我们世纪能够看到的、听到的、感觉到的东西。例如:外显行为、客观性生理反响等。素养测评的目标体系实际上就是所测素养的一个行为构建模型,这种结构模型分别由工程、指标、权重、标度等组成。这种模型的建构,在很大程度上取决于所测素养本身的特征及其抽象程度等组成。,要定义或建构一个素养的结构模型,可以从以下几方面着手:,首先,采取工作分析方法,对所想测评的素养进行结构分析与行为分析,确定各种素养结构及其代表的行为。,其次,用图表的形式逐一列出工作分析得到的素养因素及其特征行为。除此之外,还可以通过查找历史上或现在人们对所测评素养的模型的现成资料,丰富已有分析的结果。,再次,还要另外准备一份与已经建构的模型可能混淆的但关系密切的其他模型图表。要反问自己并向人说明为什么所测素养是你所定义的结构模型而不是其他别的结构模型。,2.收集事实资料,评判结构效度,具体方法有:,排除法,如果测评结果能明确的排除它所对应素养结构模型的其他解释,那就说明所获得的测评结果具有较好的结构效度。,咨询法,可以请一些有经验的专家就你所获得的测评结果、所对应的素养结构进行判断或推断,问他们该测评结果实际测评的素养是什么。如果大家的答复与你所想测评的素养结构几乎一致,那么说明你的测评有较好的结构效度。,相关法,找一个具有较高结构效度的测评工具或结果,与你所获得的测评结果进行相关性分析,如果相关性很高,说明你的测评结果具有较高的结构效度。,例如:某一个具有“自尊”结构效度的测评量表,它的测评结果就应该与自信、社交能力及领导作用等测评量表的测评结果成正比,而与诸如内向性、自卑、孤独等测评量表测评的结果成反比。,逻辑分析法,当大家对所测素养的结构模型具有比较一致的认识时,只要能判定测评内容(工具)选择正确,且整个测评过程除了一切外来干扰因素,就可以说测评结果具有较好的结构效度。,例如:测评时间足以保证被测评者完成所有的工作,被测评者没有受到催促因素的影响;测评工具的指导十清楚确,被测操作准确。,多元分析,多元分析就是采取聚类分析与主成分分析等数学手段,对测评结果进行分析,看分析的结果。,例如:所找出的主要因素与分类结果与所想测评素养的结构是否一致,如果一致,则说明所获得的测评记过具有较好的结构效度。,关联效度,又称实证效度、效标效度、效标关联效度,是指测评结果与效标的一致性程度。效标是一种用来衡测评有效性的外在参照标准,它可以是一种测评的结果,也可以是标准测评分数。根据效标是否可以同时获得,可将关联效度分为同时效度与预测效度。作为效标的结果与预测结果同时获得,这种效度称之为同时效度。当作为效标的结果是后来测评中获得,这种效度称为预测效度。它反映了现在的测评结果对未来素养开展的预测程度。,例如:两个人同时采用观察评定与问卷测验测评同一个人的工作态度,两个测评结果相关系数很高,例如0.80,那么以后在类似的情况下,可以用问卷测验代替花时太多的行为观察法。,关联效度,例如想检测一下自编品德测评的效度,决定采用效标关联中的同时效度分析方法,故让被测者同时接受自编品德测验与卡特尔16因素问卷测验。,关联效标的分析关键在于效标的选择。效标作为衡量测评结果有效性的参照标准,应该是可以测评到且独立于所分析的测评结果的行为结果。效标可以分为行为效标与观念效标。,行为效标的选择以客观性为依据。常见的行为效标有以下几种:,学术成就,特殊训练成绩,实际工作表现与成绩,团体特征,等级评定结果,先前被证明是有效的测评结果,效度分析中的几个理论问题,关于效度概念的研究,1921年 教育研究指导协会提出,效度是“测验在多大程度上测到所要测的东西”。同时被提出的还有“预测效度”和“共时效度”,后来被统称为“效标效度”。,19世纪30年代,人们将更多的注意力放在测验对于具体目标课程的代表性上下上。于是引入“课程效度”,后更名为“内容效度”。,1954年 心理学会出版了关于心里测验和诊断的技术建议书,明确列举了四种类型的效度:预测效度、同时效度、设想效度、内容效度。心理学会、教育研究学会和国家教育测量 会1966年联合出版的教育与心理测验的标准和指南中,将效度类型进一步简化为效标关联效度、设想效度和内容效度三种。,和又进一步把前两类归结为准则关联效度。这是一种三位一体的分类法观点。指出,连续了30年的旧观念(即把效度分为相互别离且并列的三类)已经过时,取而代之的是一元论的产生。,以建构效度概念为中心,提出了检验测验效度的四个层面(渐进矩阵)。,测试解释,测验使用,证据,基础,结构效度,结构效度+适切性和实用性,后果,基础,结构效度+隐含的价值,结构效度+适切性和实用性+社会效果,关于效度概念的研究,结构效度概念产生后第二年,.和.提出了5种验证方法,即分组区分法、相关矩阵与因素分析法、内部结构研究、不同场合下的变化研究、过程研究。,DeborahLee提到,效度指的是一个测验准确测量它所要测的东西的能力,包括内容效度、效标关联效度和结构效度。,张厚粲、孙晓敏、王晶、叶映华、郑全全对效度概念演进及其新开展进行了研究。张厚粲、孙晓敏(孙晓敏、张厚粲,2004)回忆了心理测量学中效度概念开展的三个阶段,早期效度概念关注的是两个变量之间的相关.随后重点转向效度的多种类型,现阶段则注重考察测验的设想效度。总之,效度确证成为一个持续不断的动态过程;在这个过程中,运用各种技术不断地评价、质疑和检查由测验分数所作推论和解释的有效性成为心理与教育测量研究中不可或缺的组成局部。,关于效度概念的研究,关于结构效度的研究,肯贝尔和菲斯克(D.W.Fiske)对设想效度的考验方法进行了研究(肯贝尔和菲斯克,1959),1960年肯贝尔指出,要确定一个测验的设想效度,则该测验不仅应与测量相同特质或设想等理论上有关的变量有高的相关,也应与测量不同特质或设想等理论上有关的变量有低的相关,前者称为会聚效度,后者称为区分效度。,聂建中、汤晓媚(聂建中、汤晓媚,2006年5月)对结构效度的开展演变进行了综述,文章分析了结构效度在内容、验证方式和威胁因素这三方面所发生的变化,指出结构效度从概念、内容到与其他效度的关系上都发生了微妙的变化,其概念内涵更加清楚,涵盖内容更加广泛,在整个效度概念中占据了更加重要的位置。同时,还指出了以往常用的结构效度验证方法的缺乏,提出要对结构效度进行试前和实施阶段的理论验证。,效度应用,内容效度分析适用于某些对员工进行选拔和分类的职业测验,舍恩菲尔特、阿克、柏尔森(Schoenfeldt,Acker&Perlson,1976)清楚而详细的说明了编织工业阅读测验是怎样应用各种内容效度分析法。在编制联邦政府和州政府公务员测验时,这种方法得到了广泛的采用。,郭庆科(郭庆科,2002)对各种效度的应用进行了分析,他指出效标关联资料可以应用于对个人分数的预测(包括简单回归法、多种测验信息的综合)、人员的分类与安置(人员分类的性质、人员分类的优点、差异效度),。,信度,信度的概念,信度是指测评结果所反映素养的准确性。对于这种准确性的考评目前大致有稳定系数、等值系数、分半系数、内部一致系数、评分一致性系数等。,以上几种信度都是针对常模参照测验而言的,标准参照测验中的信度计算通常使用分类一致性信度,这种信度的的常用估计方法是考察同一批被测者在两次是册或者复本测验中的分类是否一致。标准参照测验中的信度也可以使用K系数计算,较分类一致性信度在统计上更合理(Cohen,1968;Aiken,1988)。,再测信度,指以同样的测评与选拔工具,按照同样的方法,对于相同的对象再次进行测评与选拔,所得先后结果的一致性程度。再测信度的计算一般采用皮尔逊积差相关系数。,个体的素养测评在测评过程中会涉及许多因素的影响,素养本身有时也无法精确定义。我们常常把对个体测评结果的准确性检验,置于群体测评结果的相互关系中,转化为两次位置关系的一致性分析。当同一对象的测评结果以同样的测评方式再次获得后,其顺序位置关系变异很小时,则说明测评结果比较准确。,例如:在技能测评中李某的分数是,在全体被测者中排名第一,这到底准不准呢?我们再重复测评一次,结果李某的分数是,还是排名第一,而且其他被测的位置顺序变化很小,我们就可以说第一次的技能测评结果很可靠。,复本信度,复本信度测评结果相对另一个非常相同的测评结果的变异程度。,“非常相同”一般以等值解释。所谓等值,是指在测评内容、效度、要求、形式上都与原测评一样,其中一个测评可以看作是另一个测评的近似复写,即复本。,“变异程度”一般以它的反义词“一致性”解释。,因此复本信度实际上是一种用等值系数揭示的信度。等值系数即为两组测评结果的相关系数。,一致性信度,一致性信度又称同质性信度,是一种常用的估计信度的方法,反映了测验题目与所测量内容的一致性程度。,一致性信度的计算公式主要有分半信度,主要采用斯皮尔曼-布朗修正公式计算;库德-理查逊公式和克伦巴赫系数。,如果被测在第一个工程上比其他人分数高,在第二个工程上又比其他人高,在第三个工程上也比其他人高相反另一个人在第一个工程上比其他人分数低,在第二个工程上又比其他人低,在第三个工程上也比其他人低那么毫无疑问,我们会认为测评结果比较可靠。,评分者信度,评分者信度指多个测评者给同一组被测样组进行评分的一致性程度。,测评与选拔结果的差异程度来自两方面一是被测评者自身,二是被测评者及其测评。信度主要是对后者的度,测评者及其测评的无关差异越小,测评与选拔结果就越可靠。,测评者的评分是引起主观性测评结果差异的主要原因。客观性测评是利用计算机评分,不受主观因素影响,不存在评分误差。评分者信度主要采用肯德尔和谐系数计算。,速度测验的信度,速度测验是指那种由于时限很紧或题目很多使被试不可能全部完成的测验。,以上介绍的几种信度
展开阅读全文