第7讲：测验的效度

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第六讲：测验的效度,效度概念的发展演变,效度研究的种类与方法,1,1. 测验效度概念的发展演变,1.1 以相关为基础的单一效度观时期（20世纪50年代前）,1.1.1 最初的概念测验标准法、可信度与价值度,测验标准法是建立分数意义的一种方法，这种方法旨在考察测验分数与某一标准之间的关系，而这种标准被认为代表了测验的实质。,2,可信度，是指一个测验能够反映现实世界的程度。研究者们认为一个可信度高的测验是有良好代表性的测验，因而更适于在现实中推广。,价值度与测验的价值有关，而检验测验价值的办法就是相关分析。,3,1.1.2 效度概念的提出,1921年，效度概念由美国教育研究指导协会定义为“测验在多大程度上测到了它要测的东西”，同时提出的还有两个概念，即“预测效度（predictive validity）”和“共时效度（concurrent validity）”。这两种效度后来被归成了“效标关联效度”。,测验效度的操作性定义：效度是指测验分数在多大程度上估计或预测了标准测验的分数。,4,1.2分类效度观时期（20世纪50至80年代）,1.2.1 内容效度的出现,内容效度的出现宣告了以相关为基础的单一效度观时期的结束。,内容效度最初叫做“课程效度”，可见它多应用于成绩测验。内容效度研究的目的就是要确定题目对于一个内容范围是否有很好的代表性。,5,1.2.2 效度的分类,Guilford(1946)把效度分为因素型(factorial)和实用型(practical),Cronbach(1949)则认为有逻辑分析效度和经验分析效度两类,Angoff(1988)曾经总结了20世纪30年代到80年代心理测量学文献中提到的15种效度类型,比较规范的有关效度的分类载于美国心理学会（American Psychological Association，APA）编制的教育与心理测验标准。,把效度分为三类，即内容效度、效标关联效度和构想效度。,6,1.3 效度一元化时期（20世纪80年代至今）,1.3.1 构想效度的建立,构想效度概念是1954年心理测量与诊断技术的建议执行标准中首先提出的，Cronbach和Meehl次年在一篇文章中对这个概念进行了解释。毋庸置疑，构想效度概念的提出是心理测量界的一次重大变革，这一概念一经提出很快成为心理测验的质量标准。,7,1.3.2 效度一元化概念的提出,随着研究的深入和理论的发展，研究者们现在倾向于被测验的效度看成是一个一元化的概念（unitary concept）。美国1985年修订的教育与心理测量标准明确地说：,效度是一个一元化的概念。虽然积累证据的方式可以有很多种，但效度指的总是根据分数所做的推论在多大程度上得到了证据的支持，被认为有效的是一测验为特定用途所做的推论，而不是测验自身,。,8,效度一元化概念的提出使效度研究成为一项综合研究，而构想效度是这项研究的核心问题，一个真正意义上的效度研究应当也必须围绕构想效度来开展。我们用下面的图来表示“一元化”时代的效度研究：,效度,内容效度,构想效度,效标关联效度,共时效度,预测效度,9,效度研究的种类与方法,1 表面效度,表面效度（face validity）指测验的表面可信性或可接受性。表面效度又被称为“外行的效度（layman validity）”，因为表面效度的根据是外行的直觉和印象。,尽管表面效度不是科学概念，也没有经验性证据的支持，在开发测验时，我们还是要考虑这个问题，因为如果测验太缺乏表面效度，就不会有人接受它。,10,2 内容效度,2.1 概念,内容效度（content validity）是指一个测验在多大程度上测到了它要测的内容。,取样合理，代表性强的测验，内容效度就高，反之，内容效度就低。内容效度的高低，一般由专家根据对内容范围和测验内容的分析来判定，所以，内容效度是一种非经验性效度。,11,2.2 研究方法,研究目的：确定测验的题目对一个内容范围是否有很好的代表性。,研究步骤：,（1）定义内容范围,（2）选择一组该领域的资深专家,（3）提出一个框架，这个框架是测验题目和内容范围的匹配原则,（4）收集并综合匹配处理所产生的数据,12,几个需要考虑的问题,1）,不同的项目是否需要做加权处理以反应其重要性的不同？,2）,项目匹配作业应如何进行？,一种做法是，让专家们标出测验题目和哪个项目是一回事。另一种做法是，让专家判断一个题目与内容范围匹配还是不匹配。,13,3）,试题的哪些方面需要检查？,考查范围：,A 汉语水平词汇大纲中的甲级词,B 实词, 面对这样的突发事件，他显得比我们想象的还要,镇定,。,A 悲伤 B 犹豫 C 严肃 D 平静, 外祖父,A 爸爸的爸爸 B 爸爸的妈妈 C 妈妈的爸爸 D 妈妈的妈妈, 这本书是他,。,A 的 B 了 C 过 D着, 年轻学习,认真服务,热情教师,14,4）,匹配的结果应怎样计算？,（1）题目与项目匹配的百分比,（2）重要项目匹配的百分比,（3）项目权重与代表这些项目的题目数的相关,（4）题目-项目的一致性指数,（5）没有反映到测验中的项目的百分比,15,内容效度的局限性,它只涉及测验和内容范围之间的关系，没有把被试在测验上是如何表现的考虑在内。因此，内容效度只是测验的属性，对于千变万化的被试来说，它是一成不变的,。,内容效度提供的证据，只支持内容范围的相,关性和测验内容的代表性，却不支持根据测验分数做出的推断。,16,研究内容效度的困难,1. 定义内容范围十分困难。,我们很难定义一个清楚的、不含糊的语言或语言应用的内容范围，即使是在教学和成绩测验中，我们也很难穷尽性地列出学生所可能完成的语言作业。,2.,我们可以根据被试答对的题目来推断他能做什么，却无法推断他不能做什么。,17,3 效标关联效度,3.1 概念,效标关联效度（criterion-related valididy）是指测验和一个独立的效度标准的一致性程度，测验和效标的一致性程度高，测验的效标关联效度就高；反之，效度就低。效标关联效度是用测验和效标之间的相关系数来表示的，所以，它是一种经验性效度。,效标关联效度分为共时效度和预测效度两种。,18,共时效度（concurrent validity）关心的是测验和另一个已知有效的测验的相关程度，已知有效的测验是效标。被检验的测验和作为效标的测验差不多同时让学生做，在这么短的时间间隔内，被试的水平不会有大的变化，如果两个测验的结果不同，反映的是测验本身的差别，因此，这种效度叫共时效度。,预测效度（predictive validity）是看测验和未来的某测验或被试的行为之间的相关程度如何，未来的测验或行为是效标。,19,3.2 研究方法,在建立效度的过程中，我们需要收集另一种证据，这种证据表明测验分数和某个标准之间的关系，而我们相信这个标准同样表现了所测的能力。,这个标准可以是被试在另一同类测验上的分数，可以是被试将来的实际表现的水平，还可以是有良好定义的水平等级。,20,效标及其选择,效标（效度标准）就是确实能够反映所要测量的属性的变量，它是考查测验效度的一个标准,。,一个好的效标必须具备以下几个条件：,1 同质性，即与研究对象的测量特质相同。,2 有效性，即能真正反映所要测量的特质。,3 可靠性，也就是要有较高的信度。,4 客观性，即没有“效标污染”。个人的效标成绩可能由于评定者知道其预测源分数而受到影响，从而降低了客观性，这称之为“效标污染”。,5 实用性，最佳的效标测量应该用法简单、省时、花费少。,21,研究步骤：,（,1）确定一个适用的效标,（2）确定一个适当的被试样组,（3）施测并记录被试的分数,（4）用作为标准的测验对同一组被试施测，或收集被试的标准行为的数据，如大学的各科成绩,（5）计算测验分数和标准之间的关联程度,22,效标关联效度的计算方法,效标分数是连续量表：计算测验分数和效标分数之间的积差相关,效标分数是等级量表：用等级相关,效标分数是二项分布，如大学的学习情况可分为毕业和肄业（或成功与不成功）：计算测验分数和效标之间的,二列,相关。,测验分数和效标分数之间的相关系数，称为测验的效度系数。,23,效标关联效度的局限,它并不直接表明测验和效标测的是不是同一种能力,可能导致循环论证,效标本身的可靠性不能绝对确定,24,构想效度,构想效度概念是1954年,心理测量与诊断技术的建议执行标准,中首先提出的。,Cronbach,和,Meehl次年,在一篇文章中对此进行了解释。,构想（construct）是一种思维的产物。,是以一种方式对观察到的东西进行解释即把观察到的东西组织起来,。,构想效度表现的既是理论或观念的有效性（也就是理论与客观实在相符合的程度），也是测验的有效性。,25,对构想效度的理解,（注意区分理解的正确性）,1.构想效度要考察的是一个考试的结果在多达程度上和我们根据某一理论做出的预测相一致。它验证的是我们所做的假设是否有效。,（桂诗春、宁春岩，1997：293）,2.,建立构想效度的目的是，证明被测量的潜在的理论构想本身是有效的。一般说来，建立构想效度的过程始自一个心理构想，而这构想就是理论的一部分。这个理论能够做出某种预测，即预测这个构想会怎样运作，或在一特定环境中会受到什么影响。如果假设的结果出现了，则假说得到支持，而构想可以说是有效的。通常这需要在各种条件下做一系列的检验。,（Henning,G.,1987:97-98）,26,构想效度的特点,构想效度不仅指测验的效度，亦即平常所说的“是否测到了要测的东西”，而且它也指理论假设是否得到了经验数据的证明。因此，构想效度既和观察层面有关，也和理论层面有关。它不仅涉及测验，同时也涉及用于指导测验的理论，测验的有效和理论的有效是相辅相成的。,27,研究方法,在测验中建立构想效度的过程是：,（1）提出一个假说性构想，假设用它来解释测验表现；,（2）从产生构想的理论中推导出关于测验表现的一个或几个假设；,（3）用逻辑的和经验的方法对假设进行检验。如果测验结果出现了我们假设的行为，那么测验就是有效的，同时，理论假设也得到了证明。这个过程和实证主义方法是一致的。,28,Messick（1996）认为构想效度是一个一元化的概念，需要从六个方面进行研究。这六个方面是：,1）内容方面，包括内容的相关性、代表性及其有关技术指标；,2）本质方面，是指在被观察到的表现和题目之间建立联系的理论；,3）结构（structure）方面，要看分数量表与构想域拟合的精确程度；,4）概括性方面，检验分数的特性和解释的涵盖范围；,5）外部方面，指从多特质比较得来的聚敛和判别证据以及标准关联程度和实用性方面的证据；,6）效果方面，要看分数解释所蕴涵的价值判断等。,29,Nitko（1983）提出，建立构想效度需要三个方面的证据：逻辑分析、相关分析和实验研究。,。,几种方法,1.相关分析,检验测验的不同部分之间或不同的测验之间的相关程度，以此来确定测验能否得到这方面证据的支持,30,因素分析,因素分析方法是英国心理学家斯皮尔曼在考察智力结构时发展起来的一种统计方法。它的目的是从为数众多的观测变量中概括和推论出少数因素，用最少的因素来解释最大量的观测事实，从而建立起最简洁最基本的概念系统。,包括探索性因素分析和实证性因素分析,31,多特质多方法分析（,multitrait-multimethod matrix,）,Campbell,D.T,和,Fiske,D.W.,二人于,1959,年提出的“多元特质多重方法矩阵”,(MTMM),是检验构想效度的一种有效手段。,MTMM,关心两个方面的问题，一是使用不同方法测量同一特质，另一是使用同一方法或不同方法测量不同的特质。用不同方法对同一特质进行测量，所得结果具有高相关称测验具有聚敛效度,(Convergent Validity),；而用同一方法或不同方法对不同特质进行测量，所得的相关比前者低称测验具有判别效度,(Discriminant Validity),。如果一个测验既具有聚敛效度又具有判别效度则称测验具有较高的构想效度。使用该方法研究构想效度首先要得到一个说明特质之间、方法之间以及特质和方法之间相关程度的,MTMM,矩阵,。,32,

展开阅读全文

第7讲：测验的效度

最新文档