《心理测量学》课件第七章测验分数的可比性与测验等值

资源描述

,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,心理测量学,*,Click to edit Master title style,第七章测验分数的可比性与测验等值,心理测量学,测验等值概述,1,常用等值资料采集方法设计,2,测验分数等值关系计算的基本方法,3,第七章测验分数的可比性与测验等值,心理测量学,第七章测验分数的可比性与测验等值,每年的全国高考或者自学考试，所考察的科目、知识、能力范围大致相同。各年度试卷的难度水平是否有变化？各年度的考试分数之间究竟有何关系？考生的水平是否有提高？,例如,高等教育自学考试,各专业的各门课程的考试，通常是在同一课程考试大纲下，每年重复测试所谓的平行试卷，人们有理由提出这样的问题,:,某门课程今年考生所得的,60,分是否与去年同一课程考生所得的,60,分等值,?,因为只有在它们等值的情况下，考试对这两年参加同一门课程测验的考生才是公平的。,心理测量学,测验等值概述,D,B,C,A,测验等值的含义,测验等值的条件,等值步骤,等值误差,测验等值的含义,将不同测验（考察同一特质）上的分数（特质水平值）和项目（试题）参数做出单位系统转换，从而使之能相互比较的过程，叫做测验等值。,心理测量学,从,本质,上,说，测验等值就是通过对考核,同一种心理品质,的多个测验形式作出测量分数系统的转换，进而使得这些不同测验形式的测验分数之间具有,可比性,。,A B C,82 85 80,1,。测验等值中所说的测量分数系统的转换与测验原始分数及导出分数之间的转换是不相同的。,2,。寻找测验等值关系与寻找两测验之间预测关系也是不相同的。,测验等值的分数转换：是测量同一种心理品质的,不同测验形式,之间的分数转换，其目的是为了使不同测验分数之间具有可比性。,原始分数与导出分数的分数转换：是,同一种测验内部,的分数转换，将测验的原始分数转换为各种导出分数，其目的是为了获得原始分数在团体中的相对位置，使原始分数获得解释意义。,三、测验等值的条件,1,、,同质性,。被等值的不同测验形式所测的必须是同一种心理品质。,2,、,等信度,。被等值的不同测验形式必须具有相等的测验信度。,3,、,公平性,。考生参加被等值的不同测验形式中的任何一个测验，等值后的结果应该是一样的。,4,、,可递推性,。如果测验,X,与测验,Y,之间存在某种等值关系，测验,Y,与测验,Z,之间存在某种等值关系，那么测验,X,与测验,Z,之间一定存在某种等值关系。,如果,f(x,) =,y,g(y,)=z,，那么,h(x,)=,gf(x,)=z,5,、,对称性,。对两个待等值的测验,X,和,Y,，无论等值转换从哪个测验出发，所获得的等值对应关系是相同的。,6,、,样本不变性,。,X,与,Y,测验之间的等值关系不受施测样本的影响，也不受施测情境的影响，它完全由,X,和,Y,本身的内在性质决定。,如果待等值测验能完全符合上述,6,个条件，则等值的结果将令人满意。,实际研究中，测验等值转换关系的对称性和样本的不变性是经典测验理论（,CTT,）等值方法所不容易满足的条件。最好使用项目反应理论（,IRT,）、概化理论（,GT,）等方法建立题库,。,等值步骤,心理测量学,两测验形式之间的等值关系，必须依据等值条件去寻找这一隐性等值关系，并用某种形式将其显示出来。,揭示两测验形式的等值关系，实现测验等值应该按一定步骤进行。,等值步骤,心理测量学,测验等值步骤（,七步,）,确定等值目的,编制测验复份,选择一种数据采集的设计方法,贯彻数据采集设计方案,等值步骤,心理测量学,选择一个或多个等值的操作性定义，以确定拟予等值的测验形式之间存在什么关系。,选择一种或多种统计估计方法,评价等值结果,测验等值的步骤一般依据以上七步完成，有时个别步骤的顺序可能会有所调整，但总体上不会有很大变化。,等值误差,心理测量学,等值完成后必须对等值结果进行评价。评价等值关系可靠性与准确性的指标是等值关系中所包含等值误差的大小。,等值误差,有两类：,随机等值误差,与,系统等值误差,。测验误差不可避免一样，等值误差也是不可避免的。,等值标准误差,测量学把由,抽样,而引起的等值误差称作,等值标准误差，,是衡量,随机等值误差,的指标。,像测验误差不可避免一样，等值标准误差也是不可避免的,。,等值标准误差的操作定义：,应用样本数据估计测验形式,X,与,Y,的等值关系时，如果反复抽取等容量的样本，可以求得许多个,X,与,Y,的等值关系，对于,X,的一个固定值,X,0,，会有若干个不等的,Y,0,与之对应，这若干个,Y,0,的标准差就是对应于,X= X,0,的等值标准误差。,从这里可以看出等值标准误差的大小是会随着被等值的具体分数而变化的。,从总的趋势来说，随机等值误差的大小是会随着,样本容量,的增大而减小的。,控制办法：,数据平滑法,测验等值误差是一个变量，随等值分数的大小而变，其总趋势是等值分数越趋于分布的两端，等值的标准误差越大。,系统等值误差（等值偏差）,在等值设计和等值关系估计过程中，必须作出若干假设，具备若干等值条件，如果这些假设被违背或者条件不能被充分满足，都会产生系统误差。,例如，设计一种的假设不能满足的情况,等值的系统误差与随机误差不同，系统误差难以量化、难以发现，系统误差的大小也不随样本容量的增大而变小。,形成等值系统误差的可能原因,第一种是当应用等值方法的统计假设不满足时，所估等值关系中就会出现系统误差。,第二种原因是当为估计等值关系所设计的数据采集规则未被严格遵循，所估等值关系中也会出现系统误差。,第三种原因是估计等值关系时所用的被试组与实际使用这两测验的被试组有实质性的差异，此时将所估等值关系应用于实测群体，系统误差也就产生了。,第四种原因是某些等值数据处理技术的使用也可能引进系统误差。,等值误差,心理测量学,影响等值误差的主要因素,被等值测验的同质性,被等值测验之间的难度差别,被等值测验分数的分布特点，包括偏度、峰度等,被等值测验的单维性,等值误差,心理测量学,影响等值误差的主要因素,(,续,),锚题对测验的代表性，或锚题分数与测验分数的相关,用于等值估计的考生样本的容量,用于等值估计的考生样本分数分布的相似性,等值误差,心理测量学,影响等值误差的主要因素（续）,测验长度,铆题,数量,铆题,在测验中的位置,实际的影响因素可能更多。等值还会受到测验所关注的分数段、测验目的对分数精确性的要求水平、测验分数的应用、计算条件等多种因素的影响。,心理测量学,常用等值资料采集方法设计,2,第七章测验分数的可比性与测验等值,测验等值设计,定义：为了寻找不同测验形式之间的等值关系而预先对数据的采集方法、等值实现的途径、等值的计算方法进行周密的设计，称为测验等值设计。,常用等值资料采集方法设计,1,单组设计,2,随机等组,设计,3,锚测验,非等组,设计,单组设计,单组设计：,即把拟予等值的两个或多个测验同时向同一被试组施测，然后借助于同一被试组把拟予等值的测验联系起来，这时两组测验分数的差异主要是由于两个测验的难度不同而引起的，因而从理论上来说这种等值设计既简单又无抽样误差。但实际上由于练习效应、疲劳及厌倦等因素的影响，会给等值结果带来误差。,心理测量学,随机等组设计,随机等组设计：,从同一总体中随机抽取两组考生，这两组考生被认为在能力分布上是相同的或很接近，让这两组考生分别接受两份不同测验,X,和,Y,，然后估计两测验形式的等值关系。这种设计方案可克服练习效应和疲劳等因素的不利影响。这种数据采集设计有一个假设，即两被试样本的总体分布是相同的。由于从同一总体抽样，因此，不考虑其间的抽样误差，这一假设比较容易得到满足。,心理测量学,锚测验,非等组设计,应用背景：,在实际工作中还会出现这样的情况：既不可能采集一个样本让被试施测两个不同形式的测验，又不可能获得两个总分分布相同的样本来分别接受两个测验的施测。,例子：两个年度的高考试卷等值,锚测验,非等组设计,锚测验,非等组设计：,在测验编制时另外编制一组测验试题，这些试题被称为共同题，也称为锚（,anchor,）题。在数据采集时，铆测验题即对第一组被试施测，又对第二组被试施测。,锚测验设计不要求两个被试样组的能力分布完全一样，也不会给考生带来太大的练习效应和疲劳因素。锚测验应与原测验具有同质性、等信度等特点,心理测量学,关于锚测验,实际工作中,（,1,）锚题与原测题混合编制施测，操作比较方便，且锚题测试可能达到相当可靠的程度，但是一旦试卷“曝光”，锚题就失去作用。,（,2,）锚题独立成卷，可以提高锚题的安全性，但是测试组织比较复杂，特别是要创设与正式测试相同的测试情境比较困难,但是不管锚题是在卷外还是卷中，锚题部分都应是原测验的一个平行简缩本，也要保证有相当的题量。,等值设计方法,图示,单组设计,样本,测,验,X Y,P,随机等组,设计,样本,测,验,X Y,P,1,P,2,铆测验,非等组设计,样本,测,验,X V Y,P,1,q,1,心理测量学,心理测量学,测验分数等值关系计算的基本方法,3,第七章测验分数的可比性与测验等值,测验分数等值关系计算的基本方法,心理测量学,线性等值,等百分位等值,铆测验非等组设计下的等值关系计算方法,线性等值,心理测量学,在,单组设计,或,随机等组设计,下的两个分数，一个在测验形式,x,上，另一个在测验形式,y,上，如果它们的,标准分数相等,，这两个分数就被认为是等值的。,线性等值,心理测量学,用数学公式表示，所谓测验分数,x,等值于测验分数,y,，即有下式成立：,改写为：,其中：,等百分位等值,心理测量学,在单组设计或随机等组设计下的两个分数，一个在测验形式,x,上，另一个在测验形式,y,上，如果这两个分数有相同的百分等级，那么这两个分数就被认为是等值的。按照这个原理，寻找与,x,分数等值的,y,分数，只要找到与,x,分数有相等百分等级的,y,分数就可以。,等百分位等值,心理测量学,对于测验,x,的每个一分数，可根据公式在,x,测验分布中先求出与其对应的百分等级，然后在,y,测验上求取具有该百分等级的分数。即在两个测验上就有相同百分等级的分数就是等值分数。,心理测量学,百分等级计算公式为：,根据百分等级计算测验分数公式为：,铆测验非等组设计计算,心理测量学,让两个被试组分别参加两个形式的测验，在两个测验中有部分项目是共同的,铆题，这样两组被试被铆题铆接在一起。使用该设计可以采用线性等值方法来完成等值计算。,铆测验非等组设计计算,心理测量学,铆测验非等组,设计线性等值方法计算公式如下：,其中，是,x,测验向全体被试,t,施测时的平均数与标准差的估计值，是,y,测验向全体被试,t,施测时的平均数与标准差的估计值。,心理测量学,如果两组被试能力差异不大，四项估计值为：,心理测量学,其中，,与,是只参加测验,x,被试的平均数和标准差，,与,是只参加测验,y,被试的平均数和标准差，,与,是铆测验向全体被试,t,施测得到的平均数和标准差，,与,是既参加测验,x,又参加铆测验被试的平均数和标准差，,与,是即参加测验,y,又参加铆测验被试的平均数和标准差，,是测验,x,对测验,v,的回归系数，,是测验,y,对测验,v,的回归系数。,铆测验,非等组设计,样本,测,验,X V Y,P,1,q,1,心理测量学,如果两组被试能力有差异，这四项估计值为：,式中，、、与分别是各个测验的信度系数。,本章小结,心理测量学,测验等值是测验公平性的保证，其在测验实施、编制与结果分析，题库的建立，不同单位、地区、时间所测学科成绩的比较等方面，都是极为必要的。,本章小结,心理测量学,如果不进行等值处理，不同时间举行的考试的成绩之间不具备可比性，评价标准或证书授予标准会受到试卷难度起伏的影响。这种状况，不仅影响到选拔效率和人员素质，而且对考生也是很不公平的。,本章小结,心理测量学,等值研究的意义并不局限于保证考试公平。今天，为了避免命题和试卷编制中的盲目性和偶然性，国内许多考试机构都在致力于建设题库。实现基于项目反应理论（,Item Response Theory,，简称,IRT,）的题目参数等值是建设科学化、大规模题库的前提。,本章小结,心理测量学,基于经典测验理论（,Classical,Tesing,Theory,，简称,C,T,T,）之上的等值方法只能实现不同试卷之间的等值，满足,“,试卷库,”,建设的需要，很难实现在统一的量尺上标定试题难度和区分度的任务，很难满足大规模题库建设的需要。,参考文献,心理测量学,参考文献,1,叶佩华等译：测验等值，广东高教出版社,1988,年出版。,2,漆书青、戴海琦、丁树良编著：现代教育与心理测量学原理，江西师大心理与教育统计测量中心,2002,年出版。,3,漆书青编著：现代测量理论在考试中的应用，华中师范大学出版社,2003,年出版。,参考文献,心理测量学,参考文献（续）,4,戴海琦、张峰、陈雪枫编著：心理与教育测量，暨南大学出版社,2006,年出版。,5,戴海琦,.,锚题题型与等值估计方法对等值的影响,.,心理学报，,2002,，,34,（,4,）：,367-370,。,6,罗照盛,.,经典测量理论等值的误差研究,.,心理科学,2000,，,23(4):494,501,。,参考文献,心理测量学,参考文献（续）,7Angoff, W. H. (1971). Scales, norms, and equivalent scores. In R. L. Thorndike (Ed.), Educational measurement (2nd ed.) (pp.508-600).,8Washington, DC: American Council on Education. Psychological Measurement, 14, 313-321.,参考文献,心理测量学,参考文献（续）,9Lord, F. M.(1980) Applications of item response theory to practical testing problems, Lawrence-Erlbaum Associates.,10Michael.,J.Kolen,& Robert,L.Brennan,. Test Equating, Scaling, and Linking: Methods and Practices (2nd ed.) New York: Springer, 2004.,参考文献,心理测量学,参考文献（续）,11Kolen,M.J.(1988). Traditional equating methodology. Educational Measurement: Issues and Practice, 7, 29-36.,12Liou, M. (1990). Effect of scale adjustment on the comparison of item and ability parameters. Applied Psychological Measurement, 14, 313-321.,谢谢！,

展开阅读全文

《心理测量学》课件第七章 测验分数的可比性与测验等值

最新文档

《心理测量学》课件第七章测验分数的可比性与测验等值