教育测量与评价教案.doc

资源描述

教育测量与评价教案第一篇教育评价的基本原理与方法第一章教育测评概述第一节教育测量概述一、测量的定义一般认为，测量系根据法则给事物分派数字。这里包含了测量三个方面的特性：法则，指测量的标准，也就是测量的依据和准则，即我们根据什么原理来进行测量。法则也有好坏之分，使用好的法则可以得到比较理想的测量结果，而较差的法则只能导致不准确的测量结果。要寻找和建立较好的测量法则是一件极为困难的事情。但不管什么法则的建立都是一个渐进的过程。事物，指测量的对象，也就是对什么进行测量，更明确地说，就是引起我们兴趣的事物的属性或特征。不同的事物具有不同的属性或特征，所测量的事物是否具有一致性，这是影响测量结果是否精确的一个重要原因。数字，这是测量结果的表现形式，是区别测量与定性评价的一个标志。数字大多时候具有量的意义，这样它是代表一定的数值。这些数值具有自然数的特点，如区分性、序列性或等级性、等距性和可加性。这些性质是我们进行运算的基础。必须指出，在测量中，我们是根据事物的属性和属性的大小来分派数字的，因此，必须考虑数字是否具有如上性质，同时还要考虑事物的性质和指派数字的原则。二、测量的三要素1、单位。是我们用于计算的标准。理想的单位必须具备两个条件：一是要有确切的意义，即对同一单位，所有人的理解意义要相同，不能出现不同的解释；二是要有相等的价值，即等值性，也就是相邻两个单位点之间的差别是相等的。2、参照点。是计算的起点。一般分为绝对零点和相对零点。绝对零点指客观地存在着“0”这个数字，即完全没有；相对零点则是人们为了区分或分出等级人为地指定出一个零点，即即使在“0”这个位置，也不说明事物的属性是不存在的。3、量表。这是测量的工具，是具有一定单位和参照点的连续体。由于制订量表的单位和参照点不同，量表的种类也不同，一般从低到高，分为四种水平：类别量表水平（称名量表）、顺序量表水平（等级量表）、等距量表水平（等距量表）、比率量表水平（比率量表）。类别量表是最低水平的一种测量量表，它只是用数字代表事物和事物的归类，没有任何数量的意义，如对性别、民族等可分类事物进行分类。其产生的数值不能用于数量化分析，不能进行数学运算，最多只能进行百分比分类。顺序量表比类别量表要精确一些，其中数字不仅指明了事物类别，同时指明不同类别的大小等级或具有某种属性的程度。等距量表不仅有大小关系，而且有相等的单位和相对的零点。这时数值可以进行加减运算，但由于只是相对零点，所以不能进行乘除运算。比率量表是最高级和体现最精确的测量水平的一种测量量表。它既有等距的单位，又有绝对零点，因此可以加减乘除。大多数物理测量量表是比率量表，而教育测量中的量表很难达到这一水平。三、什么是教育测量教育测量是根据测量学的原理和方法对教育现象及其属性进行数量化研究的过程。主要包括对学生内在的精神属性的测量，如测量学生的学习成绩、智力水平、品德状况、人格特征等。这里，要注意的是第一，教育测量是一个数量化研究过程。所以，在进行教育测量时，要解决的第一个问题是如何将我们所要测量到的人的各种属性量化表示的问题。在教育问题中，有许多往往很难加以量化，有时即使加以量化，但量化水平只能停留在类别变量或顺序变量的层次，难以实现数量化分析，意义。这也是我们现在教育测量和教育评价在社会上讨论非常激烈，人们十分关注，但又成效不大的原因所在。第二，教育测量主要测学生内在的精神属性，因而具有间接性。这就导致了误差甚至错误的存在。（一）、教育测量的特点1、测量结果的间接性。我们无法直接测量学生的内在心理特征，而只能通过其外显行为，来间接测量其心理活动的特点与水平。也就是说，我们只能通过学生对测验韪的反应和一些行为表现，运用推理、判断的方法，来间接地测量出他们的知识水平、智力高低和品德好坏。2、度量单位的相对性。教育测量的另一个特点是它的度量单位一般是相对的，即是相对零点，必须经过转换后才能进行相应的数学分析。3、测量对象的复杂性。首先，学生的精神属性是内在的，不能直接测量；其次，它是多变的，因为学生是发展的；第三，有些主、客观因素也会影响测量的结果，如精神状态、注意力、天气因素、紧张等。4、测量目的的针对性。四、教育测量的误差问题测量中，误差是不可避免的。产生误差的原因主要有：（一）测量的仪器和设备。测量工具的精度会影响测量的精确程度。（二）所测量的事物的一致性程度。（三）测量者的因素。五、教育测量学的作用（一）有利于提高教育教学水平（二）有利于提高教育管理水平（三）有利于发展教育研究方法第二节教育评价概述一、什么是评价“评价”一词早在900多年前我国北宋时期就已出现。评价就是根据某种价值观对事物及其属性进行判断、衡量，也就是对人或物做出好与坏、真与假、善与恶、美与丑、优与劣等判断。这里，价值观在评价中起着十分重要的作用。价值观不同，对同一事物会有不同的评价。价值是客观的，但评价带有主观性。在哲学史上有几种不同的价值观：一种是客观主义的价值观，认为价值是客观对象所固有的本性，是纯客观的东西；一种是主观主义的价值观，认为价值是用来表达个人对事物的好恶情感的，是纯主观的东西；另一种是辩证唯物主义的价值观，认为价值是一种表明客体对主体的特殊效用性，是主观性与客观性的统一。客观事物的效用性与主观的需要和愿望相结合，就具有了一定的价值，符合的程度大，价值就越大。二、教育评价的定义（一）早期的界说泰勒在20世纪40年代初将教育评价解释为：“确定教育目标在实际上被理解到何种程序的过程。”后来日本学者进一步把它界定为：“教育评价就是系统地、有步骤地从数量上测量或从性质上描述儿童的学习过程和结果，据此判定是否达到了所期望的教育目标的一种手段。”这种解释和界说，认为以教育目标为依据，评量学习结果达到目标的程度，就是教育评价。（二）60年代的界说克龙巴赫对教育评价的阐释是基于突破行为目标模式的观点，提出“评价是为决策提供信息的过程”，后来有人对这一界说做了具体的描述：“教育评价是一种有系统地去寻找并搜集信息资料，以便协助决策者在诸种可行的途径（方案）中择一而行的历程。”这种观点强调了评价的信息作用，扩大和拓宽了评价的功能、范围，从广义上、宏观上对评价进行了创造性的解释。（三）较深层的定义斯克里文和豪斯的定义：“评价是一种对优缺点和价值的评估，是一种既有描述又有判断的活动。”日本心理学家大桥正夫认为：“教育评价就是对照教育目标，对教育行为产生的变化进行价值上的判断。”这种评价观点认为教育评价的着眼点在于教育现象的价值，也就是评价应当着重判断教育的效果，看其是否具有价值。这里的关键主要是价值判断。尽管各国评价学者对教育评价有不同的界说，但在这一点已相当一致。（四）对教育评价的初步界定和理解20世纪80年代以来，我国教育界也对教育评价理论进行了初步探讨，对教育评价的概念也进行了专门研究，在系统地学习、借鉴国外评价理论的同时，力图从我国实际出发，对教育评价的含义作了一些描绘和阐释。在这些观点中，有些共同的认识：（1）承认评价是一个过程；（2）价值判断是评价的本质特征；（3）以一定的教育价值观为依据；（4）采用一切可行的科学手段。根据上述观点，我们把教育评价界定为“教育评价是根据一定的价值观或教育目标，运用可行的科学手段，通过系统地搜集信息、分析解释，对教育现象进行价值判断，从而为不断优化教育和教育决策提供依据的过程。”这一概念，包含以下几个方面：1、教育评价的对象、范围和地位其对象不仅包括学生学习结果，而指以教育的全部领域为对象（不仅包括现象，还包括结果、计划、活动、过程等）。2、教育评价的目的和作用它涉及评价的指导思想和教育观等基本理论问题。教育评价是为鉴定、考核，还是为了推动、改进；是为了选拔、淘汰，还是为了教育、发展，这是两种不同的教育观和评价观。过去的教育评价偏重于鉴定、筛选的功能，其目的是为了“选拔适合教育的儿童”，是为“应试教育”服务的。而现代教育评价则强调评价的反馈、矫正功能即调控功能，其目的是为了“创造适合儿童的教育”，即评价是为了诊断评价对象的现状，以便发现问题，使教育教学工作不断改进、不断完善，不断适合教育对象的需要，为促进儿童个性全面发展和提高教育质量服务。教育评价的目的是为教育决策提供信息和依据，为改进教育服务，也是为不断完善和改进教育过程、为提高教育质量服务。3、教育评价的依据价值判断是教育评价的本质特征，是教育评价的核心。根据什么进行价值判断？如何进行判断？这就是价值判断的实质和关键。也就是必须一个衡量和判断的客观依据和标准，是教育价值目标和标准问题。它涉及什么是价值、教育价值、教育价值观的问题。我们应当根据马克思主义价值观和社会主义现代化建设的需要，根据人才成长发展规律，确立我们的教育价值观和价值取向，确定教育评价的价值目标和标准。从这个意义上说，教育方针、政策和教育目标就是我们的教育价值观的集中体现，我们应当以教育方针和教育目标为依据确定评价的目标和标准。4、教育评价的手段（五）教育评价与教育测量的关系测量是工具，评价是目标。三、教育评价的功能和意义（一）教育评价的系统结构1、价值目标和标准2、组织机构和人员3、评价方法和技术4、评价对象与评价人员的心理调控（二）教育评价的功能根据系统论的观点，评价功能是教育评价系统结构的内在机制，是构成评价系统的各个要素的组成形式在运动状态下所发挥的功效，是评价系统内部所固有的一种潜在能量。这种潜能只有在评价实践中才能表现或释放出来，这种功能的外在表现即是作用。1、教育评价的意义（1）教育评价是教育管理的重要组成部分。教育管理的各个环节都需要评价。没有评价的管理是一个开放式的管理系统，无反馈机制，这是一种不科学、不健全的管理。（2）教育评价是深化教育改革的重要措施。要进行一项教育改革，首先要进行改革方案的可行性评估；在改革进程中，必须加强形成性评价；在某一改革告一段落时必须进行终结性评价。只有这样才能避免盲目性，确保教育改革沿着健康的轨道发展。（3）教育评价是全面提高教育质量的重要手段。（4）教育评价是教育科学研究的重要内容。2、教育评价的功能（1）导向功能。（2）监督检查功能。（3）激励功能。（4）筛选择优功能。（5）诊断改进功能。四、教育评价的种类（一）根据评价对象和范围不同，可分为宏观教育评价、中观教育评价和微观教育评价。宏观教育评价是以教育的全领域及宏观决策方面的教育现象、措施为对象的教育评价，或对一个具有相当规模的地区的教育进行的评价，属于总体的、全局性的、高层次的评价。中观教育评价是以学校为对象，对学校内部各方面的工作进行的评价。微观教育评价是以学生为对象的教育评价。（二）根据评价的时间和作用不同，可分为诊断性评价、形成性评价和总结性评价（三）根据评价的基准不同，可分为相对评价和绝对评价相对评价指在评价对象团体中确定一个基准，或以某一团体的评价状况为基准，对团体中的个体成员在这个团体中所处的相对位置进行评价。其特点是：评价基准是在评价对象团体内部确定的；参照的标准是对团体进行测量以后确定的；它关心的是团体成员在该团体中所处的相对位置。绝对评价指以预先制订的目标为评价基准，评价每个对象达到目标或基准的程度，也称目标参照评价。其特点是：评价基准是在评价对象团体以外确定的；参照标准是在对团体进行测量以前确定的；它关心的是评价对象达标的程度。（四）根据评价的性质不同，可分为需要性评价、可行性评价和配置性评价需要性评价是指根据某种需要，对新提出的教育目标、计划方案的必要性作出价值判断。其目的是要判断新提出的教育目标、计划方案或活动是否有必须进行或开展。一般是在某种教育改革项目开始前或对教育活动整个过程进行总体反思时进行。可行性评价是指对教育目标、计划、方案实现的条件、可行性程度的评价。目标是了解实施教育目标、计划、方案的物质条件、技术条件和经济效益。配置性评价是指对教育目标、计划、方案所需要的资源条件、人员与技术条件的配置进行价值判断。目的是合理安排和利用人力、物力和财力。（五）根据评价的主客体不同，可分为自我评价和他人评价自我评价指被评者按照一定的评价目的与要求，对自身的工作、学习和品德等方面的表现进行价值判断。他人评价指被评者以外的人进行的评价，也叫外部评价。第三节教育测评的发展阶段一、教育测量的发展阶段（一）教育测量的萌芽阶段（1864年以前）根据学记记载，我国早在西周时期，就实行了教育考评。自隋炀帝大业三年（公元606年）始置进士科开始的科举制度，到清末光绪三十一年（1905年）废止，正好1300年，对我国进一步完善高等学校招生制度乃至整个干部选拔制度，都有重要的借鉴意义。科举制度的特点：第一，要经过严格的政治条件方面审查；第二，要进行严格的文化考查；第三，历代对考生都有健康方面的标准。科举制度可取之处：第一，政治理论考试是最主要的考试项目；第二，文化素养特别是写作能力是必考项目；第三，注意考查分析问题和解决问题的能力。录取原则：第一，对已被录取者一律要进行复试；第二，对落选者要给予其他出路；第三，录取时要参考平时成绩。注意的问题：第一，考生入场挟带文书，是历代都极为注意的；第二，考场秩序也是历代都极为重视的问题；第三，试卷是评定成绩高低，录取与否的唯一依据，它屡经考生和各类考试工作人员之手，如不严格管理，很容易使舞弊者有机可乘。科举制度实际上就是一个关于学生学力检测、评价制度，但是它缺乏对人全面的、科学的考察，并且存在着许多弊端。在18世纪以前的西方各国，由于学校尚未普及，学校考试主要是口试。1702年，英国剑桥大学首先以笔试代替口试，开西方学校考试先河。1845年，美国初等学校普及，学生数激增，对毕业生一一口试已不可能，于是，波士顿市教育委员会率先在美国相继以笔试代替口试。由于笔试客观性、可靠性比口试高，并且节约时间，测试结果大大优于口试，但因为评分易受主观偏见影响，况且题目太少，不足以反映学生所获知识与能力的全貌，因此，为矫正弊端，力求考试客观化，于是测验方法随之出现。（二）教育测量的蓬勃兴起阶段（18641940年）1864年英国格林威治医院附属学校一位名叫费舍的教师收集了许多学生成绩样本，汇集了一本量表集，作为度量学生各科成绩的标准。可以说是客观标准化测量的萌芽。1897年莱斯发表了他对20所学校3000余名学生所作的拼字测验研究结果，测验表明：8年中每天花45分钟时间进行拼字练习同每天花15分钟进行练习的成绩并没有多大差别。这一结论尽管遭到了不少人反对，但它引起了人们对测验问题的普遍关心，推动了教育测验问题的研究。中世纪以后，西方自然科学由于在方法论上引入了测定、观察和实验，一些传统科学取得了长足发展。1879年冯特在德国莱比锡建立了第一个心理学实验室，为进一步揭示人的心理本质而设计了种种周密的实验方案与实现方案的各种严密的测量方法。所有这些方法论的变革促进了教育测量运动的兴起。1882年英国高尔顿受达尔文影响，在伦敦建立了人类学测验实验室，与德国冯特的心理学实验室相对峙。德国实验心理学派通过专门研究人类的一般行为规律来进一步揭示人的心理本质，而英国人类学派则对人类个别差异寄予了关心。高尔顿在统计学家皮尔逊的帮助下，设计了许多统计方法。这些统计方法不仅对美国的人事工程思想甚有帮助，而且一些教育家借鉴这些方法，在教育上把不同学生的学习能力与学习效果量化，并加以客观比较，促进了教育测量运动的发展。19世纪末，法国在“自由”“平等”“博爱”等进步思想的影响下，提出社会不仅要对身体有缺陷的儿童加以关怀，还要结心理、精神智能有缺陷的儿童给予关怀。恰好当时巴黎一带的学校有许多学习效果低劣的孩子很成问题，比纳想鉴别这些孩子是因为懒惰，还是因为智能低下而不能适应，并且想在教育上尝试如何加以辅救。因此，1895年，比纳等设计了一套智力测验的方法，1905年在西蒙的协助下，制成了著名的比纳西蒙智力量表。20世纪20年代，美国的教育测验运动蓬勃发展起来。可分为三个时期：开拓期（1904-1915），这一段时间是方法的探索与初步的发展时期。在美国心理学家卡特尔研究的基础上，1904年桑代克发表了精神与社会测验学导论，这是一本在测验学史上划时代巨著，标志教育测验运动的开始。桑代克在书中宣称：“凡是存在的东西都有数量；凡是有数量的东西都可测量。”兴盛期（1915-1930），这一时期对桑代克提出的信条不但在技术方面努力求得正确应用，而且不断提高到理论上加以证实。这一时期已发展了三种不同性质的测验，即学力测验、智力测验和人格测验。批判期（1930-1940），随着教育测验运动的不断发展，人们逐渐认识到，教育测验尽管能使考试客观化、标准化，并能把人的能力换算成数字，甚至个别差异的程度也可以量化，但它毕竟不能测出人的全部，即使是研究最多最富成果的学力测验也不能测得学力的全部领域。在人格测验方面，单纯的测验是无法把握的，如社会态度、兴趣、情绪、鉴赏力等。1931年，塞蒙兹发表了人格与行动的诊断一书，主张人格测量应用评定法、问卷法、轶事记录法等，从而从思想上否定了单纯的人格测量法。从此，教育测量运动逐步过渡到教育评价时期。（三）教育测量的深入发展阶段（1940至今）在经过以上批判期以后，现代教育测量在以下方面有了新的发展：第一，开始重视学生智力和思想品德的测量。第二，现代教育测量量表的编制突破了过去单一答案的求同式思维题，发展为包括多种答案的求异式思维题和论文式试题。第三，教育测量的范围由过去偏重于学生学习成绩的测量，发展到涉及到课程设置、教材、教育改革方案等效益方面的测量。第四，现代的教育测量由过去单一的常模参照性测验模式发展到常模参照性测验与目标参照性测验相结合的模式。第五，教育测量本身的理论研究与技术开发更加深入与完善。如关于测验等值、项目反应理论（IRT）、测验信度、评分误差控制的研究等都有了较大的发展。二、教育评价的发展阶段教育评价作为科学概念，是20世纪30年代在美国进步主义教育聪明的新教育课程的改革实验“八年研究”中正式诞生的。（一）教育评价产生的历史渊源与社会背景1、我国古代教育考试制度自人类社会形成，人类祖先为了生存、延续，自发地产生了原始生产经验和生活规范的传递，这种传递就是教育的萌芽。随着社会经济、政治和文化的发展，特别是由于古文字的出现，产生了学校。各种教育机构都有了相应的教育内容，从而产生了衡量教育结果的手段和规定。从我国教育史上看，早在西周时代，已经形成了较为完备的考试制度，如学记中记载的“比年入学，中年考校”就是典型例子。更多的科举制度更是历时1300年。2、西方教育测量运动的兴起古代西方教育盛行以口头提问和实际操作来评定学生的学业。从中世纪到19世纪的学校基本以口试作为考查学生成绩的方法。进入资本主义发展时期以后，由于社会需要大量掌握读写算的人力，学校和学生激增，口试被笔试取代。但笔试也有很多弊端。为追求测验、考试的客观性，受实验心理学、个别差异研究和智力测验的影响，20世纪初，在美国，教育测量取代了传统的考试，并形成了一种趋势和运动；20年代末，由于新教育思潮的出现，教育测量已不能完全适应教育发展的需要，因而出现了对教育测量的批判。3、社会背景20世纪20年代末30年代初，美国爆发了空前的经济危机，许多工厂倒闭，工人失业，大批青年为了加强劳动力市场的竞争能力，重新涌入中学学习，谋求新职业。但当时美国的中学所开设的课程是为了升大学服务的，不适应整个社会与失业青年的需要，这就使学生与学校课程之间发生了尖锐矛盾。在这种情况下，美国一些受杜威教育思想影响的教育家，组织了进步主义教育同盟（PEA），他们提出教育的目的在于生活，在于儿童，反对旧的传统的死记硬背的考试测验。他们以新教育理论为依据，以全面发展人的才能为主要目标，设计了一套新的课程，并在7所大学30所中学进行教育实验。为达到实验目标，需要研究一套新的考查教育成就的方法，经推荐，组成了以泰勒为首的评价委员会，时间从1933年到1940年，历时8年，史称“八年研究”。1940年，泰勒教授提出了第一个报告，第一次提出了“教育评价”这个概念，认为实施教育评价首先必须分析教育应达到的目标，再用这个目标来评价教育的效果，运用评价来促进教育活动向理想的目标逼近。被人们称为“划时代的教育评价宣言”。（二）现代教育评价的发展阶段1、教育评价的开创时期（1930-1958）“八年研究”后，现代教育评价正式诞生，终于取代了教育测量成为考查教育效果，促进教育改革的重要理论和手段。在这一阶段中，教育评价方法论的实证化特点非常明显。主要表现在目标导向评价模式之中。首先，泰勒认为开展评价的论据是把所要评价的内容分成具体可见的、可操作的学生行为目标，以便在评价中能够围绕这些行为目标进行观察和测定。其次，泰勒在他的评价模式中非常强调对学习和教育结果进行客观的测量、统计。他提出三种评价手段：专家测验、情境考察、提问作答。并提出运用时三个重要准则：客观性、信度和效度。2、大发展时期（1958-1972）1957年前苏联的人造卫生上天后，美国朝野一片震惊，并对教育进行了深刻的反思。在加大教育投资力度的同时，教育评价很快从过去仅是学术机构和民间的研究转而被纳入各级政府和各地方教育当局的议事日程。1963年美国政府正式提出要对教育的效能和质量进行评价，并拨出大量专款用于教育评价理论与技术、方法的研究和培养专门的教育评价工作人员。1963年，克龙巴赫发表通过评价改革课程，提出评价的内容不应仅仅是课程或教学目标及其被达到的程度，而应更关心对教育决策及其所依据的准则的评价。为决策提供信息更应是评价的中心。1963年格拉泽发表文章，在指出相对评价的不足时，提出在学校教育中应着重绝对评价。1967年斯克里芬发表评价史上具有深远影响的评价方法论，指出过去的评价不仅在理论上而且在实践中都很不全面。他第一次对形成性评价与终结性评价、专业性评价与业余性评价、对目标到达程度的评价与对目标本身价值及比较性评价与非比较性评价等作了明确的阐述和区分。1969年，艾斯纳对泰勒的目标评价理论进行了抨击，认为对教育本质的不同理解，可以造成对目标的不同表述，泰勒的评价方法不一定适用于教育实际，因为它既没有提供评价目标本身的方法，也没有提出判断评价目标与结果之间差异的标准。从此，以目标为中心的评价模式不再是唯一的了。其它评价模式相继出现，目标的价值结构受到了挑战。在这一段时间里，出现了40多种评价模式，各适用于不同的范围，采取不同的方式方法。3、专业时期（1973至今）在这一阶段中，教育评价方法论的人文化特点得到迅速发展并有超过实证化倾向的势头。这些评价模式的共同特点就是在评价中不只是单纯从评价者的需要出发，而是考虑到所有参与人的需要，强调个体的经验、活动和主观认识的作用，不过分追求客观化，并试图摒弃数量特征，而是从人的角度出发，重视人文社会科学方法在评价中的运用。如应答评价模式的应答，就是让评价对象和其他与评价有关人员提出他们关心的问题，并表达他们各自的意见，在评价过程中，评价者的职责就是把收集到这些资料与众人讨论，并以磋商的形式，逐渐消除分歧，最近达成共同的、公认的、统一的观点。第二章教育测量的基本问题（添加内容）一、测验必须注意的问题我们前面已经说过，教育测量实际上是基于心理结构的分析而进行的间接测查，这一特点给相应的测量工具的设计带来了几个难题，如人事部门的一位心理学家想编制用于测试某工厂求职人员机械能力的测验，一位学校心理学家想编制教师对身体残疾学生的态度量表，一位教师想编制一套五年级学生解答多位数除法技能的单元测验这里，每个人要测的东西结构上完全不同，那么应该怎么来设计呢？其实，对于所有的心理测评，测验编制者至少要考虑五个问题：首先，对任何结构的测量不存在普遍认同的一种方法，因为对某种心理结构的测量总是建立在被认为与该结构相关的行为研究的基础上间接进行的，当人们谈到同一结构时却往往选择不同类型的行为给该结构下操作性定义，也可能要求学生解答一系列问题，也可能要求学生写出每一步的结果，也可能要求他们找出答错的题目中的错误，也可能要求学生用多种方法解答，因而不同的操作性定义会得出不同的测量程序，这又很可能导致对学生知识水平的不同评价。其次，心理测量通常是基于有限的行为样组的。我们不可能考核所有我们要考查的行为，只能从其中抽样，这就涉及测量题目的数量和内容广度，这是产生一个良好测量的最主要的步骤。第三，测量的结果总人受到误差的影响。第四，测量量表缺乏定义清晰的单位。受测者未能回答出多位数除法测验的任一测题是否意味着他们没有这种技能？如果一位同学答对了5个题，另一同学答对了10个题，第三位同学答对了15道题，是否能认为前两位同学之间的差异与第二、三位同学之间的差异一样呢？三个学生在测验所测验的能力连续体上的差距是否相等？第五，心理结构不能仅以操作定义来界定，还必须说明它与其他结构或可观察现象间的关系。虽然心理测量建立在可观察到的反应基础之上，但只有它能够按照所依赖的理论结构进行合理解释时，它才具有意义。因此（1）必须根据可观察行为来界定结构，这类定义具体说明了如何进行测量；（2）必须在理论系统内根据它与别的结构间的逻辑或数学关系来界定结构，这类定义为的获得的测量结果的解释提供了基础。测验理论在研究和评估中的作用为了阐明测验理论在广义的研究和评估方法学中的作用，把教育和社会科学研究看作是由几个明确界定的步骤所组成的调查过程，将有助于问题的说明。这个过程可以分为以下几个步骤：1简洁明白地陈述研究的问题或假设； 2通过决定在研究中如何控制和测量变量，对假设中的每个变量下操作定义；（即选择模型）3编制或选择获取和量化每一变量观察值的工具及程序；（确定测验分数的使用目的确定代表该结构的行为（包括内容分析、研究回顾、关键事件、直接观察、专家判断、教学目标等方法）领域取样（包括随机抽样、系统抽样、多阶段抽样、分层抽样、整群抽样、分层整群抽样、重复抽样、配额抽样、判断抽样等多种方法）准备测验说明书项目编制（包括最佳行为测验法（包括是非、多选、配对）、调查问卷项目形式（包括二分法、五级连续法、两极形容词列表法）4检查所使用的工具和程序的准确性及敏感性；（注意精确性、与测验说明相符或相关程度、项目编制的技术性缺点、语法、攻击性语言或“偏见”的出现、可读性水平等问题，然后进行试测检查，进行项目分析，得出项目的相关指标，即信度、效度、难度、区分度等）5收集实验设计框架内的实验资料，以回答最初提出的问题；6用数学方法处理数据资料，适当地利用统计检验去判断观察结果归因于机遇的可能性。在这个过程中，测验理论的内容与步骤2、步骤3和步骤4有很大关系。有必要指出，在进行大范围的实验研究(步骤5和6)之前，步骤4通常要求收集预试样组试测结果的数据并进行统计分析，以确保工具的有效性。编制和预试研究工具失败的部分原因是与教育和社会科学研究经常具有矛盾和模糊的结果的特点有关。在物理和生物科学中，测量程序在实验使用之前全都要经过检验。一位生物化学家在没花大量时间校准分光仪，以保证它能够提供精确的波长读数时，是绝不会试图去分析实验室中未知的化合物的。然而，相比之下社会科学家们更经常地尝试通过实际上从未试用过的测验去评估实验程序如何影响了一个复杂的变量，如心理病人的焦虑水平或学前儿童的语言发展。从提出研究问题和定义变量直接跳到收集实验资料的研究者很可能会一无所获。假如研究者没有观察到各种处理之间的差异，那么他们也就不可能知道是各种处理无效，还是测量不那么精确以致处理的真实效果未被觉察到。在实施最后的正式实验前，严格地遵照优秀测验编制程序和在实践中试测的原则将对提高教育学和心理学研究的总体质量大有裨益。三、测验理论中的统计概念（主要是复习）（一）频数表和分布图（二）集中量数（众数、中位数、平均数）（三）差异量数（全距、离差、方差、标准差）（四）Z分数（后面还会再讲）（五）正态分布（六）用于描述两个变量间关系的量（散点图、相关系数，包括皮尔逊积差相关、斯皮尔曼等级相关、点二列相关、列联相关等）（七）用于预测个体表现的量（回归分析、估计的标准误等）第二章教育测量的质量指标第一节信度一、信度的概念信度指测量结果的稳定性或可靠性程度，亦即测量的结果是否真实、客观反映了老先生的实际水平。可从三个方面来考虑：第一，信度指实测值和真值相差的程度测量的目的之一，就是希望通过测量得到的实测值能够接近事物的真值。但由于各种原因，实测值与真值之间必然存在误差。但误差越小，说明信度越高。x(实测值) = T（真值） + E（误差）由于真值是未知的，因此误差值是大是小也是未可知的。一般为求得最接近的实测值都是通过多次实测取其平均值来作为真值的近似值。但这一方法缺乏实际可操作性，也无法求得信度的大小。第二，信度是指统计量与参数之间的接近程度统计量和参数是统计学中的两个基本概念。统计量是指样本上的各种数字特征（如样本的平均数、标准差等），参数是总体上的各种数字特征（如总体的平均数、标准差等）。统计量越接近参数，这个统计量的可靠性程度就越高，因此信度越高。而要知道统计量与参数的接近程度高，可以对参数进行区间估计，这种方法对估计真分数有用，但仍然无法计算出信度。第三，信度指两次重复测量或等值测量之间的关联程度。如果对同一对象进行两次重复测量或者等值测量后，计算两次测量的相关系数，相关系数越高，说明测量的信度越高；反之，信度越低。但应注意的是，重复测量会受到被试的经验、知识的增长等因素的影响，等值测量又较难编制，因此，采用这种方法计算信度时，也是有误差的。信度是任何一个测量的必要条件，对于教育测量来说，它具有更为重要的意义。因为教育测量的对象主要是精神现象，所测量的特性不易把握，为了能真实地反映测量对象的某种特点，更加需要注意测量的信度。二、信度的理论公式见P32。这里需要注意的是，对实得分数进行分解后，可以分解成真分数的方差、随机误差的方差两部分。很明显，随机误差的方差越小，测量的信度就越高。信度取值范围为0，1。三、信度的类型用上面的理论公式计算不了信度，因为真分数根本不知道，如果知道就不用算了。实际中常用以下几种方法（也就是几种不同的信度）：（一）稳定性系数（重测信度）指用同一测验试卷，在先后两个不同时间内对同一组被试进行测验，两次测验实得分数的相关系数。这是最简单的估量信度的方法。要注意的是：（1）重测法只适用于速度测验而不适用于难度测验；（2）所测的信度大小，常常受到两次测验时间间隔长短影响；（3）第二次测验没有吸引力，不易引起被试的兴趣；（4）要实施两次测验，耗费人力、物力和时间较多。（二）等值性系数当同一测验的一种型式不能或不适合实施两次时，就需要采用该测验的另一个平等测验或者复份（复本）。复份要求在测验的内容、题数、格式、难度、平均数、标准差等方面应与原测验一样，否则，估计的等值系数就会出现较大误差。决定等值系数的方法是，先实施第一次测验，然后在最短时间内实施第二份等值的测验，再求它们的相关系数，这个相关系数就是信度的等值性系数。采用复份法估计信度系数要注意：（1）两次测验试卷要等值，即在内容范围、题型、题数、难度、区分度等方面要基本相同；（2）两次测验要尽可能在较短的时距内进行；（3）确定两次测验是否等值，还要考察两次测验结果的平均数与标准差。但在实际操作中，要编制两份等值的测验是非常困难的。（三）内部一致性系数前面两种估计信度系数的方法都是要测验两次的，但在实际的测验之中，一方面教师很难编制两份等值的试卷，学生也没有那么多时间和精力重复参加测验。因此需要根据一次测验来估计测验的信度系数。这就是内部一致性系数，即把一次测验人为地分成两个部分，比较两个部分的一致程度，从而估计信度系数。按照分成两个部分的不同，内部一致性系数的估计方法有两种：1、分半信度这种方法是将一次测验分成两个假定相等而独立的部分来记分，通常是以题目的奇数为一组，偶数为一组，计算两组的相关系数，最后用斯皮尔曼布朗公式校正，求得整个测验的信度系数。（公式见教材）2、库德尔理查森公式法用这种方法只需要测验一次，然后以各个问题的正确反应数为基础（此可视为各题难度的信息），或根据各人部分的平均数和标准差，计算信度系数。库德尔理查森公式有好几个，最常用的是rKR20和rKR21。rKR20的用法：以每题能正确回答的人数占总人数的百分数为基础计算（每题只有通过或未通过两种分数）。具体公式见教材。rKR21的用法：这个公式以各反应者总分的平均数和方差为基础计算，无需各题难度的信息。公式见教材。计算内部一致性系数，需要注意下列问题：A、若用分半法时，以按奇数题和偶数题分为两半为宜。若把整个测验分为前后两半，一方面前半部试题与后半部试题未必等值，另一方面被试者在完成后半部试题时，可能因疲劳、厌倦等原因而影响回答质量，以致前后反应不一致，影响信度。B、若速率是测验的重要因素，则不宜用分半法，因为速度测验中试题的难度低，被试者得分多少，在很大程度上是因为答题的多少，分半法易使得分相同，从而夸大分半法的信度估计。C、如果答案多种多样，得分也多种多样时（如论文式考试），则不能用上列公式计算一致性系数。（四）论文式测验的信度系数论文式测验的评分，没有严格的评分标准，以致同样一个题目，不同的应试者的回答和得分都不一样，所以无法用前面的公式，而要用克龙巴赫所创的系数公式（见教材）。（五）评分者信度一般论文式考试，只能提供列出答案要点的参考答案而无固定的标准答案，因而不同的评分者对同一份试卷往往给分不同，甚至有很大悬殊。在作文测验、投射测验、品德测验、创造力测验等的评分中，都存在这个问题。计算这种信度需要区分评分者的人次数。若为2人评N份试卷，可用斯皮尔曼等级相关计算；若为三人以上评N份试卷，则用肯德尔和谐系数计算。四、提高信度的方法（一）信度以多大为宜：对于学科测验，要求达到0.9以上；智力测验要求达到0.8以上；品德测验能达到0.6以上就不错了。（二）测量误差的来源1、测验本身所引起的误差：测验本身的有些因素会直接产生误差：如题目格式中的判断题猜测的可能性会很大；规定的时限；用词不准确引起的误解；题目的多少等。测验所包括的测题样本也会引起测量误差。2、测验的实施所引起的误差：如指导语错误，对答案纸的错划、时间记录的错误、主试本身的主观影响、记分误差等。3、被试引起的误差：这是最难控制的误差，具体表现为动机的作用；学习、发展和教育的影响；对于测验的经验；测验的焦虑；生理因素等。（三）提高测验信度的方法1、适当增加测验题目的数量，即可提高信度也可提高效度；2、测验的难度要适中，这样信度能达到最大，也能使测验区分度达到最大；3、测验的内容应尽量同质；4、测验的程序应统一，包括试卷统一、测验开始时的指导语、回答问题的方式、分发及收回试卷的办法、测验时间的掌握等，特别应该提到的是，考试的组织问题、监考问题等，这是关系到测验信度的重要因素；5、测验的时间要充分；6、评分要尽量做到客观化、减少评分误差。第二节效度一、概念指测量结果的准确性和有效性的程度，亦即测量是否达到了预期目的。首先，测量的效度始终是对一定的测量目的而言的。一般而言，任何测量都有某种特定的目的和功能，判断效度高低，就是判断测验达到目的的程度。其次，测量的效度也是对测量的结果而言的。一种测量工具只能经过实际测量，才能根据出来的结果判断它的效度。所以也可以把效度理解为测量的结果正确反映所欲测量的特性或功能的程度。对于任何一种测量来说，只有当它的测量结果真实、正确地反映所欲测量的功能和特性时，才能认为这种测量是较为有效地或效度较高的。第三，一种测量的效度只是高或低的问题。因为，一种测量在编制时，总是针对一定目的而编制的。不存在无效度的测量，只是高或低的问题而已。第四，在教育测量中，效度问题比在其他领域的测量更为重要。因为，首先，教育测量的对象大多是精神现象，只能通过对其具有可测性的外部表现（如言语或动作等）的测量，以间接认识其心理活动、心理特征或知识水平等。其次，学生的心理活动、心理特征与其外部表现之间，一般仅具有相关关系而无函数关系，外部行为并不能准确无误地反映某种心理状态。此外，教育测量的对象不是物而是具有主观能动性的人，人能有意识地调节自己的外部行为，掩盖自己的内心活动，这就增加了认识其精神现象的难度。二、效度的理论公式实得分数可分解为潜在真分数，系统误差，随机误差三部分。具体关系见教材P43。三、效度的分类及估计（一）、内容效度指测验目的代表所欲测量的内容和引起预期反应所达到的程度，也就是测量内容的代表性程度。在编制测验时，内容效度是一个相当复杂和不易解决的问题。以成绩测验来说，固然要求测验题目能代表所学习过的全部内容，但仅仅在形式上做到这一点还不能保证足够的内容效度，因为学习成绩的高低要从学习内容的巩固程度、理解程度和应用能力几种行为反应去考察。如果测验题目大多是只需要牢记教材就可以回答的问题，那么，对全面测验学生的成绩这一目的来说，内容效度仍然不高。估计内容效度的方法：1、逻辑分析的方法。这是根据教育学和心理学的理论，根据教学大纲要求，勾画出学生掌握知识内容的范围和深度，提出应形成的技能名称，然后以逻辑分析的方法估计测验在多大程度上代表了这些内容，在多大程度上能够测量出所要测量的特性和功能。2、用测验题目与教材内容比较的方法。这需要先制两个表：一个是测验的双向细目表（见第三章），分别列出所要测验的各单元教材内容在考题中应占的百分比和所要求的各种行为的反应在全部反应中的百分比。另一个表是测验试题分类表，根据各单元教材内容列出试题，并注明该题所要求的行为反应及其应占的百分比。然后对照这两个表，根据各个部分相符合的程度判断内容效度的高低。（二）效标关联效度又称经验效度或统计效度，是以测验分数和效标之间的相关系数来表示测验的效度高低的。效标就是足以显示测验所欲测量的特性的变量或足以显示测验所欲测量的特性的变量，作为检定效度的参照尺度。效标关联效度又可分为同时效度和预测效度。同时效度指测验与当前效标之间的关系程度；预测效度指测验与将来的效标之间的关联程度。如用全国高考的成绩作为效标来检验高中毕业会考的成绩，计算两者的相关系数就是会考的同时效度；而用大学一年级的成绩作为效标来检验高考的成绩，两者的相关系数就是高考的预测效度。效标是用来衡量测验效度的尺度。具体而言，效标是辨别真伪的尺度，当事物满足该原则要求时，才能存在。效标是不能违反的。当然，标准可以提高，也可以降低。效标不仅随着测验的种类不同而不同，也可能随时间而改变。选择效标是件困难而重要的事情。通常教育测验所依循的效标，可采用各学科成绩和教师的评定结果；智力测验的效标，可采用学科成绩、教师评判的结果、学生总成绩、受教育年限、年龄以及其他相关事物；能力倾向性测验的效标，可采用特殊课程或特殊训练的成绩等；职业兴趣测验的效标，可采用从业人员实际服务成绩或记录；人格测验的效标，很难找到，只能按编制者的主观标准判断，或以被试以后的行为或临床资料作为效标。效标关联效度的计算主要通过计算相关系数求得，可用积差相关、二列相关或点二列相关、四格相关和多元相关系数等。（参见有关教育统计学教材）。（三）结构效度指一个测量能实际测量出理论上的概念或心理特性的程度。它的目的在于用心理学的概念来说明分析测验分数的意义，也就是说从心理学的理论观点就测验的结果加以解释和探讨。结构效度的研究是较困难和有争议的，至今从概念上和数学上作了部分解释。确定一个测量的结构效度之所以困难，是因为效标、构想不是直接可测的，因而不能计算测量与效标的相关。结构效度确定的方法如下：首先从某一结构理论出发，导出各项关于心理功能或行为的基本假设；据此编制测验；然后由果溯因，以相关、实验和因素分析的方法，检验测验结果是否符合心理学上的理论见解。例如，从现代智力理论，可以推断四项主要功能上的假设：（）智力随年龄增长；（）智商是相对稳定的；（）智力受遗传影响；（）智力与学业成就有密切关系。因此，在根据上述的假设编制智力测验后，就要从上述四个方面进行检验。由此可见，结构效度是由累积的证据来评价，不可能有单一的结构效度指标。确定一个测量的结构效度需要两个重要步骤。首先，必须指出，这个测量和所用理论上认为应与之有关的其它测量，有显著的相关。其次，必须指出，必须指出这个测量与所有理论上认为不应与之有关的其它测量，没有明显相关。四、提高效度的办法（一）各种效度的要求不同测验对效度系数有不同要求。例如，智力测验分数与教师对学生的等级评定之间的效度系数一般在0.30.5的范围内；相同科目的标准测验成绩与教师对学生名次排列之间的相关系数一般应达到0.600.70之间；两种不同的智力测验或标准测验之间的相关系数应达到0.600.80，才能符合要求。对效度系数大小的要求，也受原始与获得效标的测验之间的相似性制约。若二者不相似，则效度系数偏低；若相似，则效度系数会高些。（二）影响效度的因素1、测验组成方面：测题的性能是影响测验效度的因素之一，如测验的取材、长度、辨别力、难度及其编排方式等都和效度有关。2、测验实施方面：一个测验的效度要保证，主试应适当控制测验情境，遵照测验守则的各项规定实施。3、被试主观状态方面：被试的动机、兴趣、情绪、态度和身体健康及是否充分合作与尽力而为等都能影响结果的可靠性和正确性。4、估计效度所依循的效标：选择适当的效标是统计效度的先决条件。如因所选效标不当，以致测验的效度不能显出，则测验的价值可能被淹没。一个测验因其所采用的效标不同，其效度可能大相径庭。从统计观点来看，一个效标关联效度受下列三个因素影响：（1）测验信度；（2）效标变量测量的信度；（3）测验变量和效标变量之间真正的相关程度。5、样本方面：效度确认所依据的样本，必须能代表某一测验所拟应用的全体对象。一个测验应用于不同的对象，由于他们在性别上、年龄上、教育程度上以及经验背景上的差别，其测验功能不一致，效度也随之而异。样本规模大小对效度也有影响。样本的异质性也会影响测验的效度系数。总之，为了增进测验的效度，必须要求测验编制和实施程度的标准化，注意被试在测验情境中的行为反应，并顾及适当样本和效标的选择，以建立符合测验目的和功能的效度。（三）提高效度的办法1、控制系统误差。2、精心编制量表。首先，测验内容要确实能反映测验目的；其次，题目表述必须清楚、简明，所用字、词、句能为学生理解，内容应能引起被试者的兴趣，排列则易到难，但前面的题目不应暗示后面的答案；再次，题目难度合适，有足够区分度；最后试卷印刷清楚，无错误和遗漏，并力求精美。3、妥善组织测验。4、扩充样本的容量和代表性。5、合理处理效度和信度的关系。信度是效度的必要条件。虽然信度高的测验效度不一定高，但效度高的测验，信度却一定比较高。效度和信度的关系是：效度的最大值等信度的平方根。但是，既要有高效度同时又要有高信度是不大可能的。例如，同质性测验（量表的所有题目测验相同的因素）信度较高，但对预测来说，效度却很低。非同质性测验（其测验内容测量不同因素）预测效度高，但是信度却比较低。所以，要提高预测效度的一个重要办法，是增加非同质性，即增加新因素。在处理信度和效度的关系上，首先要保证高的效度。6、适当增加测验的长度增加测验长度可以提高信度，而效度的最大值又与信度有关，所以可以提高效度。增加测验长度对信度的影响大于对效度的影响。具体关系见教材P49表。第三节难度一、概念难度指测验试题的难易程度。在教育测量中，客观题的难度一般用正确回答试题的人数与参加测验的总人数的比值来表示。即PR/N。R为答对的人数，N为参加测验的人数。因此，这里难度实际代表的是易度。难度是试题对学生知识和能力水平的适合程度的指标。试题难度不但对题目的区分度有影响，而且对试卷的信度和效度也有较大影响。很明显，难度是一个相对概念，难度的高低与被试的水平直接相关。一种测量对这一组被试是高难度的，可能对另一组被试是低难度的。也就是说，难度是由参与测量的被试群体的整体水平决定的。二、难度的计算（一）基本公式1、客观题：PR/N2、主观题：P平均得分/此题的满分（二）用极端分组法计算试题难度当考生人数较多时，用基本公式计算需要对所有考生得分进行统计，工作量大，而且常常出错，且需要所有学生的得分。如果条件不具备，则无法计算了。这时可以用极端分组法，无论是客观题还是主观题都可以使用。1、用极端分组法计算客观题的难度具体步骤如下：（1）先按测验总分的高低，按由高到低依次排列试卷；（2）从得分最高的一分试卷开始向下依次选出全部试卷的27%作为高分组；（3）从得分最低的一份试卷向上依次选出全部试卷的27%作为低分组；（4）按下列公式计算难度。P（PHPL）/2其中PH为高分组难度，PL为低分组难度。高低分组的难度按基本公式计算。2、用极端分组法计算主观题的难度论文式试题一般不能简单地判定对与错或通过与不通过，难度计算比较复杂。具体步骤如下：（1）按测验得分排列试卷，确定高分组与低分组，各占总人数25%（具体办法同前）；（2）分别为高分组与低分组编制每道试题的分析表；（3）按下列公式计算难度。P（XHXL2nl）/ 2n(H- L) 这里公式的意义应搞清楚！其中XH代表高分组得分总和，XL代表低分组得分总和，n代表总人数的25%，H为这道题的最高得分，L为这道题的最低得分。三、难度对测验的影响1、测验难度影响测验分数的分布形态难度过大或过小，都会造成测验分数的偏态分布。难度值越接近0，测验的难度就越大，正确回答试题的人数就越少，测验分数就越是集中在低分段，其分数分布呈正偏态；相反，难度值越接近1，其难度越小，正确回答试题的人就越多，测验分数集中在高分段，分数分布呈现负偏态。2、测验难度影响测验分数的离散程度测验难度直接影响测验分数的离散程度，因为难度过大或过小，测验分数的分布都呈偏态分布，亦即测验分数都分布在高分段或低分段，这样，测验分数的离散程度就变小。而这一定符合考生的实际情况，因为考生的差异是客观存在的。只有难度适中，其分数的分布范围才有可能达到最大。3、测验难度影响测验的鉴别能力指难度与区分度的关系，在区分度里再说。四、测验的适宜程度从难度公式，我们得出P的取值一般在0与1之间。当P1时困难程度最小（即所有考生都回答正确）；当P0时困难程度最大（即所有考生都回答错误）。在常模参照性测验中要求试题难度适中，即大多数题目的难度在0.30.7之间，少数题目可在这一范围之两边且题数（或题分）大体相当，使整个试卷的平均难度为0.5左右（0.450.55）之间。只有适中的题目难度，才能使试题产生区

展开阅读全文

教育测量与评价教案.doc

最新文档