石大教育测量与评价教案02教育测量的质量指标

资源描述

第二章教育测量的质量指标第一节信度一、信度的概念信度指测量结果的稳定性或可靠性程度，亦即测量的结果是否真实、客观反映了老先生的实际水平。可从三个方面来考虑：第一，信度指实测值和真值相差的程度测量的目的之一，就是希望通过测量得到的实测值能够接近事物的真值。但由于各种原因，实测值与真值之间必然存在误差。但误差越小，说明信度越高。（实测值）=T（真值）+E（误差）由于真值是未知的，因此误差值是大是小也是未可知的。一般为求得最接近的实测值都是通过多次实测取其平均值来作为真值的近似值。但这一方法缺乏实际可操作性，也无法求得信度的大小。第二，信度是指统计量与参数之间的接近程度统计量和参数是统计学中的两个基本概念。统计量是指样本上的各种数字特征（如样本的平均数、标准差等），参数是总体上的各种数字特征（如总体的平均数、标准差等）。统计量越接近参数，这个统计量的可靠性程度就越高，因此信度越高。而要知道统计量与参数的接近程度高，可以对参数进行区间估计，这种方法对估计真分数有用，但仍然无法计算出信度。第三，信度指两次重复测量或等值测量之间的关联程度。如果对同一对象进行两次重复测量或者等值测量后，计算两次测量的相关系数，相关系数越高，说明测量的信度越高；反之，信度越低。但应注意的是，重复测量会受到被试的经验、知识的增长等因素的影响，等值测量又较难编制，因此，采用这种方法计算信度时，也是有误差的。信度是任何一个测量的必要条件，对于教育测量来说，它具有更为重要的意义。因为教育测量的对象主要是精神现象，所测量的特性不易把握，为了能真实地反映测量对象的某种特点，更加需要注意测量的信度。二、信度的理论公式见P32。这里需要注意的是，对实得分数进行分解后，可以分解成真分数的方差、随机误差的方差两部分。很明显，随机误差的方差越小，测量的信度就越高。信度取值范围为0,1。三、信度的类型用上面的理论公式计算不了信度，因为真分数根本不知道，如果知道就不用算了。实际中常用以下几种方法（也就是几种不同的信度）：（一）稳定性系数（重测信度）指用同一测验试卷，在先后两个不同时间内对同一组被试进行测验，两次测验实得分数的相关系数。这是最简单的估量信度的方法。要注意的是：（1）重测法只适用于速度测验而不适用于难度测验；（2）所测的信度大小,常常受到两次测验时间间隔长短影响；（3）第二次测验没有吸引力，不易引起被试的兴趣；（4）要实施两次测验，耗费人力、物力和时间较多。（二）等值性系数当同一测验的一种型式不能或不适合实施两次时，就需要采用该测验的另一个平等测验或者复份（复本）。复份要求在测验的内容、题数、格式、难度、平均数、标准差等方面应与原测验一样，否则，估计的等值系数就会出现较大误差。决定等值系数的方法是，先实施第一次测验，然后在最短时间内实施第二份等值的测验，再求它们的相关系数，这个相关系数就是信度的等值性系数。采用复份法估计信度系数要注意：（1）两次测验试卷要等值，即在内容范围、题型、题数、难度、区分度等方面要基本相同；（2）两次测验要尽可能在较短的时距内进行；（3）确定两次测验是否等值，还要考察两次测验结果的平均数与标准差。但在实际操作中，要编制两份等值的测验是非常困难的。（三）内部一致性系数前面两种估计信度系数的方法都是要测验两次的，但在实际的测验之中，一方面教师很难编制两份等值的试卷，学生也没有那么多时间和精力重复参加测验。因此需要根据一次测验来估计测验的信度系数。这就是内部一致性系数，即把一次测验人为地分成两个部分，比较两个部分的一致程度，从而估计信度系数。按照分成两个部分的不同，内部一致性系数的估计方法有两种：1、分半信度这种方法是将一次测验分成两个假定相等而独立的部分来记分，通常是以题目的奇数为一组，偶数为一组，计算两组的相关系数，最后用斯皮尔曼一布朗公式校正，求得整个测验的信度系数。（公式见教材）2、库德尔一理查森公式法用这种方法只需要测验一次，然后以各个问题的正确反应数为基础（此可视为各题难度的信息），或根据各人部分的平均数和标准差，计算信度系数。库德尔一理查森公式有好几个，最常用的是I*KR20和kr2or*KR2O的用法：以每题能正确回答的人数占总人数的百分数为基础计算（每题只有通过或未通过两种分数）。具体公式见教材。R21的用法：这个公式以各反应者总分的平均数和方差为基础计算，无需各题难度的信息。公式见教材。计算内部一致性系数，需要注意下列问题：A、若用分半法时，以按奇数题和偶数题分为两半为宜。若把整个测验分为前后两半，一方面前半部试题与后半部试题未必等值，另一方面被试者在完成后半部试题时，可能因疲劳、厌倦等原因而影响回答质量，以致前后反应不一致，影响信度。B、若速率是测验的重要因素，则不宜用分半法，因为速度测验中试题的难度低,被试者得分多少,在很大程度上是因为答题的多少,分半法易使得分相同，从而夸大分半法的信度估计。C、如果答案多种多样，得分也多种多样时（如论文式考试），则不能用上列公式计算一致性系数。（四）论文式测验的信度系数论文式测验的评分，没有严格的评分标准，以致同样一个题目，不同的应试者的回答和得分都不一样，所以无法用前面的公式，而要用克龙巴赫所创的系数公式（见教材）。（五）评分者信度一般论文式考试，只能提供列出答案要点的参考答案而无固定的标准答案，因而不同的评分者对同一份试卷往往给分不同，甚至有很大悬殊。在作文测验、投射测验、品德测验、创造力测验等的评分中，都存在这个问题。计算这种信度需要区分评分者的人次数。若为2人评N份试卷，可用斯皮尔曼等级相关计算；若为三人以上评N份试卷，则用肯德尔和谐系数计算。四、提高信度的方法（一）信度以多大为宜：对于学科测验，要求达到0.9以上；智力测验要求达到0.8以上；品德测验能达到0.6以上就不错了。（二）测量误差的来源1、测验本身所引起的误差：测验本身的有些因素会直接产生误差：如题目格式中的判断题猜测的可能性会很大；规定的时限；用词不准确引起的误解；题目的多少等。测验所包括的测题样本也会引起测量误差。2、测验的实施所引起的误差：如指导语错误，对答案纸的错划、时间记录的错误、主试本身的主观影响、记分误差等。3、被试引起的误差：这是最难控制的误差，具体表现为动机的作用；学习、发展和教育的影响；对于测验的经验；测验的焦虑；生理因素等。（三）提高测验信度的方法1、适当增加测验题目的数量，即可提高信度也可提高效度；2、测验的难度要适中，这样信度能达到最大，也能使测验区分度达到最大；3、测验的内容应尽量同质；4、测验的程序应统一，包括试卷统一、测验开始时的指导语、回答问题的方式、分发及收回试卷的办法、测验时间的掌握等，特别应该提到的是，考试的组织问题、监考问题等，这是关系到测验信度的重要因素；5、测验的时间要充分；6、评分要尽量做到客观化、减少评分误差。第二节效度一、概念指测量结果的准确性和有效性的程度，亦即测量是否达到了预期目的。首先，测量的效度始终是对一定的测量目的而言的。一般而言，任何测量都有某种特定的目的和功能，判断效度高低，就是判断测验达到目的的程度。其次，测量的效度也是对测量的结果而言的。一种测量工具只能经过实际测量，才能根据出来的结果判断它的效度。所以也可以把效度理解为测量的结果正确反映所欲测量的特性或功能的程度。对于任何一种测量来说，只有当它的测量结果真实、正确地反映所欲测量的功能和特性时，才能认为这种测量是较为有效地或效度较高的。第三，一种测量的效度只是高或低的问题。因为，一种测量在编制时，总是针对一定目的而编制的。不存在无效度的测量，只是高或低的问题而已。第四，在教育测量中，效度问题比在其他领域的测量更为重要。因为，首先，教育测量的对象大多是精神现象，只能通过对其具有可测性的外部表现（如言语或动作等）的测量，以间接认识其心理活动、心理特征或知识水平等。其次，学生的心理活动、心理特征与其外部表现之间，一般仅具有相关关系而无函数关系，外部行为并不能准确无误地反映某种心理状态。此外，教育测量的对象不是物而是具有主观能动性的人，人能有意识地调节自己的外部行为，掩盖自己的内心活动，这就增加了认识其精神现象的难度。二、效度的理论公式实得分数可分解为潜在真分数，系统误差，随机误差三部分。具体关系见教材P43。三、效度的分类及估计（一）、内容效度指测验目的代表所欲测量的内容和引起预期反应所达到的程度，也就是测量内容的代表性程度。在编制测验时，内容效度是一个相当复杂和不易解决的问题。以成绩测验来说，固然要求测验题目能代表所学习过的全部内容，但仅仅在形式上做到这一点还不能保证足够的内容效度，因为学习成绩的高低要从学习内容的巩固程度、理解程度和应用能力几种行为反应去考察。如果测验题目大多是只需要牢记教材就可以回答的问题，那么，对全面测验学生的成绩这一目的来说，内容效度仍然不RJo估计内容效度的方法：1、逻辑分析的方法。这是根据教育学和心理学的理论，根据教学大纲要求，勾画出学生掌握知识内容的范围和深度，提出应形成的技能名称，然后以逻辑分析的方法估计测验在多大程度上代表了这些内容，在多大程度上能够测量出所要测量的特性和功能。2、用测验题目与教材内容比较的方法。这需要先制两个表：一个是测验的双向细目表（见第三章），分别列出所要测验的各单元教材内容在考题中应占的百分比和所要求的各种行为的反应在全部反应中的百分比。另一个表是测验试题分类表，根据各单元教材内容列出试题，并注明该题所要求的行为反应及其应占的百分比。然后对照这两个表,根据各个部分相符合的程度判断内容效度的高低。（二）效标关联效度又称经验效度或统计效度，是以测验分数和效标之间的相关系数来表示测验的效度高低的。效标就是足以显示测验所欲测量的特性的变量或足以显示测验所欲测量的特性的变量，作为检定效度的参照尺度。效标关联效度又可分为同时效度和预测效度。同时效度指测验与当前效标之间的关系程度；预测效度指测验与将来的效标之间的关联程度。如用全国高考的成绩作为效标来检验高中毕业会考的成绩，计算两者的相关系数就是会考的同时效度；而用大学一年级的成绩作为效标来检验高考的成绩，两者的相关系数就是高考的预测效度。效标是用来衡量测验效度的尺度。具体而言，效标是辨别真伪的尺度，当事物满足该原则要求时，才能存在。效标是不能违反的。当然，标准可以提高，也可以降低。效标不仅随着测验的种类不同而不同，也可能随时间而改变。选择效标是件困难而重要的事情。通常教育测验所依循的效标，可采用各学科成绩和教师的评定结果；智力测验的效标,可采用学科成绩、教师评判的结果、学生总成绩、受教育年限、年龄以及其他相关事物；能力倾向性测验的效标，可采用特殊课程或特殊训练的成绩等；职业兴趣测验的效标，可采用从业人员实际服务成绩或记录；人格测验的效标，很难找到，只能按编制者的主观标准判断，或以被试以后的行为或临床资料作为效标。效标关联效度的计算主要通过计算相关系数求得，可用积差相关、二列相关或点二列相关、四格相关和多元相关系数等。（参见有关教育统计学教材）。（三）结构效度指一个测量能实际测量出理论上的概念或心理特性的程度。它的目的在于用心理学的概念来说明分析测验分数的意义，也就是说从心理学的理论观点就测验的结果加以解释和探讨。结构效度的研究是较困难和有争议的，至今从概念上和数学上作了部分解释。确定一个测量的结构效度之所以困难，是因为效标、构想不是直接可测的，因而不能计算测量与效标的相关。结构效度确定的方法如下：首先从某一结构理论出发，导出各项关于心理功能或行为的基本假设；据此编制测验；然后由果溯因，以相关、实验和因素分析的方法，检验测验结果是否符合心理学上的理论见解。例如，从现代智力理论，可以推断四项主要功能上的假设：（1）智力随年龄增长；（2）智商是相对稳定的；（3）智力受遗传影响；（4）智力与学业成就有密切关系。因此，在根据上述的假设编制智力测验后，就要从上述四个方面进行检验。由此可见，结构效度是由累积的证据来评价，不可能有单一的结构效度指标。确定一个测量的结构效度需要两个重要步骤。首先，必须指出，这个测量和所用理论上认为应与之有关的其它测量，有显著的相关。其次，必须指出，必须指出这个测量与所有理论上认为不应与之有关的其它测量，没有明显相关。四、提高效度的办法（一）各种效度的要求不同测验对效度系数有不同要求。例如，智力测验分数与教师对学生的等级评定之间的效度系数一般在0.30.5的范围内；相同科目的标准测验成绩与教师对学生名次排列之间的相关系数一般应达到0.60-0.70之间；两种不同的智力测验或标准测验之间的相关系数应达到0.60-0.80,才能符合要求。对效度系数大小的要求，也受原始与获得效标的测验之间的相似性制约。若二者不相似，则效度系数偏低；若相似，则效度系数会高些。（二）影响效度的因素1、测验组成方面：测题的性能是影响测验效度的因素之一，如测验的取材、长度、辨别力、难度及其编排方式等都和效度有关。2、测验实施方面：一个测验的效度要保证，主试应适当控制测验情境，遵照测验守则的各项规定实施。3、被试主观状态方面：被试的动机、兴趣、情绪、态度和身体健康及是否充分合作与尽力而为等都能影响结果的可靠性和正确性。4、估计效度所依循的效标：选择适当的效标是统计效度的先决条件。如因所选效标不当，以致测验的效度不能显出，则测验的价值可能被淹没。一个测验因其所采用的效标不同，其效度可能大相径庭。从统计观点来看，一个效标关联效度受下列三个因素影响：（1）测验信度；（2）效标变量测量的信度；（3）测验变量和效标变量之间真正的相关程度。5、样本方面：效度确认所依据的样本，必须能代表某一测验所拟应用的全体对象。一个测验应用于不同的对象，由于他们在性别上、年龄上、教育程度上以及经验背景上的差别，其测验功能不一致，效度也随之而异。样本规模大小对效度也有影响。样本的异质性也会影响测验的效度系数。总之，为了增进测验的效度，必须要求测验编制和实施程度的标准化，注意被试在测验情境中的行为反应，并顾及适当样本和效标的选择，以建立符合测验目的和功能的效度。（）提高效度的办法1、控制系统误差。2、精心编制量表。首先，测验内容要确实能反映测验目的；其次，题目表述必须清楚、简明，所用字、词、句能为学生理解，内容应能引起被试者的兴趣，排列则易到难，但前面的题目不应暗示后面的答案；再次，题目难度合适，有足够区分度；最后试卷印刷清楚，无错误和遗漏，并力求精美。3、妥善组织测验。4、扩充样本的容量和代表性。5、合理处理效度和信度的关系。信度是效度的必要条件。虽然信度高的测验效度不一定高，但效度高的测验，信度却一定比较高。效度和信度的关系是：效度的最大值等信度的平方根。但是，既要有高效度同时又要有高信度是不大可能的。例如，同质性测验（量表的所有题目测验相同的因素）信度较高，但对预测来说，效度却很低。非同质性测验（其测验内容测量不同因素）预测效度高，但是信度却比较低。所以，要提高预测效度的一个重要办法，是增加非同质性，即增加新因素。在处理信度和效度的关系上，首先要保证高的效度。6、适当增加测验的长度增加测验长度可以提高信度，而效度的最大值又与信度有关，所以可以提高效度。增加测验长度对信度的影响大于对效度的影响。具体关系见教材P49表。第三节难度一、概念难度指测验试题的难易程度。在教育测量中，客观题的难度一般用正确回答试题的人数与参加测验的总人数的比值来表示。即P=RNR为答对的人数，N为参加测验的人数。因此，这里难度实际代表的是易度。难度是试题对学生知识和能力水平的适合程度的指标。试题难度不但对题目的区分度有影响，而且对试卷的信度和效度也有较大影响。很明显，难度是一个相对概念，难度的高低与被试的水平直接相关。一种测量对这一组被试是高难度的，可能对另一组被试是低难度的。也就是说，难度是由参与测量的被试群体的整体水平决定的。二、难度的计算（一）基本公式1、客观题：P=RZN2、主观题：P=平均得分/此题的满分（二）用极端分组法计算试题难度当考生人数较多时，用基本公式计算需要对所有考生得分进行统计，工作量大，而且常常出错，且需要所有学生的得分。如果条件不具备，则无法计算了。这时可以用极端分组法，无论是客观题还是主观题都可以使用。1、用极端分组法计算客观题的难度具体步骤如下：（1）先按测验总分的高低，按由高到低依次排列试卷；（2）从得分最高的一分试卷开始向下依次选出全部试卷的27%作为高分组；（3）从得分最低的一份试卷向上依次选出全部试卷的27%作为低分组；（4）按下列公式计算难度。P=（Ph+Pl）/2其中PH为高分组难度,Pl为低分组难度。高低分组的难度按基本公式计算。2、用极端分组法计算主观题的难度论文式试题一般不能简单地判定对与错或通过与不通过，难度计算比较复杂。具体步骤如下：（1）按测验得分排列试卷，确定高分组与低分组，各占总人数25%（具体办法同前）；（2）分别为高分组与低分组编制每道试题的分析表；（3）按下列公式计算难度。P=（Xh+Xl-21）2n（H-L）这里公式的意义应搞清楚！其中XH代表高分组得分总和,Xl位表底分质得分总和：n於技总人数的25%,H为这道题的最高得分，L为这道题的最低得分。三、难度对测验的影响1、测验难度影响测验分数的分布形态难度过大或过小，都会造成测验分数的偏态分布。难度值越接近0,测验的难度就越大，正确回答试题的人数就越少，测验分数就越是集中在低分段，其分数分布呈正偏态；相反，难度值越接近1,其难度越小，正确回答试题的人就越多，测验分数集中在高分段，分数分布呈现负偏态。2、测验难度影响测验分数的离散程度测验难度直接影响测验分数的离散程度，因为难度过大或过小，测验分数的分布都呈偏态分布，亦即测验分数都分布在高分段或低分段，这样，测验分数的离散程度就变小。而这一定符合考生的实际情况，因为考生的差异是客观存在的。只有难度适中，其分数的分布范围才有可能达到最大。3、测验难度影响测验的鉴别能力指难度与区分度的关系，在区分度里再说。四、测验的适宜程度从难度公式，我们得出P的取值一般在0与1之间。当P=I时困难程度最小（即所有考生都回答正确）；当P=O时困难程度最大（即所有考生都回答错误）。在常模参照性测验中要求试题难度适中，即大多数题目的难度在0.30.7之间，少数题目可在这一范围之两边且题数（或题分）大体相当，使整个试卷的平均难度为0.5左右（0.450.55）之间。只有适中的题目难度，才能使试题产生区分不同程度考生的最大效果，也才能使考生得分呈正态分布。而对全部考生都会或不会的都应删去。对于其它类型的测验，目的不同对难度的要求不同，如选拔性的测验难度就应小，而选择补习功课的学生困难就应大。五、控制题目难度的方法一般说来影响题目难度的主要因素有：（1）考查知识点的多少；（2）考查能力的复杂程度或层次的高低；（3）考生对题目的熟悉程度（如本来比较容易的题目会因考生均未注意而造成很难，或者本来较难的题目会因考生普遍练习而变得容易）；（4）命题的技巧性（如同一问题，可以命得很容易，也可以命得很难）。控制题目因素除了以上因素，还可以通过其它方法来控制。在平常教学考试中，由于老师对学生的情况比较了解，因而主要凭经验来控制难度，使之与老师的教学难度相适应。而在大规模的测试中，就要通过预测难度来掌握。首先由命题人员根据上述因素估计一个难度；然后通过测试看这个估计的准确的程度，分析原因，进而提高评估能力。经过预测取得难度的题目可以进入题库，以备后用。第四节区分度一、概念区分度指测验对考生实际水平的区分程度，用符号D来表示。具有良好的区分度的测验，实际水平高的应该得高分，实际水平低的应该得低分，所以区分度又叫鉴别力。它是评价试题质量，筛选试题的主要指标和依据。区分又分为正区分（DX）、零区分（D=O）和负区分（D0）,正区分又叫积极区分，负区分又叫消极区分。任何测验的目的之一，就是希望能够鉴别考生的实际水平。这实际上也是测验的信度和效度在题目上的具体要求。区分度的高低直接影响到测验的信度和效度。（一）区分度和难度、信度的关系1962年R.L.艾伯发表了一个表，内容为假定全部试题的难度均为0.50时预测的信度系数。提出要达到理想的测验信度，提高区分度是一个好方法。（表见P55页）（二）区分度与难度的关系见教材P56,说明难度适中，可使区分度达到最大值。二、区分度的计算（一）用极端分组法计算1、客观题区分度的计算用这种方法计算区分度与计算难度的方法基本相同，只是最后一步按下列公式计算D=Ph-Pl其中PH指高分组的难度，PL指低分组的难度。2、主观题区分度的计算主观题的区分度计算与客观题不同。首先，在分组方面，高分组和低分组各取25%的总人数，然后按下列公式计算D=(Xh-Xl)/n(H-L)其中XH代表高分组得分总数,Xl表示低分组得分总数，n表示总人数的25%,H表示这道题的最高得分，L代表这道题的最低得分。(二)用内部一致性系数计算区分度用极端分组法分析测验项目的区分度虽然计算简便、易于理解，但所得结果不精确，通常只在教师编制的课堂测验中使用。在标准化或大规模的测验中，多采用相关法分析试题区分度。计算区分度可以采用点二列相关、二列相关、中相关系数等方法计算(有关方法参见教育统计学)。点二列相关适用于客观题区分度；二列相关适用于计算多重选择题区分度；中相关系数适用于二个变量都是二分名义变量的区分度。三、提高区分度的方法1、使题目难度适中，使整个考试难度适中；2、着重考察复杂的学习结果。四、区分度的评价标准区分度自然越高越好，但要做到这一点较难。一般说来，可参照以下标准，对于有些要求不高的测验，有些试题的区分度低一些是容许的。见P58。

展开阅读全文

石大教育测量与评价教案02教育测量的质量指标

最新文档