教育测量与评价(期末复习)课件

上传人:文**** 文档编号:242586268 上传时间:2024-08-28 格式:PPT 页数:152 大小:7MB
返回 下载 相关 举报
教育测量与评价(期末复习)课件_第1页
第1页 / 共152页
教育测量与评价(期末复习)课件_第2页
第2页 / 共152页
教育测量与评价(期末复习)课件_第3页
第3页 / 共152页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第二章 教育测量的质量指标,衡量教育测量的质量,可采用四个指标:,信度,主要对整个测量而言。,效度,难度,主要对测量的项目而言。,区分度,第二章 教育测量的质量指标衡量教育测量的质量,可采用四个指,第一节 信度,一、信度概念,信度是指测量,结果,的稳定性或可靠性程度。用同一种工具反复测同一种特质对象,结果的一致性程度就叫信度,一般地说,一个好的测量必须具有较高的信度,也就是说,一个好的测量工具,只要遵守操作规则,其,结果,就不应随工具的使用者或使用时间等方面的变化而发生较大的变化。,或者说,测验的抗干扰能力强,误差因素控制得好,,测值的一致性高,,就叫信度高,人们感觉可靠。,第一节 信度一、信度概念,可以从以下三个方面去理解测量的信度,P29,:,信度指实测值(,X,)和真值(,T,)相差的程度,信度是指统计量与参数之间的接近程度,信度指两次重复测量或等值测量之间的关联程度。,可以从以下三个方面去理解测量的信度P29:,三、信度的估计方法(信度类型),1,、重复信度(再测信度),指的是同一个量表对同一组被试施测两次所得结果的一致性程度。,其大小等于同一组被试在两次测验上所得分数的相关系数,一般采用积差相关的公式来计算。(板书、推导该公式),三、信度的估计方法(信度类型)1、重复信度(再测信度),积差相关的使用条件:,两个变量的总体都呈正态分布,至少是单峰对称的分布。作此判断需要总体分布的卡方检验。,必须是成对数据,每对数据之间相互独立,两个变量之间呈线性关系,可由散布图的形状来决定。,积差相关的使用条件:,教育测量与评价(期末复习)课件,例一,用一个算术四则的速度测验,12,个小学生,得分记为,X,,为了考察测量结果的可靠性,于,3,个月后再测一次,得分记为,Y,,问测验结果是否可靠?,学生序号,1 2 3 4 5 6 7 8 9 10 11 12,X 20 20 21 22 23 23 232425262627,Y 20 21 21 20 23 23 252526262729,例一用一个算术四则的速度测验12个小学生,得分记为X,为了考,在使用重测法计算稳定性系数时,应注意以下问题:,1,、信度的取值范围为,0,,,1,,当信度值较大时,说明前后两次测量结果比较一致;,2,、两次测验之间的时间间隔要适宜。太长,身心发展、遗忘、环境改变等使信度降低;太短,练习与记忆等提高了成绩,信度降低。,在使用重测法计算稳定性系数时,应注意以下问题:1、信度的取值,3,、重测法适用于速度测验而不适用于难度测验;因被试很难记忆第一次,而难度测验相反。还适用于运动技能的测验。,4,、适用于异质测验,即一个测验包含几个不同的部分,分别测量不同的心理特质。因为这种测试不适于计算内部一致性信度。,4,、应注意提高被试者的积极性。,3、重测法适用于速度测验而不适用于难度测验;因被试很难记忆第,2,、复本信度,指的是两个平等的测验测量同一批被试所得结果的一致性程度。,其大小等于同一批被试在两个复本测验上所得分数的相关系数。,所谓复本测验是指在格式、内容、题型、题数、难度、指导语说明、施测要求等方面都一致(或相等)的两份或多份测验。,2、复本信度指的是两个平等的测验测量同一批被试所得结果的一致,例二,以,A,、,B,两型英语复本测验对初中三年级,10,个学生施测,为避免由测验施测顺序所造成的误差,其中,5,个学生先做,A,型测验,休息,15,分钟后,再做,B,型测验;而另,5,个学生先做,B,型测验,休息,15,分钟后,再做,A,型测验。,10,个学生,A,型测验结果记为,X,,,B,型测验结果记为,Y,,其测验的复本信度如何?,学生序号,1 2 3 4 5 6 7 8 9 10,X 19 19 18 17 16 15 15 14 13 12,Y 20 17 18 18 17 15 13 15 12 12,例二以A、B两型英语复本测验对初中三年级10个学生施测,为避,复本信度的优缺点表现:,优点:,1,、两个复本在,同时使用,时,可以避免再测信息的一些缺点如首测对再测在记忆、练习、效果的影响,间隔期间获得新知识的影响,两次施测的环境不同和被试主观状态不同的影响,以及为了应付测验所作训练的影响等。反映究竟是不是真正的平行测验;换言之,反映了测验内容造成的误差。,复本信度的优缺点表现:优点:,2,、测验的两个复本,如果在,不同的时间,使用,其信度既可以反映被试在不同时间的稳定性,又可以反映测验内容的一致性。换言之,既反映了时间影响,又反映了测验内容的抽样误差。,这种同时兼顾试题抽样与时间影响的信度,称为等值稳定性系数,与其他信度系数相比,该系数最小,也就是说,此种复本信度是对信度最严格的检验。,3,、在追踪研究或探讨某些影响测验成绩的因素时,大多使用复本测验,分析复本信度。,2、测验的两个复本,如果在不同的时间使用,其信度既可以反映被,缺点:,1,、编制两个完全相等的测验是很困难的,如果两个复本过份相似,则变成再测形式,而过分不相似,又使等值的条件不存在;,2,、两个复本测验有可能在某种程度上测量了不同的性质,这就会低估测验的信度;(因内容造成的误差)。,3,、被试同时接受性质相似的两个测验,可能减少完成测验的积极性;,4,、虽然两个复本测验的题目材料不同,但被试一旦掌握了解题的某一模式,就能触类旁通,有可能失去复本的意义。,缺点:1、编制两个完全相等的测验是很困难的,如果两个复本过份,3.1,、同质信度之分半信度,就是将测验分半,被试在每一半测验上所得分数的相关系数。反映了,2,半题目间的一致性。,分半的方法很多,如,按题号奇偶,按难度、按题目内容。无论如何分半,都要在分开后做微调,最终目的是分成对等的两半。如果做不到对等,就不适合求分半信度。,在实际运用中,由于题目一般是按难度大小排列,采用奇偶分半可以使两半测验的题目在难度上基本相等,因此常被采纳。,3.1、同质信度之分半信度就是将测验分半,被试在每一半测验上,分半后,计算每个被试在两个分半测验分数的积差相关系数,由于只是半个测验之间的信度,故,再用斯皮尔曼,布朗公式加以校正。,3.2,同质信度之库德尔,-,理查森信度,适合于全部二分计分题测验的内部一致性信度分析。,常用的两个公式有:(板书,,P33,),教育测量与评价(期末复习)课件,例三,对初中一年级学生进行地理成绩测验,每答对,1,题得,1,分,答错,1,题得,0,分,其测验结果如下表,试估计该测验的库德,-,理查森信度?,学生序号 题 序,1 2 3 4 5 6,总分,1 1 0 0 0 0 0 1,2 1 0 0 1 0 0 2,3 0 0 0 0 1 1 2,4 1 1 1 0 0 0 3,5 0 1 0 0 1 1 3,6 1 1 1 0 0 0 3,7 1 1 1 1 0 0 4,8 1 1 1 1 0 0 4,9 1 1 0 1 1 1 5,10 1 1 1 1 1 1 6,p,q,pq,例三对初中一年级学生进行地理成绩测验,每答对1题得1分,答错,请比较两个公式所算出来的值,当测验中所有的试题难度都一样,或平均难度接近,0.50,时,两个公式所估计出来的信度值将相等。但是,当测验中所有试题难度值极不相同时,差距将较大。一般,KR21,比,KR20,信度值小。,请比较两个公式所算出来的值,4,、论文式测验信度,论文没有严格评分标准,同样题目,不同应试者回答与得分不一样,可用克龙巴赫阿尔法系数公式。,P34,该公式适用于:测验题型多并非都是,2,分计分题时。,板书公式,请阅读,并解释公式含义。,教育测量与评价(期末复习)课件,例,4,用一个包含,6,个论文式试题的测验,测,5,个被试,结果如下,试求该测验的信度?,题序 学生序号,1 2 3 4 5,某题得分方差,1 3 6 1 6 5,2 4 3 3 2 3,3 3 4 1 2 1,4 2 5 2 1 2,5 1 4 4 5 4,6 4 6 5 3 2,总分,17 28 16 19 17,例4,教育测量与评价(期末复习)课件,教育测量与评价(期末复习)课件,四、提高信度的方法,(一)信度系数多大为宜?,学科测验,0.9,以上;,智力测验,0.8,以上;,品德测验,达到,0.6,就不错了。,四、提高信度的方法,作业,1,、用某量表测验,10,名学生,得分记为,X,,为了考察结果的可靠性,于,15,天后用原量表对这,10,个学生重测一次,得分记为,Y,,问测验结果是否可靠?,学生序号,1 2 3 4 5 6 7 8 9 10,X 8 10 9 6 10 7 5 7 9 4,Y 9 10 10 6 10 8 4 8 9 4,作业1、用某量表测验10名学生,得分记为X,为了考察结果的可,2,、对,10,名应试者先进行某种测验,X,,隔适当时间后(半年),再进行内容、范围、难度类似的第二次测验,Y,,试求测验的复本信度?,应试者,1 2 3 4 5 6 7 8 9 10,X 9 10 10 6 10 8 4 8 9 4,Y 4 9 7 9 4 3 5 3 2 4,2、对10名应试者先进行某种测验X,隔适当时间后(半年),再,3,、有一个由,100,题构成的量表施行于,10,个高三学生(分数见下表)。测验一次后,学生即毕业离校,现怎样评价测验结果的信度?,学生序号,1 2 3 4 5 6 7 8 9 10,奇,X 38 37 38 41 40 36 38 39 40 35,偶,Y 37 37 36 39 39 34 38 39 39 36,3、有一个由100题构成的量表施行于10个高三学生(分数见下,四、提高信度的方法,1,、影响测量信度的主要因素自行阅读,P34-35,,请同学们讨论、解释。,(,1,)测量工具方面(对照教材重点解释),(,2,)主试、施测情境方面(对照教材举例),(,3,)被试方面(同上),(,4,)两次施测的间隔时间方面,四、提高信度的方法1、影响测量信度的主要因素自行阅读P34-,2,、提高测量信度的常用方法,阅读,p36-37,,请学生解释:,(,1,)适当增加测验的长度,(,2,)测验的难度要适中,(,3,)测验的内容应尽量同质(不同质是如何影响信度的?),(,4,)测验的程序应统一,(,5,)测验的时间要充分,(,6,)测验的评分要尽量做到客观化,减少评分误差,2、提高测量信度的常用方法阅读p36-37,请学生解释:,第二节 效度,一 、什么是效度,效度是指测量结果的准确性和有效性的程度。也可以说是测量是否达到了预期的目的。,1,、效度是一个相对的概念。,测量的效度是相对一定的测量目的而言的,2,、一种测量的效度只是高或低的问题,测量结果总是有一定效度的,只是效度高低不同罢了。,3,、教育领域的效度问题比其他领域的测量更重要。,第二节 效度一 、什么是效度,二、效度的理论公式,板书,P39,及参考书,P58,重申变量和的方差运算公式,目标真分数、非目标真分数,根据理论公式,怎样才算测量效度高?请同学们回答。,二、效度的理论公式,三、效度的估计,效度估计就是多方寻找证据来证明一个测验的有效性程度的过程。,(一)内容效度,就是指测验题目样本对于应测内容与行为领域的代表性程度。也就是说,测验的内容范围、材料与所要测量的内容范围、教育目标是否相符合;测验中测题所引起的行为是否是所要测量的属性的明确反应。,为了使测验的内容具有有效性,成为所欲测量内容的一个具有代表性的行为样本,在编制测验时,就要考虑建立内容效度的问题。,三、效度的估计效度估计就是多方寻找证据来证明一个测验的有效性,2,、内容效度的估计,逻辑分析法,其工作思路是请有关专家对测验题目与应测内容范围的吻合程度作出判断。,把所有题目按考试内容和考查目标分布进行双向分类,形成实际的“题目双向分类表”。与事先预定的“命题双向分类表”作比较,看是否偏离了原命题计划。,2、内容效度的估计逻辑分析法,教育测量与评价(期末复习)课件,内容效度主要应用于成就测验、学科测验。,内容效度不适合用于能力倾向和人格测验。,内容效度主要应用于成就测验、学科测验。,(二)结构效度,结构:心理学或社会学上的一种理论构想或特质。本身观察不到,也无法直接测量,但学术理论假设它是存在的。,举例,:,结构效度:测量能测出这种结构的程度,(二)结构效度结构:心理学或社会学上的一种理论构想或特质。本,(,1,)结构效度的特点,结构效度的大小完全取决于事先假定的心理特质理论,一旦人们对同一种心理特质有着不同的定义或假设,则会使得关于特质测验的结构效度的研究结果无法比较。比如智力,(1)结构效度的特点结构效度的大小完全取决于事先假定的心理特,(,2,)建立结构效度的步骤,A,、提出理论假设;,B,、根据假定结构,导出各项关于心理功能或行为的基本假设。拟定测题,编制测验;,C,、以测验结果为根据来验证假设结构中的各种因素是否成立。,例如智力,P42,(2)建立结构效度的步骤,测量甲与其他理论上认为应该与之有关的其他测量有显著相关。与其他理论上认为不应该与之有关的其他测量没有显著相关。,与内容效度不同,结构效度主要用于智力测验、人格测验等一些心理测验方面。,教育测量与评价(期末复习)课件,(三)效标关联效度,是以测验分数和效标之间的相关系数来表示测验效度高低的方法。,什么是效标?,例如:某年全国高考物理学科的测验效度,可用大学一年级物理学科的测验分数为效标,然后求同一组学生高考物理得分与大一物理得分之间的相关,此相关系数就是该年高考物理测验的效标关联效度系数。,(三)效标关联效度是以测验分数和效标之间的相关系数来表示测验,效标不仅随测验的种类不同而不同,而且可能随时间而改变,现在是一个好的成功的效标,将来就不一定是。所以,为某个测验选择一个最有效的效标,这是最重要的事情。,教育测验的效标,可采用各学科成绩和教师评定的结果;,智力测验的效标,可采用学科成绩、教师评判的结果、学生总成绩、受教育年限、年龄以及其他事物;,能力倾向测验的效标,可采用特殊课程或特殊训练的成绩;,职业兴趣测验的效标,可采用从业人员实际服务成绩或记录;,人格测验的效标,可采用被试以后行为或临床资料。,效标不仅随测验的种类不同而不同,而且可能随时间而改变,现在是,效标关联效度的种类同时效度,预测效度,效标关联的计算方法:计算相关系数,(多采用积差相关法,略),P41,,其他方法参阅教育统计学教材,效标关联效度的种类同时效度,2,、提高测量效度的方法,P44,对效度系数的要求:,P42,,阅读,1,分钟,控制系统误差,精心编制测验量表,扩充样本的容量(增加样本对总体的代表性),合理处理效度和信度的关系(信度是效度的前提,效度不大于信度的平方根),妥善组织测验,适当增加测验长度,2、提高测量效度的方法P44对效度系数的要求:P42,阅读1,三、难度,难度是指试题的难易程度。,一道试题,如果大部分被试都能答对,则该题的难度就小;如果大部分被试都不能答对,则该题的难度就大。,难度由被试群体整体水平所确定。是相对概念。,三、难度难度是指试题的难易程度。,难度的计算,(一)基本公式,1,、客观题难度的计算,P=R/N,R,为答对该试题人数,,N,为参加测验总人数,例,1,:在,100,个学生中,答对第一题的,30,人,答对第二题的,60,人,求第一、二道题的难度?比较这两道题谁比谁难?,难度的计算(一)基本公式,2,、主观题难度的计算,例,2,:某道论述题满分,12,分,所有考生在这道题上的平均得分为,3.6,分,求该题的难度?,例,3,:语文测验第五题最高得分为,12,分,这道题考生的平均得分是,8.5,分,求该题难度?,例,4,:,60,人参加考试,某题满分为,12,分,正确得分累积是,480,分,求该题难度?,2、主观题难度的计算例2:某道论述题满分12分,所有考生在这,(,2,)极端分组法,客观题步骤:,将测验总分进行高低排序(由高到低),进行高低分组(各取,27%,),并计算某题的得分率,求两组的平均值,公式:,P=,(,PH+PL,),/2,PH,为高分组答对该题的百分比;,PL,为低分组答对该题的百分比。,(2)极端分组法客观题步骤:,例,5,某区域,1000,人参加考试,试卷第一题高分组,180,人答对,低分组,60,人答对,求该题难度?,如果该题满分为,10,分,高分组得分总数为,2100,分,低分组得分总数为,830,分,求该题难度?,例5某区域1000人参加考试,试卷第一题高分组180人答对,,论文题的步骤:,将,测验总分,进行高低排序(由高到低),进行高低分组(各取,25%,),分别为高分组、低分组编制,每道试题,的分析表,按下列公式计算难度:,P=,板书,P48,论文题的步骤:,例,某道论文题,高分组得分总和,40,分,低分组得分总和,15,分,,40,人参加考试,此题最高得分为,5,分,最低得分为,2,分,则此题的难度为,P48,:,教育测量与评价(期末复习)课件,2,、难度的分析与控制,(,1,)难度分析,进行难度分析的主要目的是为了筛选题目。,A,、测验题目难度水平的确定,测验题目难度水平的适当与否,取决于测验的目的、性质和题目的形成。,当,P,值接近于,0,或接近于,1,时,即被试在该题上全部答对或全部答错,则该题无法提供个体的信息。而只当,P,值接近于,0.50,时,题目才能把被试作最大的程度的区分。(离散程度最大),对于常模参照性测验,大多数难度在,0.3-0.7,之间,平均,0.5,。但对于奥林匹克竞赛或补习功课的学生,例外。,2、难度的分析与控制(1)难度分析,B,、测验难度对分数分布的影响,测验的难度直接依赖于组成测验的题目的难度,通过考察测验分数的分布,可以对测验的难度做出直观检查。,由于人的心理特性值多数呈正态分布,因此当测验目的在于测量个体差异时,若被试样本具有代表性,则其结果应呈正态分布。,测验分数背离正态分布有两种情况:其一是题目难度普遍较大,被试得分普遍较低,使得低分端出现高峰,呈正偏态;其二是题目难度普遍较小,被试的得分普遍较高,使得高分端出现高峰,呈负偏态。,B、测验难度对分数分布的影响测验的难度直接依赖于组成测验的题,(,2,)难度的控制,一般说来,影响题目难度的主要因素有:,考察知识点的多少;,考察能力的复杂程度或层次的高低;,考生对题目的熟悉态度;,命题的技巧。,难度控制:,正确估计考生水平与否;,弄清弄懂各知识点与否;,掌握命题技巧与否。,(2)难度的控制一般说来,影响题目难度的主要因素有:,四、区分度,(一)区分度的含义,指测验题目对考生实际水平的区分程度或鉴别能力。,如一道题,学业水平、实际能力都较高的考生都答对了;而学业水平、实际能力都较低的考生都答错了,则可认为该题目有好的区分度。,区分度分析主要以效能为依据,考察考生在每个题目上反应与其在效标上的表现之间的相关程度。,区分度(,D,)的取值范围介于,- 1.00+1.00,之间,值越大,区分度的效果越佳。,区分度,D0,为正区分,,D0,为负区分,,D=0,为零区分,区分度与测验信度、难度的关系,请自行阅读,P51,。,四、区分度(一)区分度的含义,(二)区分度的计算,1,、极端分组法,(,1,)客观性试题,D=PH-PL,例,6,:有道试题,高分组有,70%,学生通过,低分组有,30%,的学生通过;而另一道题,高分组有,40%,学生通过,低分组有,70%,学生通过,求两题的各自区分度?,P51,(二)区分度的计算1、极端分组法,(,2,)主观题,D=,(,XH-XL,),/N,(,H-L,),XH,为高分组得分总数,XL,为低分组得分总数,H,为该道题的最高分,L,为该道题的最低分,N,为应试总人数的,25%,。,(2)主观题D=(XH-XL)/N(H-L),例,7,高分组 低分组,得分,X,人次,f,得分,X,人次,f,5 4 5 0,4 3 4 1,3 2 3 1,2 1 2 3,1 0 1 1,0 0 0 4,此题最高得分,5,分,最低得分,0,分,例7 高分组,2,、相关法,点二列相关法,例,8,:,15,个学生在数学测验中得分记录如下,计算数学测验中第一题的区分度?,学生,1 2 3 4 5 6 7 8 9 10 11 12 13 14 15,测验,65 70 31 49 80 50 35 10 81 69 78 55 77 90 42,第一题,0 1 0 1 1 0 1 0 0 1 1 0 1 1 0,2、相关法点二列相关法,二列相关,例,9,:已知一测验中某选择题的通过率为,0.5,,答对者的测验总分平均为,76,分,答错者的测验总分平均为,63,分,全体被试,20,人总分的标准差为,16,,求该题的区分度?,二列相关,(三)提高区分度的方法,1,、使题目的难度适中,使整个考试难度适中,题目的难度适中可使区分度达到最大值,因此,使难度适中是提高区分度的重要方法。,2,、着重考察复杂的学习结果,使高能学生得高分或低能学生得低分,使分数尽量分布在整个分数量尺上。,3,、掌握区分度的评价标准。,P53,,评价标准表,(三)提高区分度的方法1、使题目的难度适中,使整个考试难度适,第三章,测验目标定义,1,、深入分析课程教学目标;,阅读,5,分钟后,请,合上课本,描绘教育目的、教学目标、课程目标、单元教学目标、课时教学目标、知识点教学目标、行为目标、学习目标及程序教学诸概念之间的关系。,双向细目表的概念,内容类的概念,P76,,认真阅读,3,分钟。,目标层次的概念,第三章,第四章 教育评价方案的编制与实施,第二节 教育评价方案的制定,一、教育评价指标体系的的构建,(一,),教育评价指标体系的结构,1,、框架,指标体系的构成:指标集、评价标准、量化符号。,板书解释“评价对象”与“指标”的相对性,2,、模型,一般模型:评价普遍现象,分类模型:评价特殊现象,举例:“一间中学,教师的教学工作”,第四章 教育评价方案的编制与实施,一般模型与分类模型的相对性,例如:“一间中学,教师的教学工作”,“一间中学,中学的全面工作”,指标体系由指标、评价标准和量化符号组成,3,、指标(与“评价对象”相对),必达指标与期望指标,对教师学历、设备等设置;,违纪犯罪率最低限度,;,表彰、奖项,稳定性指标与变动性指标,“教学方法”,/“,德育”,“计算机辅助教学”,软指标与硬指标,设备、场地,/,办学特色,决策水平,一般模型与分类模型的相对性,例如:“一间中学,教师的教学工作,初拟评价指标,头脑风暴,/,因素分解,/,理论推演,/,筛选评价指标,(,1,)经验法:,理由充分否?,/,主次,/,指标关系,(,近似、交叉、因果、矛盾等),/,去难存易,删繁就简,(,2,)统计调查:,按,5,档给专家问卷,统计“很重要”“重要”人数比例,按人数比例高低排列,删除三分之二或四分之三。,初拟评价指标,4,、标准,概念:达标程度,/,末级指标必须明确规定评价标准,从内容上分:,效能标准:效果标准和效率标准,职责标准,素质标准,从参照点分:,社会标准,;,规范性法则,参照点在外部,科学标准:社会学或自然法则,参照点在内部,4、标准,5,、量化符号,权数:,一般把同一级指标群集视为整体,权值,1,分数,:指标赋分;等级赋分,标度:达到标准的程度,说明什么样的程度属于什么 等级。表示方法有:描述性语言,如,好、中、差;,量化形式,如,用分数阈划分,,100-90,属于优秀,,89-75,属于良好。,5、量化符号,(二)教育评价指标体系的建造,1,、信度和效度,信度:,a,、同一评价者用同一指标体系去重复评价某一对象,所得结果的一致程度;(再测信度),b,、不同评价者用同一指标体系在相隔较短的时间去评价同一对象,看一致性程度。(评分者信度),c,、同一评价者、使用多种指标体系,几乎同时评价同一对象,考察结果的真实程度(一致程度)(复份信度),(二)教育评价指标体系的建造,一般来说,指标内涵客观;指标与指标之间相互独立;硬指标比例大;评价标准的规定明确,等级间的界限分明,信度就高。如果软指标多;指标、等级间界限模糊,评价者较难区分指标之间的差异,难以掌握评判准则,则会降低信度。,效度:考察的是,我们所,要评的,,与指标体系,能评的,之间的关系。越接近,说明指标体系各要素(指标、标准、量化,符号)的设置越准确,越有代表性。,哪些做法影响效度?,P102,一般来说,指标内涵客观;指标与指标之间相互独立;硬指标比例大,2,、方法,前人的启示:,量表与问卷,/,泰勒的“教育目标”以及目标达到的评价模式,/“,行为目标”的研究,/,教育目标分类学及教育评价的研究成果,/,我国的有关探索等。,P103,(,1,)掌握构建教育评价指标体系的依据:理念问题,/,实证问题。,P103,(,2,)掌握评价对象逐级分解的方法。对内涵的理解正确、深刻。如“师德”指标,。,/,理解、分解的多路向性,/,抓大放小原则,/,实施评价指标的可行性,/,2、方法,(,3,),掌握评价等级和标准确定的方法。,等级数,应根据指标的类型和性质来确定。,/,四级分等,两级定标的简便方法。,标准:根据不同类型指标的不同特点,综合运用,如“教改实验”、“教师队伍结构”,/,各等级规定的评价标准,界限要清楚。,(,4,)掌握指标与等级数值分配的方法。集体讨论、咨询、同行专家意见、调查研究,注重程序。参与人员必须:,a,、知识经验、判断鉴别力;,b,、明确赋值依据和原则;,c,、认真严谨,(3)掌握评价等级和标准确定的方法。,二、教育评价方案的编制,以评价指标体系的撰写为核心,1,、期望评语式编写法,2,、积分评语式编写法,(,1,)等分积分评语式,(,2,)累计积分评语式,二、教育评价方案的编制,教育测量与评价(期末复习)课件,教育测量与评价(期末复习)课件,教育测量与评价(期末复习)课件,教育测量与评价(期末复习)课件,教育测量与评价(期末复习)课件,教育测量与评价(期末复习)课件,复习:设计教育评价指标体系实操,(一)确立目标与指标,1,、目标,目标即目的,泛指人们从事活动所达到的目的。,2,、指标,简单地说,指标是用来反映、测量和说明上一级项目的下一级项目。是目标一个方面的规定,它是具体的、可测量的、行为化和操作化的目标。,复习:设计教育评价指标体系实操(一)确立目标与指标,(二)选择指标体系的结构,1,、直线式结构,二级指标,11,一级指标,1,二级指标,12,二级指标,21,一级指标,2,二级指标,22,二级指标,31,一级指标,3,二级指标,32,(二)选择指标体系的结构1、直线式结构,例,1,:小学生最优发展的整体评价指标体系,思想品德,思想素质 科学素质,性格,情趣爱好,小 审美素质 美的感受和鉴赏,学 美的表达和创造,生 学业成绩,最 知识素质 知识结构,优 百科知识面,发 自学能力,展 能力素质 自理生活能力,人际交往和组织能力,体态和机能,身体素质 运动能力,卫生保健,例1:小学生最优发展的整体评价指标体系,2,、树状式结构,一级指标,一级指标,一级指标,总目标,二级指标,2、树状式结构一级指标一级指标一级指标总目标二级指标,例,2,:学生主体性的基本结构,主体性,自主性,主动性,创造性,自,尊,自,信,自,我,调,控,独,立,判,断,决,断,自,觉,自,理,成,就,动,机,竞,争,意,识,兴,趣,和,求,知,欲,主,动,参,与,社,会,适,应,性,创,新,意,识,创,造,性,思,维,能,力,动,手,实,践,能,力,例2:学生主体性的基本结构主体性自主性主动性创造性自自独自成,(三)教育评价指标体系建立的步骤和方法,1,、步骤:,(,1,)分解目标,提出初拟指标,(,2,)归类合并,进行筛选,(,3,)专家评判,(,4,)预试修订,(三)教育评价指标体系建立的步骤和方法1、步骤:,(,1,)分解目标,提出初拟指标,一般较为注意指标的科学性、完备性,唯恐挂一漏了或包罗不尽。,这些指标不仅是较为粗疏的,数量也可能是比较多的。,(1)分解目标,提出初拟指标,方法,(,1,)头脑风暴法,是利用头脑积极思维,进行智力碰撞,激发智慧的灵感,从而提出评价指标的一种常用方法。,(,2,)因素分解法,是一种将评价指标按照评价对象本身的逻辑结构逐级进行分解,把分解出来的主要因素作为评价指标的方法。,应当注意:分解出来的因素,从高到低逐层缩小内涵,越往下层次指标越明确、越具体、范围越小,越可以观测。,(,3,)理论推演法,是根据有关学科的理论推演出评价指标的方法。,(,4,)典型研究法,是通过少数典型事例进行研究而设计评价指标的方法。,方法(1)头脑风暴法,(,2,)归类合并,进行筛选,在初拟指标中,有的能反映评价对象的本质,有的则未必;有的算得上主要因素,有的可能只是次要因素。各因素之间出现交叉、重复、包含、矛盾、因果等关系,也难以避免,必须对初拟指标进行归类合并和筛选,以达到“少而精”的要求。,(2)归类合并,进行筛选在初拟指标中,有的能反映评价对象的本,筛选指标的方法,(,1,)经验法,一般遵循以下几个要点:,A,、理由是否充分或必要,判断每项指标是否是必要的,缺了它有什么不好,保留它有什么理由,被保留的要有充分的依据,在指标体系中,属于非要不可的因素。,B,、取主舍次,区分每项指标反映评价对象本质的程度,保留能反映本质的主要因素,舍弃不能充分反映本质的次要因素。,C,、从各指标之间的关系上进行比较,内涵相同或近似的合并,内涵交叉的保留其一;有因果关系的,保留“因”而去掉“果”;相互矛盾的保留既符合方针、政策规定又切合当地实际的指标。,D,、去难存易,删繁就简,确实难测的指标可以舍弃;指标内涵复杂的,尽量求其单一。,筛选指标的方法(1)经验法,(,3,)专家评判,这是指标设计从设计者手中走向管理实践的重要步骤。专家通常包括评价理论研究者、上级领导、富有经验的教育行政干部、教师等。专家评判可采用个别访问、座谈、问卷征询、现场调查等方式,应根据不同情况选择。,(3)专家评判这是指标设计从设计者手中走向管理实践的重要步骤,调查统计法,是在调查获取资料的基础上进行统计的方法。其具体的做法是:把初拟指标制成问卷,发给有关专家和有经验的教育工作者,请他们对初拟指标每一项作出判断。,一般分为五档,即很重要、重要、一般、可要可不要、不要。答卷者在每项指标后记上自己判断该项指标相比之下的重要程度(只能定一个档次),然后,收回问卷,统计“很重要”、“重要”两档的人数比例,按评为“很重要”、“重要”人数比例由高到低顺序排列,把低于某数值(一般低于三分之二或四分之三处作为划界)的指标删除,就得到筛选的指标。,调查统计法是在调查获取资料的基础上进行统计的方法。其具体的做,(,4,)预试修订,指标体系经过筛选、修订,初步确定以后,可以同评定标准相匹配,选点在小范围试验,看是否可行,试验后对指标体系再作修改,然后投入使用。,(4)预试修订指标体系经过筛选、修订,初步确定以后,可以同评,例,3,:学校领导班子评价指标体系的建立,1,、首先分,4,个层次提出了,16,项指标,(,1,)政治素质(政治理论和政策水平、思想品德修养、事业心和责任感),(,2,)业务素质(文化专业达标、教育理论修养、管理实践经验),(,3,)工作效能(职务与能力相称、分工明确和各尽其责、团结协作、指挥灵便、工作效率高),(,4,)工作作风(深入实际、发扬民主、决策果断、以身作则、开拓精神),例3:学校领导班子评价指标体系的建立1、首先分4个层次提出了,2,、把以上,16,项指标,分为五档(很重要、重要、一般、可要可不要、不要),分别征询意见,获得以下结果:,政治素质(事业心和责任感,1,、政治理论和政策水平,3,、思想品德修养,11,),业务素质(教育理论修养,2,、管理实践经验,10,),工作效能(团结协作,5,、分工明确和各尽其责,8,、工作效率高,9,),工作作风(决策果断,4,、以身作则,6,、开拓精神,7,、发扬民主,12,),2、把以上16项指标,分为五档(很重要、重要、一般、可要可不,第五章 教育评价的方法,第一节 教育评价方法概观,绝对评价法,相对评价法,个体内差异评价法,定性,分析,评价法,定性,综合,判断法,行为目标评价法,临床督导评价法,第五章 教育评价的方法第一节 教育评价方法概观,指标评分法,确定评价指标权重的方法,(,1,)关键特征调查法,(,2,)两两比较法,(,3,)专家评判平均法,(,4,)倍数比较法,指标评分法,教育测量与评价(期末复习)课件,教育测量与评价(期末复习)课件,教育测量与评价(期末复习)课件,教育测量与评价(期末复习)课件,等级换分法,把具体项目的等级评定换算成分数,然后将各项分数相加,满分,100.,具体做法:,1,、大项目,分数和(,X+Y+Z):100;,2,、某个大项目,(X),再细分若干具体项目(,x1,,,x2,,,x3),为,x1,x2,x3,分配分数;,3,、将,x1,(或,x2,、,x3),分等级(评语论域,v),,每一等级需确定具体的评价标准,:,合格,/,不合格;优,/,中,/,劣;,.,4,、将各等地折算成分数。如,x1,满分,11,分,则可将优算成,11,分,良,-9,分,中,-7,分,差,-5,分。,5,、将各项目得分相加。,等级换分法,加权平均法,权重分配方法已经介绍;,自行阅读,3,分钟即可。,模糊综合评判法,P137,再介绍,加权平均法,集体综合评价法,主要用于思想品德评价,1,、确定德育评价的具体项目,(X+Y+Z,),2,、对每一个具体如,X,项目评分(,100,分):自评、他评。,3,、板书公式,S=(r,1,+r,2,+r,3,+.r,n,)/N,r,为每一德育项目自评分数,,N,为项目数,F,i,=(L,i,-S,i,)/(R-1),F,i,表示对思想品德的集体综合评价,,L,i,表示集体中每个成员对评价对象作出的评价(各个项目得分的平均数),;S,i,表示自我总评价分,,R,表示被试人数。,集体综合评价法,案例:先打分,再计算,同学甲分数 同学乙分数,.,尊敬师长,学习态度,遵纪守法,团结互助,集体观念,社会活动,劳动态度,平均分,案例:先打分,再计,第三节 处理教育评价信息的方法,一、定性分析描述法,(一)等级评定法,: 制定评分等级及评定标准。应用到如操行、能力、职称、学校等级等方面。,(二)评语鉴定法:,单方面、多方面评语法,/,简易、结论明晰,能对一些模糊现象进行描述鉴定,解决了一些定量研究不能解决的问题,但难以客观,信度和效度较低。,第三节 处理教育评价信息的方法,(三,),写实分析法,:,集事实资料,/,整理、描述资料,一般先概括描述一般情况,再描述典型事例,/,分析评价:简要、中肯、抓住本质。,写实法的优点是有依据,新都高。缺点是全面地收集资料很难,耗时多。,二、定量分析评判法,(一)统计分析评判法,自行阅读,P135-137,的平均数、加权平均数、标准差、标准分数、,T,分数内容,,8,分钟。,(三)写实分析法:集事实资料/整理、描述资料,一般先概括描述,(二)模糊综合评判简介,补充概念:隶属度,若对论域(研究的范围),U,中的任一元素,x,,都有一个数,A,(,x,),0,,,1,与之对应,则称,A,为,U,上的模糊集,,A,(,x,)称为,x,对,A,的隶属度。当,x,在,U,中变动时,,A,(,x,)就是一个函数,称为,A,的隶属函数。,隶属度,A,(,x,)越接近于,1,,表示,x,属于,A,的程度越高,,A,(,x,)越接近于,0,表示,x,属于,A,的程度越低。用取值于区间,0,,,1,的隶属函数,A,(,x,)表征,x,属于,A,的程度高低,这样描述模糊性问题比起经典集合论更为合理。,举例,(二)模糊综合评判简介,例如,对于模糊集,A = ,高个子,,如果论域是“成年男性”,则可构造隶属函数如图所示,:,板书,确定因素论域,X=x,1,x,2,x,n,(如全班学生),和评语论域,Y=y,1,(如侏儒),y,2,(矮子),y,m,(巨人),,其中,x,i,表示问题中所考虑的因素,(i=1,2,n),,,y,j,表示要判断的等级,(j=1,2,m),。则称,X,与,Y,之间的模糊关系矩阵,例如,对于模糊集A = 高个子,如果论域是“成年男性”,,为,单因素评判,(单单只是一个个因素,未涉及“综合”之意,即,只有各行向量有意义,整个矩阵没意义),,,其中行向量,(r,i1,r,i2,r,im,),是考虑单因素,x,i,在,Y,上的评判,,r,ij,称为,因素,x,i,对评价等级,yi,的隶属度,,,R,为,Y,上模糊子集。设,X,上的模糊子集,A,表示因素,x,i,在本问题的加权数,(,也称权重,),,则合成,称为对,各因素的综合评判,,且,b,j,=,板书(四种之一) (,j=1,2,,,.m,),为单因素评判(单单只是一个个因素,未涉及“综合”之意,即,只,其中算符“,”,为取大,“,”,为取小,称为扎德算子。,与矩阵乘法运算顺序相同。,举例,P57,及,A,为,1,行,m,列矩阵的例子,,,请同学来算。,当,b,1,=b,2,=b,m,时,称综合评判全同失效;当,b,1,b,2,b,m,中至少有两个相等的最大分量时,称综合评判,义性失效,。,书上例题讲解,,P139,教育测量与评价(期末复习)课件,例:根据某生测评表用,1,、,4,模型进行模糊综合评判,优秀 良好一般较差差,道德观念,0.250.540.180.030,尊敬师长,0.390.500.080.030,学习态度,0.640.250.080.030,尊纪守法,0.580.390.0300,团结互助,0.080.500.310.080.03,集体观念,0.100.640.180.050.03,社会活动,0.200.520.230.050,劳动态度,0.410.370.140.080,权重分配,:,A=(0.18,,,0.14,,,0.14,0.13,,,0.09, 0.12, 0.12, 0.08,),例:根据某生测评表用1、4模型进行模糊综合评判,教育评价结果的合成方法,(,1,)单纯普通数据的合成,加权平均,逐级向上,直到在一级指标上归并为一个合成的分值。举例,(,2,)单纯模糊数据的合成方法,A,、多级模糊综合评判法,1,、对末级(二级)指标进行第一次综合评判:,W,、,R,合成。如上例“某课堂教学质量”,2,、将二级指标对一级指标所形成的若干综合评判结果(即第一次综合评判结果)组成一个新的模糊矩阵。如“某课堂教学质量”再加上,.,3,、将新矩阵与一级指标权重向量合成 计算综合评判结果。,教育评价结果的合成方法,B,、二维加权 综合合成法,P143,纵向加权,/,横向加权,板书画图,:,B、二维加权 综合合成法P143,教育测量与评价(期末复习)课件,(,3,)混合数据的合成方法,1,、普通数据转模糊数据,2,、模糊数据转换成普通数据,(3)混合数据的合成方法,第六章 教育测量结果的整理、转换与组合,第一节 教育测量数据的特点与种类,数据的特点:波动性、规律性,数据种类:点计数据、度量数据,/,间断性数据、连续型数据,/,类别变量、等级变量、等距变量、比率变量,教育测量数据的特点:,1,、多属等级变量;,2,、多属主观的;,3,、多属随机的(概率为,1,则为确定性);,4,、模糊性,第六章 教育测量结果的整理、转换与组合,第二节 教育测量分数的初步整理,一、统计表的结构,(自学,2,分钟),二、频数分布表的编制,由同学自习,5,分钟后,上台讲解书本例题。,第二节 教育测量分数的初步整理,第三节 教育测量分数的转换,原始分(卷面分)的缺点:意义模糊,不能直接比较,导出分数:由原始分转换而成,如标准分、,T,分数、百分等级分数等。,第三节 教育测量分数的转换,一、标准分,方差概念:随机变量离差平方的数学期望,样本方差?计算,P153,的方差,公式,例题,P155,,自学,5,分钟,例题:甲、乙、丙、丁四人在某次语文考试中分别得,72,、,60,、,48,、,90,,而全体学生的语文平均分,60,,标准差,12,分,求四人相应的标准分数。,一、标准分,例题:对某校高二学生进行期中学习质量测验,语文、数学和英语成绩的平均分数分别是,80,、,70,、,85,,标准差分别为,10,分、,15,分、,12,分。若某学生三科成绩分别为,85,、,82,、,90,分,问该生成绩哪一科最好?,例题:对某校高二学生进行期中学习质量测验,语文、数学和英语成,标准分数,Z,的性质与特点,1,、均值,0,,标准差,1,。(补充证明,概率论,P97,),Z=0,表示成绩与平均数相等;,2,、有相对,0,点作参照点,有相等单位的导出分数,可加减;,3,、由于是对原始分数的线性变换,所以不改变原始分数的分布形态(其证明同,1,);,4,、若原始分数接近正态分布,则标准分范围大致在,-4+4,之间。,课后思考:常模团体不服从正态分布则不能直接用标准分数,怎么办?自行查找资料。,标准分数Z的性质与特点,标准分的进一步转换,1,、,T,分数:,10Z+50,2,、标准九,:2Z+5,标准,9,分与其他评分制的相互关系(,P139,),3,、,CEEB,分数(美国大学入学考试报告分数):,500+100Z,4,、,TOEFL,:,500+70Z,5,、,IQ=100+15Z,标准分的进一步转换,教育测量与评价(期末复习)课件,三、百分等级分数,概念,计算:,100-,(,100R-50,),/N,例,1,、,52,名同学考试,甲第,4,名,求其百分等级分数。,例,2,、,52,名同学考试,甲、乙、丙、丁戊己庚辛壬癸共,10,人并列第,4,名,求其百分等级分数。,三、百分等级分数,百分等级常模建立方法,基本思想:把某个测验分数分布的全距划分为,100,个等级,建立原始分与百分等级间的一一对应关系。,步骤:,1,、从高到低排列,2,、逐个统计次数,3,、计算“以下累计次数”,4,、计算“以下累计相对次数”,5,、将第四步换成百分制,以,P154,的,36,个分数为例,示范,1,例,其余同学们自己算。,百分等级常模建立方法,基于分组归类数据建立百分等级常模,方法:编制“成绩次数分布统计表”,只不过是在,P154,页的表的基础上增加“相对次数”、“累计次数”、“累积相对次数”等条目。,计算公式:(,100/N,),*F,b,+f(X-L,b,)/i,N,为常模团体总人数,,X,为原分数,,L,b,为,X,所在组别的组下限,,F,b,为小于,L,b,的各组次数之和,,f,为,X,所在组的次数,,i,为组距。,请计算,P154,页例子中,,67,分、,89,分的百分等级。,基于分组归类数据建立百分等级常模,几种标准分数关系图,手绘,参考书,P140,P219,几种标准分数关系图,第十六章 课程评价,第二节 课程评价模式的演变,课程评价模式:评价人员或研究人员依据某种教育思想、课程理念或特定的评价目的选取一种或几种评价途径所建立起的相对完整的评价体系。,它介于评价理论与具体的评价方法之间,,既涉及标准又涉及方法,既包含了评价者的评价取向,也规定了评价的具体操作方式。,第十六章 课程评价第二节 课程评价模式的演变,教育测量与评价(期末复习)课件,教育测量与评价(期末复习)课件,回顾,P22 -23
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!