资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,教育评价与测量,教育评价与测量,1,教育评价与测量的发展历史,一、中国是考试的故乡,是考试制度的发源地。,现在学者一般认为,考试制度在西周初见端倪,西周选士是我国考试制度的萌芽阶段。,“,一年视离经辨志,三年视敬业乐群,五年视博习亲师,七年视论学取友,谓之小成;九年知类通达,强立而不返,谓之大成。,”,学记,教育评价与测量的发展历史一、中国是考试的故乡,是考试制度的发,2,“,古之教育,家有塾,学有庠,术有序,国有学。比年入学,中年考校,,”,古代教育制度规定,,20,户人家设一私塾,,500,户的县设一学堂,,12500,户的行政区设学校,国都设大学。大学每年招收学生,每隔一年考查一次,第一年考查学生分析课文的能力和志趣;第三年考查学生的专业思想是否巩固,同学之年能否相亲相助;第五年考查学生的知识是否广博,对教师是否敬爱;第七年考查学生研究学问的本领和识别朋友的能力,合格的就叫,“,小成,”。,到第九年,学生对于学业已能触类旁通,他们的见解行动已能坚定不移,这就叫做,“,大成,”。,“古之教育,家有塾,学有庠,术有序,国有学。比年入学,中年考,3,二、从教育测量走向教育评价,1,教育测量学科的诞生,1904,年美国心理学家桑代克出版了论著,精神与社会测量导论,,,被公认是教育统计学、教育测量学、教育评价学等学科的第一本著作,首次较系统地介绍了教育统计方法及编制测验的基本原理,标志着教育测量理论的诞生。,2,进入教育评价的时代,泰勒在,1940,年的,“,八年研究,”,报告书中,首次提出,“,教育评价,”,的概念。他认为评价是一种确定行为实际变化程度的过程,并形成了泰勒,“,行为目标评价模式,”,,他本人因此被称为当代教育评价之父。,二、从教育测量走向教育评价,4,三、第四代教育评价理论,1,测量时代:,1900-1930,2,描述时代:,1930-1940,3,判断时代:,1950、1960-1989,4,应答性模式:,1989,至今,三、第四代教育评价理论,5,教育测量的一般原理,一、测量理论,1,经典测验,(Classical Test Theory,CTT),2,概化理论,(Generalizability Theory,GT),3,项目反应理论,(Item Response Theory,IRT,),教育测量的一般原理一、测量理论,6,二、测验的类型,1,常模参照测验,2,标准参照测验,二、测验的类型,7,三、测量的数据类型,1,称名量表和称名量表数据,2,顺序量表和顺序量表数据,3,等距量表和等距量表数据,4,比率量表和比率量表数据,离散型数据和连续型数据,三、测量的数据类型,8,四、数据的数字特征,1,集中量数:众数、中位数、均值,2,离散量数:全距、四分位差、方差、标准差、差异系数,五、数据的正态分布形态,1,正态分布是一种连续型随机变量的概率分布,也称其为常态分布。,2,负偏态分布也,称为,右偏态分布,3,正偏态分布也,称为左偏态分布,四、数据的数字特征,9,六、原始分数转换,1,百分等级和百分位数,2,Z,标准分数和,T,分数,六、原始分数转换,10,教育评价的标准,一、影响评价标准的因素,教育目标、评价对象和条件、科学理论、评价需要与意图,二、评价指标设计的方法,1,特尔斐法,2,关键特征调查法,3,层次分析法,教育评价的标准一、影响评价标准的因素,11,教育评价信息的处理,一、常用数据的处理方法,1,针对类别数据的处理方法:计算次数、众数、百分比、,卡方检验、列联相关,2,等级数据的处理:计算中位数、百分位数、,肯德尔和谐系数、等级相关,3,等距数据的处理:计算平均数、标准差、,积差相关、,t,检验、,F,检验,教育评价信息的处理一、常用数据的处理方法,12,x,2,检验(,Chi-square Test,):既可用于推断某个变量是否服从某种特定分布的拟合度检验,也可用于推断两个离散型变量是否存在依从关系的独立性检验或推断几次重复试验的结果是否是相同的同质性检验。,例:某位老师调查了,32,位学生最喜欢的媒体类型:报刊、电视、电影、网络,结果是依次受欢迎人数是,4、5、8、15。,如果理论上每类媒体期望的人数应该都是,8。,此类问题中要检验的假设是:,H,0,:,四类媒体同样受欢迎,H,1,:,某类媒体比较受欢迎,x2检验(Chi-square Test):既可用于,13,肯德尔和谐系数(,Kendalls W,):是一种应用平均秩检验法的结果。首先将多个样本数据混合按升序排列,并求出每个观测值的秩,然后对各个样本的秩分别求平均值,再计算,Kendalls W,。,Kendalls W,和谐系数检验主要用于分析若干个评判者的评判标准是否一致。,例如,在一次普通话比赛中,三名评委,A,、,B,、,C,对,40,名选手的评分如表所示,试检验三名评委的评分标准是否一致。,肯德尔和谐系数(Kendalls W):是一种应用平均秩,14,t,检验,是一种参数检验,主要涉及两个样本所来自的两个总体的方差是否相等。,如果是比较两组测试结果的均值时,可以用,检验。当涉及多组样本的均值比较问题时,还用,检验进行两两比较是不合适的,因为它会大大降低检验的可信度,此时应当用到方差分析。,F,检验,,与,t,检验直接比较两组平均数的做法不同的是,方差分析把,“,平均数之间差异是否显著,”,的问题转化为,“,平均数组间变异是否显著,”,的问题,通过,“,组间变异,”,与,“,组内变异,”,的对比,进行,F,检验,从整体上同时比较多组的平均数之间是否存在显著差异。由于,F,分布统计量是一个方差比,故称这种检验方法为方差分析。,t检验是一种参数检验,主要涉及两个样本所来自的两个总体的方差,15,二、评价信息的统计推断,统计推断是运用样本信息来推断总体情况的有效方法,它包括参数估计和假设检验两个基本部分。,(样本的数字特征称为统计量,总体的数字特征称为参数。),1,参数估计,常用的置信区间:,0.95,置信区间,=0.05,显著性水平,其意思是,估计正确的概率为,95%,,出现错误的概率为,5%,,此时,Z,值为,1.96,。,0.99,置信区间,=0.01,显著性水平,其意思是,估计正确的概率为,99%,,出现错误的概率为,1%,,此时,Z,值为,2.58,。,2,参数假设检验,二、评价信息的统计推断,16,零假设:,即假设两组数据的参数(如平均数)无本质差异,用表达式表示则为:,H,0,:,u,1,=,u,2,备择,/,研究假设:,即假设两组数据的参数有本质差异。用表达式表示则为:,H,1,:,u,1,u,2,注意事项:,当样本数量,N30,时,采用,Z,检验,反之采用,t,检验。,如果评价者只关心两个平均数之间是否存在显著差异,而不关心差异的方向,可采用双侧检验法。如果评价者可预测某一平均数应大于或小于另一平均数时,则可采用单侧检验法。如,样本的平均数大于总体平均数时,则采用左侧检验;样本平均数小于总体平均数时,可采用右侧检验。,零假设:即假设两组数据的参数(如平均数)无本质差异,用表达式,17,教育评价的质量,一、信度,测验的信度是指测验结果的可靠性或可靠程度。所谓可靠性是指对同一组对象进行两次相同测量所得结果的一致性和稳定性程度。常用的信度估计方法有:,(,1,)计算测验内部各项目的得分的一致性,得到同质性信度;,(,2,)用同一测验对同一组被试,前后测验两次,据两次测验分数计算其相关系数,得到再测信度;,(,3,)当一种测验只能施行一次且没有复本时,可按测验题目的奇偶数分两半计分,求相关系数,经校正得到分半信度。,教育评价的质量一、信度,18,二、效度,效度是指一个测验或量表实际能测出其所要测量的特性的程度。,应该包括测验项目的难度和区分度。,目前广泛使用的是弗兰士和米希贝尔(,French,和,Michbel,)提出的分类法,把效度分为内容效度、结构效度和效标关联效度三种。,二、效度,19,
展开阅读全文