对外汉语教学语言测试课件

资源描述

语言测试第一节概说：发展、作用、学科特点第二节语言测试基本类型第三节语言测验开发过程第四节题目编写和分析方法第五节质量评估：信度和效度语言测试第一节概说：发展、作用、学科特点1语言测试第一节概说1、语言测试主要发展阶段：传统时期或前科学时期（20世纪初-50年代初）：依靠直觉判断。作文、口试、翻译等方法。心理测量-结构主义时期或科学时期（50年代末60年代初-70年代）：以结构主义语言学、行为主义心理学、心理测量学为基础，Lado,R.(1961)为标志。分立式测试。语言测试第一节概说2心理语言学社会语言学时期或后现代时期（70年代-80年代初）：注意功能性社会性和语言应用。综合式测试，出现完型填空（Cloze Test）等形式，Oller,J.提出“一元能力假说”（Unitary Competence Hypothesis）。交际法语言测试时期（80年代初至今）：ACTFL(American Council on Teaching of Foreign Languages)Guidelines和欧洲功能意念大纲交际大纲为基础。Bachman的“语言交际能力模型”。心理语言学社会语言学时期或后现代时期（70年代-80年代初）3 2、中国的语言测试：、中国的语言测试：中国是最早使用考试（西周）。科举是一个标准化程度很高的测试体系。70年代末受TOEFL等影响开始第二语言测试，出现“英语水平考试（EPT）”“大学英语考试（CET）”。对外汉语教学界“汉语水平考试（HSK）”影响广泛。2、中国的语言测试：4 3、语言测试作用：、语言测试作用：评价学习者的学业成就和语言水平。评估教学的实际效果。为选拔人才提供依据。为改进教学中的问题提供反馈。对于各种有关人的语言能力的假说，需要实证性数据的证实，语言测试在这方面可以为语言研究（语言教学研究）提供信息，发挥重要作用。语言测试研究能够为第二语言习得研究提供更为可靠而有效的方法和手段。3、语言测试作用：54、学科特点：理论与实践结合非常紧密。综合性很强：应用语言学（语言学、语言教学）、认知科学、心理测量学、教育统计学、信息科学。4、学科特点：6第二节语言测试基本类型一、从用途的角度分：1、成绩测验（Achievement）、学业成就测验、回顾性测试:特点是教什么测什么，怎么教怎么测，测试内容必须教学大纲、教材、教学内容为依据。目的在于测量学生在某个学习阶段学到了什么第二节语言测试基本类型一、从用途的角度分：7A)各学科的单科各学科的单科/综合测试。综合测试。B)教学阶段的安置、形成、诊断和总结性测试。教学阶段的安置、形成、诊断和总结性测试。形成性测试形成性测试考察学生进步的情况，对阶段性教学内容掌握的情况。总结性测试总结性测试的典型例子是学期、学年考试、会考也属这一类型。A)各学科的单科/综合测试。8安置性测验（安置性测验（Placement Tests）、分班测）、分班测验、分级测验验、分级测验:目的在于妥善地将学习者按程度分班或编组。最好以本单位教学大纲或可能开设的课程内容为依据。安置性测试安置性测试的典型例子是摸底考试和分班考试。安置性测验（Placement Tests）、分班测验、分级9 诊断性测验（诊断性测验（Diagnostic Tests）:目的是了解学习者对教学内容掌握情况，以便调整教学。不一定需要打分，非正式的测验。诊断性测试诊断性测试是针对个体或个别教学内容掌握情况的考试，意在对个别学生或特定的教学内容掌握的情况作精确的了解。诊断性测验（Diagnostic Tests）:10 各种用途测验又互相联系：水平测验也可以安置学习者，成绩测验可以诊断教学问题。但各种测验用途有区别，基本特性也有区别。各种用途测验又互相联系：水平测验也可11 2、水平测验（Proficiency Tests）、熟巧程度测验:测试对目的语运用的熟练程度（TOEFL、HSK、出国人员外语水平考试WSK）。必须弄准什么叫“语言水平”、要求能够预测未来完成特定任务情况。2、水平测验（Proficiency Tests）、12 3、能力倾向测验（、能力倾向测验（Aptitude Tests）学能测验、潜能测验、禀赋测验学能测验、潜能测验、禀赋测验:目的在于测量学生的潜在学习能力及学术发展趋向。潜在能力指个体从未来教育或训练中最可能发展并受益的能力，一般分为两种：A)一般学习能力测试。B)特殊能力倾向测试。高考属这类考试。必须弄准什么是“能力倾向”，Carrol等“Modern Language Aptitude Test”认为包括：语音能力、语法能力、综合归纳能力、语言记忆能力、语言表达能力等。了解考生学习目的语的潜力。了解考生学习目的语的潜力。3、能力倾向测验（Aptitude Tests）13二、主观性测验和客观性测验1、Subjective Tests：根据评分时是否需要凭主观判断。问答、简述、完成句子、完成会话、造句、翻译、作文、口试。有层次，适合考察被试语言运用能力和产出性技能；命题容易；防止猜题。评分不一致；阅卷费时费力。二、主观性测验和客观性测验1、Subjective Tes14 2、Objective Tests：选择题，0/1计分法，multiple-choice items（唯一正确答案、多个、不同选项不同得分）。是非判断题、配伍题（如连线）。听写、填空是不是客观题（不是根据题目答案是否唯一）。内容覆盖面广；评分简单客观。不适合测试产出性语言技能和被试综合运用语言能力；可以猜题；编题费时费力。2、Objective Tests：15三、分立式测验和综合式测验1、Discrete-Point Tests建立在结构主义语言学理论基础上，把语言分解成语音、语法、词汇等不同的语言点来测。采用多项选择、是非判断等题型。评分客观、准确；试题针对性强。2、Integrative Tests了解被试综合运用语言知识的能力。写作、口试、完形填空、听写、多项选择的阅读听力理解。有效测量被试整体语言水平。三、分立式测验和综合式测验1、Discrete-Point 16四、标准化测试与非标准化测试Standardized Tests在教育（心理）测量学理论指导下编制特点一是具有统一的标准，二是对整个测试过程可能出现的误差都可严格监控（试题编制、测验实施、阅卷评分、分数转化解释四个标准化）忽视不同个体习得第二语言特点，客观性多项选择题能否测量真实语言水平受到怀疑，对语言教学产生误导。四、标准化测试与非标准化测试Standardized Tes17 Non-standardized Tests：表现评价（Performance Assessment）,真实评价（Authentic Assessment）Non-standardized Tests：表现评价18五、常模参照测试和标准参照测试五、常模参照测试和标准参照测试norm-referenced tests:显示被试语言能力的差异，考分拉开。TOEFL、HSK。Criterion-referenced tests:显示被试是否达到规定的标准，可以都得满分。五、常模参照测试和标准参照测试norm-referenced19第三节语言测验开发过程一、设计阶段一、设计阶段明确测试目的明确目的语使用范围（词汇量、语法点、功能项目等），明确需要用目的语完成的任务（如写出专业性文章）明确测试对象特征：个体特征（年龄、性别、受教育情况、母语背景、参试目的）、一般语言能力水平第三节语言测验开发过程一、设计阶段20 所测语言能力的基本特征作理论构想（construct）。理论构想在理论上定义所要开发的测验试图测到的语言能力的基本特征。制定质量监控计划：信度、效度、对教学的影响（washback）、实用性资源配置计划（人、物、财、时）所测语言能力的基本特征作理论构想（construct）。理21二、操作化阶段1、作业任务细则：概述含名称、对象、目的、用途、时间题目细则含答题指导语、例题、题目特点（刺激属性）、对考生要求（反应属性）、评分方法和记分方法。二、操作化阶段1、作业任务细则：22 2、试卷构成说明：包括几个部分及各部分顺序、题目数量、答题时间、客观性程度等。3、对命题人员（特别是兼职命题员）培训 2、试卷构成说明：23三、施测阶段1、预测：在测验正式进行之前，让一组有代表性的被试试做。题目分析，筛选正式题目。2、实测：把符合标准题目合成正式试卷，进行测试。报告分数。统计研究施测结果（信度、效度的定量定性分析）三、施测阶段1、预测：在测验正式进行之前，让一组有代表性的被24第四节题目编写和分析方法一、多项选择题的编写：题干(stem)、备选答案（alternatives）、正确答案、干扰项（distracters、迷惑项、迷项）听力理解；语法结构（位置判断p313例4、选择填空例5、完成句子例6、挑错题例7）；阅读理解；第四节题目编写和分析方法一、多项选择题的编写：25 综合运用：综合填空和完形填空。前者在一段语言材料中涉及很多空儿让被试选择填空，考察点很多；后者不提供备选答案，被试根据上下文自己把答案写在空格处HSK填汉字题属于综合式客观题。总的编写原则是要明确测试目的。具体编写需要积累经验，针对情况具体分析。综合运用：26二、题目分析的方法1、难易度（facility）：p=答对此题人数/总人数，范围应在0.2-0.8之间。平均难易度（一个测试的各个题目的难易度相加，再除以题目的数量），宜在0.5左右。二、题目分析的方法1、难易度（facility）：p=答对此27 2、区分度（、区分度（discrimination）：）：水平高被试答对的人数大于水平低被试答对人数。水平高被试答对的人数大于水平低被试答对人数。区分度指数（discrimination index）：取全体被试分数最高27%作为高分组，最低的27%作为低分组，D=（高分组答对此题人数-低分组答对此题人数）/高分组或低分组人数。D在-1+1之间，一般要求在0.3左右。2、区分度（discrimination）：283、选项被选次数应比较均匀。4、答案唯一性、正确性（高分被试选对）5、题目分析表6、主观评判：是否有冒犯、是否为大纲规定重点3、选项被选次数应比较均匀。29三、其他数据分析重要概念1、正态分布（normal distribution）：三、其他数据分析重要概念1、正态分布（normal dist302、平均数（mean）；众数（mode，出现次数最多的分数）；中位数（median，原始分数排列起来，最中的那个数）示例：3，7，8，8，8，9，13；3，7，8，9，83(22)2、平均数（mean）；众数（mode，出现次数最多的分数）313、标准差（standard deviation），方差(v)的平方根，s=(x-M)2/N)总和X每个考生分数N考生总人数M平均分计算下列数的方差：3，5，2，7，63、标准差（standard deviation），方差(v32第五节质量评估：信度和效度一、一、reliability1、可靠性、稳定性，对同样一组被试反复测量结果保持一致。2、信度估计再测（retest）：稳定性系数，要防止练习效应等值复本（equivalent-form），平行试卷第五节质量评估：信度和效度一、reliability33 分半（split-half），反映内部一致性程度内部一致性公式：Kuder-Rechardson系数和Cronbach 系数。评分者之间信度。3、影响因素：题目数量；题目同质性；难易度；被试水平分半（split-half），反映内部一致性程度34二、validity1、测量对所要测的东西准确测量的程度。相对于特定目的而言。2、类别：内容效度（content）：实际测量内容对所欲测量内容的代表性程度。成绩测验最应讲求内容效度，即最强调题目代表性，需要确定测验的范围和各部分的比例。靠经验判断等定性分析的方法进行。表面效度（face）：考查书面表达能力可以用写作文的方式和改错句的方式，前者表面效度高，并不一定。二、validity1、测量对所要测的东西准确测量的程度。相35标准关联效度（criterion-related）：测验结果与某一标准之间关系的密切程度，标准通常指测验所要预测的行为，如大学学习情况、语言运用熟练程度。预测效度（predictive）：测验分数与一段时间后被试的行为表现之间的相关程度。共时效度（concurrent）：以测验实施相同或相近时间内搜集到的其他经验性资料为标准。标准关联效度（criterion-related）：测验结果36教育测验用学科成绩或教师评定，能力倾向测验用特殊训练成绩，一般标准化测验用另一被证实可靠有效的标准化测验为标准。构想效度（construct）：理论、观念效度，测验结果与设计者关于能力的理论构想之间的相关程度。第二语言习得理论有许多假说，用测验验证，涉及构想效度教育测验用学科成绩或教师评定，能力倾向测验用特殊训练成绩，一373、影响效度的因素：题目的质量（难度等）；参照标准的质量；测试实施的程序是否标准化。4、信度、效度关系信度是效度前提；信度高的不一定效度高，一个可靠的数学考试对选拔运动员无效。3、影响效度的因素：题目的质量（难度等）；参照标准的质量；测38

展开阅读全文

对外汉语教学语言测试课件

最新文档