资源描述
心理测量学教案(郑日昌版)第一章 心理测验总论教学目的与要求(1)识记并了解心理测验的发展历史(2)掌握心理测验的性质(3)了解心理测验的种类教学重点与难点心理测验的性质教学时数2学时第一节 心理测验的历史一、中国古代的心理测验思想1、孔子:把人分为中人、中人以上、中人以下三个类别,“中人以上,可以语上也;中人以下,不可以语上也”。(相当于现代测量学中的命名量表和次序量表)2、孟子:“权,然后知轻重;度,然后知长短。物皆然,心为甚。”明确指出了心理能力和心理特征与物理现象一样,具有可测量的特性。3、(南朝)刘勰:世界上最早的“分心测验”,认为一心不能二用。4、(南北朝)颜之推:周岁试儿,其是1925年格塞尔婴儿发展量表的前导。5、“七巧板”又称益智图、唐图(Tangram),为当代多数智力测验和创造力测验所使用。6、隋炀帝科举制度的开端,被认为是世界上最早的心理测验的实践。当时的考试方法:贴经和对偶,类似于现代西方言语测验中常见的填字和类比。7、中国古代心理测验的思想,包含着典型的东方文化特点:A、他们都是描述性的,没有定量的标准;B、往往将心理特点与道德观念联系起来(局限性)二、科学心理测验产生的原因(一)对智力落后着分类和训练的早期关注1、心理测验产生的最初原因:对智力落后和精神病人治疗的需要。2、法国医生埃斯克罗:1838年出版了两卷本著作,第一次明确地对智力落后与精神病人作出了区分,他认为精神病是以情绪障碍为标志。(发现一个人的语言能力是他智力水平的最可靠的指标)3、法国医生塞国恩(E.Sequin):训练智力落后者的先驱。1837年,他创建了第一座教育智力落后儿童的学校,1846年出版了白痴:用生理方法进行诊断和治疗。其首创方法感官训练(sense-training)、肌肉训练(muscle-training)至今仍在全世界范围内的智力落后儿童教育机构。其Sequin Form Board拼图板被心理测验的非语言测验所采用,其操作方法是要求受测者尽快地将不同形状的图片嵌入适当的凹槽内。4、法国心理学家比奈开始致力于推动建立鉴别不能适应正常学校学习但是可教育儿童的方法,鉴别出后安排接受一系列特殊教育课程。比奈与“儿童心理学研究会”的同事们努力推动法国公共教育部开展一项促进智能不足儿童学习能力计划,并成立了专门的研究小组,这个小组的成立是心理测验发展史上一个极为重大的历史事件。(二)实验心理学的发展1、冯特:1879年他在德国莱比锡大学建立了心理学史上第一个实验室,引发了个别差异的研究。2、实验心理学的诞生和发展,给心理测验带来了另一个副产品:严格的标准化程序。三、心理测验的发展(金瑜P7-9)1、高尔顿:英国生物学家和心理学家高尔顿是倡导测验运动的主要人物。他设计了测量差异的方法,1884年,他在伦敦国际博览会中专门设立了个“人体测量学实验室”六年中积累了9337人的资料,虽不是正式的心理测验,但可视为心理测验的开端。他还是评定量表和问卷法应用的先驱,他的另一个重要贡献是为心理测验奠定了统计学基础,并第一个提出了相关的概念。(皮尔逊相关)2、卡特尔:美国心理学家,从师冯特。1890年,卡特尔在心理杂志上发表“心理测验与测量”,这是心理测验第一次出现于心理学文献中。3、世界上第一个智力测验:比内与助手西蒙在心理学年报上发表了一篇文章,题为:“诊断异常儿童智力的新方法”,是世界上第一个正式的心理测验。比内西蒙量表自1905年发表后,在1908年修订,1908年量表题目总数达到了59个,所有测题按年龄分组,组别从3-13岁,测验的结果用“智力水平”表示,但其通常翻译和提法为“智力年龄”。后又经1911年修订一次。4、心理测验的蓬勃发展:(1)操作测验的发展:理论上的缺陷和实际上的需要,所以就有操作测验的问世和发展。(2)团体智力测验的发展:这是心理测验方式的极大进步,也扩大了测验的应用范围。(3)能力倾向测验的发展:韦克斯勒所编的学前儿童、学龄儿童、成人智力量表。(4)人格测验的发展:心理测验的另一领域是涉及情感或行为等非智力方面的人格评估,通常包括对性格、气质、情绪状态、人际关系、动机、兴趣和态度的测量。(5)现代西方心理测验的发展,受到计算机的产生和发展,以及统计方法的改进的极大影响。四、现代心理测验在中国的发展:以1949年中华人民共和国成立为分期(一)中华人民共和国成立前心理测验的发展1、1916年,樊炳清先生首先介绍了比内西蒙智力量表;2、 1920年,廖世承和陈鹤琴在南京高等师范学校开设心理测验课,并用心理测验试测投考该校的学生,这便是中国正式开始的科学心理测验;3、1921年,他俩正式出版心理测验法一书,成为中国最早的心理测验专著;4、1922年,中华教育改进社聘请美国教育心理测验专家麦考尔来华讲学,并主持编制心理测验事宜;5、 1924年,陆志韦发表了订正比内西蒙智力测验说明书,30年代又与吴天敏再次做了修订; 6、 1931年,由艾伟、陆志韦、陈鹤琴、萧孝嵘等倡议,组织并成立了中国测验学会;7、1932年,测验杂志创刊。(二)中华人民共和国成立后心理测验的发展1、 1979年,林传鼎、张厚粲等以国外资料为参考,编制了少年儿童学习能力测验;2、 1989年,成立中国心理学会心理测验专业委员会,标志着中国心理测验已进入了一个新的高速发展时期。第二节 心理测验的性质一、测量的基本问题(一)测量的定义1、定义:测量就是根据一定的法则,用数字对事物加以确定。a一定的法则:是指测量行为发生时采用的规则或方法。b事物:是指我们要测量的感兴趣的事物的属性或特征。c数字:可以表示数量,也可以不表示数量。d通常人们所说的测量,指的是给事物确定出一种数量化的价值。2、测量的要素:一是参照点,二是单位a参照点:一种是绝对的零点;一种是相对参照点,是认为确定的。最理想的参照点是绝对零点,心理测验中所用的参照点都是相对的,因而测量的结果常常不能以“倍数”的方式解释。b理想的单位的条件:有明确的意义和有相等的价值。3、测量的量表:量表就是有参照点和单位的连续体。斯蒂文斯将量表由低到高依次为: a命名量表:是水平最低的一种测量量表,用数字来代替事物或对事物进行分类;b顺序量表:不仅表明类别,还能表明不通类别的大小等级,或具有某种属性的程度;c等距量表:不仅有大小关系,而且又有相等的单位,因此可以加减运算,但没有绝对零点,所以不能做乘除运算;d比例量表:是最精确的测量,既有相等的单位,又有绝对零点。二、心理测量的基本概念1、定义:是根据一定的法则用数字对人的行为加以确定,即依据一定的心理学理论,使用一定的操作程序,给人的行为和心理属性确定出一种数量化的价值。2、特点:(1)心理测量的间接性(2)心理测量的相对性3、心理测量的水平心理测量,不论是对智力,还是对能力倾向或人格的测量,都只具有等级量表的特征。测验分数一般只能显示个体智力、能力、人格上的等级位次,而没有一个相等的单位,故它不是一个等距量表。但由于多数心理特征具有常态分布的特征,且没有绝对零点,所以我们也可以把测量后直接得到的原始分数转化为常态分布下的标准分数,把这些量表当作等距量表来处理。三、心理测验的基本问题(一)心理测验和心理测量的的联系和区别心理测验是了解人心理的工具,主要在名词上使用。而心理测量则是运用测验为工具,达到了解人类心理的实践活动,它主要是在“动词”意义上使用。因此,相对而言,心理测量的意义范围更广一些。能被应用于实际心理测量的心理测验才是真正有效的测验工具才是真正有效的测验工具。(二)心理测验的定义心理测验就是通过观察人的少数有代表性行为,对于贯穿在人的全部行为活动中心理特点作出推论和数量化分析的一种科学手段。心理测验即是依据一定的心理学理论,使用一定的操作程序,给人的行为确定出一种数量化的价值。(三)心理测验的要素1、行为样本:对少数经过慎重选择的样本进行观察,来间接推知被试的心理特征。2、标准化:是指测验编制、实施、记分以及测验分数解释程序的一致性,标准化的量一个重要步骤是建立有代表性的常模。3、客观性:在不受被试主观判断支配的范围内,测验的实施、评分、解释应是客观的,要尽量减少主试和被试的随意程度。客观性另一个主要方面是测题或整个测验的难度水平的确定必须客观。神经心理测验客观性最高,智力测验较高,人格问卷次之,投射测验的客观性较低。(四)心理测验的性质1、心理测验的间接性;2、心理测验的相对性;3、心理测验的客观性:心理测验标准化包括:测验用的项目或作业、实测说明、实测者的言语态度及实测时的物理环境等,均经过标准化。评分记分的原则和手续经过了标准化,对反应的量化是客观的。分数转换和解释经过了标准化,对结果的推论是客观的。第三节 心理测验的种类一、按测验功能分类:1、能力测验:智力测验:比内西蒙智力测验、韦克斯勒儿童和成人智力量表。特殊能力测验:如音乐、绘画等2、成就测验:用于测量个人(团体)经过某种正式教育或训练之后对知识和技能掌握的程度。学科测验3、人格测验:用于测量性格、气质、兴趣、态度、品德、情绪、动机、信念、价值观等方面的个性心理特征,即个性中除能力以外的部分。明尼苏达多项人格调查表(MMPI)、16种人格因素问卷(16PF)、艾森克人格问卷(EPQ)、罗夏墨迹测验、主题统觉测验(TAT)。二、按测验对象分类1、个别测验:优点:主试可以仔细观察被试的言语情绪,并有充分的机会与被试合作,所以其结果正确可靠。缺点:时间不经济,不能在短时间呢您收集到大量的资料。2、团体测验:优点:时间经济,主试不必接受严格的专业训练即可担任。缺点:主试对被试的行为不能作切实的控制,所得结果不及个别测验正确可靠。三、按测验方式分类:1、纸笔测验:言语作为刺激。MMPI、EPQ、16PF及韦克斯勒儿童和成人智力量表中的言语量表部分。优点:实施方便,团体测验多用,有肢体残疾而无言语困难的病人只能用此。缺点:受被试文化程度的影响。2、操作测验:也称非文字测验。罗夏墨迹测验、主题统觉测验、瑞文测验及韦克斯勒儿童和成人智力量表中的操作量表部分。优点:不受文化因素的限制。3、口头测验4、电脑测验四、按测验目的分类:1、描述性测验:目的在于对个人或团体的能力、性格、兴趣、知识水平等进行描述。2、诊断性测验:目的在于对个人或团体的某种行为问题进行诊断。3、预示性测验:目的在于通过测验分数预示一个人将来的表现和所能达到的水平。五、按测验难度分类1、速度测验2、难度测验六、按测验要求分类1、最高作为测验2、典型作为测验七、按测验性质分类1、构造性测验:在此种测验中,所呈现的刺激和被试的任务是明确的。2、投射性测验:在此种测验中,刺激没有明确意义,问题模糊,对被试的反应也没有明确规定。八、按测验解释分类1、常模参照测验2、标准参照测验九、按测验应用分类1、教育测验2、职业测验3、临床测验第四节 心理测验的功能与应用一、心理测验的功能:最基本的功能是测量个体差异或行为反应。(一)从实际应用角度看:人才选拔;岗位安置临床诊断;教育评价;心理咨询和治疗 (二)从理论研究角度看:搜集材料:心理测验是收集个体差异资料最快捷的办法。提出和验证假设实验分组二、测验的应用(一)错误的测验观1、测验万能论2、测验无用论:某些人格测验侵犯了个人隐私;测验为宿命论和种族歧视提供了心理学依据。3、心理测验即智力测验(二)正确的测验观1、重要的心理学研究方法和决策的辅助工具:心理测验法的出现是心理科学发展史上的一大进步,是心理学研究中不可缺少的研究方法之一。2、作为研究方法和测量工具尚不完善:过分夸大心理测验的科学性和准确性是不对的。3、科学地看待心理测验,防止乱用测验:测验使用者必须具备一定的资格;慎重选择测验量表;与被试建立良好的协调关系;正确解释测验结果;注意测验的保密。第二章 心理测验的编制教学目的与要求(1)掌握心理测验编制的一般程序(2)心理测验的难度与区分度的定义及教学重点与难点心理测验的项目分析教学时数4学时第一节 编制测验的一般程序一、确定测验目的(一)心理测验的对象:首先要明确测量的对象,也就是测验编成后要用于哪些团体。A年龄B教育水平:在编制儿童测验时,要同时考虑教育水平和年龄的影响。在承认测验中,一般只考虑教育水平的影响。C文化背景(二)测验的目标:是指编制的测验是测什么的,即用来测量什么样的心理变量或行为特征。目标分析以测验不同而异,一般分为三种情况:A工作分析:主要任务是对所预测的行为活动作具体分析,我们称之为任务分析或工作分析。B对特定概念下定义:如果测验是为了测量某种特殊的心理品质或特点,那么测验编制者就必须给所要测量的心理或行为特质下定义,然后必须发现该特质所包含的维量将通过什么行为表现出来或怎样进行测量。C确定测验的具体内容:如果测验是描述性的显示测验,它的目标分析的主要任务则是确定显示的内容和技能。(三)测验用途:所编出的测验是要对被试做描述,还是做诊断,抑或是选拔和预示。二、拟定编制计划编制计划,实际上是对测验的总体设计,指出测验的内容结构和项目形式等,以及对每个内容、目标的相对重视程度。根据布鲁姆最早提出教育目标的分类问题。他把学习的心理活动分成认知、精神运动和情感三个领域,又把认知领域具体分为知识、理解、应用、分析和综合、评价。三、设计测试项目(一)搜集有关资料1、资料要丰富2、资料要有普遍性(二)选择项目形式1、测验的目的和材料性质2、接受测验的团体的特点3、各种实际因素:时间,人数、经费等(三)编写和修订项目1、项目的范围要与测验计划相一致2、项目的数量要比最后所需的数目多一倍至几倍,以备筛选和编制复本3、项目的难度必须符合测验目的需要4、项目的说明必须清楚四、项目的试测和分析(一)试测1、预测对象应取自将来正式测验准备应用的群体2、预测的实施过程与情境应力求与将来正式测试时的情况相近似3、预测的时限可稍宽一些,最好使每个被试都能将项目做完,以搜集较充分的反应资料,使统计分析的结果更为可靠。4、在预测过程中应随时记录被试的反应情形,如在不同时限内一般被试所完成的题数、题意不清之处及其他有关问题。(二)项目分析包括质的分析和量的分析质的分析是从内容取样的适当性、题目的思想性以及表达是否清楚等方面加以分析。量的分析是对预测结果进行统计分析,确定项目的难度、区分度、备选答案的适宜性等。五、合成测验1、项目的选择:要考虑测验的目的、性质与功能,区分度,难度2、项目的编排:由易到难,有并列直进式,混合螺旋式A一般原则:a测题的难度排列易逐步上升;b尽可能将同类型的测题组合在一起;c各种类型测题本身的特点;B常见试题排列方式:a并列直进式b混合螺旋式3、编造复本测验的各份复本必须等值,所谓等值需符合下列几个条件:(1)各份测验测量的是同一种心理特质;(2)各份测验包含相同的内容范围,但题目不应有重复;(3)各份测验题型相同,题目数量相等,并且有大体相同的难度分布。六、测验使用的标准化1、施测过程标准化2、评分计分标准化3、分数解释标准化七、搜集信度、效度资料(一)信度指的是测量的可靠性或一致性。(二)效度指的是测量的有效性或正确性。A搜集有关资料:题目的有关来源a已出版的标准测验b理论和专家的经验c临床观察和记录B命题的原则及编写要领a命题的原则(理解):1内容方面:符合测验的目的,取样有代表性,相互独立,互不牵挂;2文字方面:准确,简明扼要,少使用双重否定句;3理解方面:不要超出受测团体的知识水平和理解能力,不要有争议误解;4社会敏感性方面:应尽量避开社会敏感性问题,如涉及社会禁忌或个人隐私的题目不应使用。菲利普对于涉及社会敏感性问题,怎样鼓励被试作出真实回答的策略:1命题时假定被试具有某种行为,使他不得不在确实没有该行为时才否定,可避免否定过多的倾向。2命题时假定规范不一致。3指出该行为是常见的,虽然是违规的。b测题的编制要领:根据被试的要求不同分为1提供型:要求被试给出正确答案。2选择题:要求被试在有限几个答案中选择正确的答案。由题干和选项构成。题干:呈现一个问题的情境,一般由直接问句或不完全的陈述句构成。选项:问题的多种可能答案,常常是包含一个正确答案,若干(一般是15个)错误答案,其中的错误的答案叫做“诱答”。八、编写测验手册1、本测验的目的和功用2、测验的理论背景以及选择项目的根据3、测验的实施方法、时限及注意事项4、测验的标准答案和记分方法5、常模表或其他有助于分数转化与解释的资料6、测验的信度、效度资料,包括信度系数、效度系数以及这些数据是在什么情境下得到的第二节 测验的项目分析一、项目的难度分析(一)定义:1、难度:是指项目的难易程度。P在能力测验中通常需要一个反映难度水平的指标,在非能力测验中,类似的指标是“通俗性”,即取自相同总体的样本中,能在答案方向上回答该题的的人数。2、难度的指标: 以通过率表示难度时,通过人数越多,即P值越大,难度就越低;P值越小,难度越高。 因为P值大小与难度高低成反比,有人将其称作易度。(二)难度的计算1、原始定义法(1)客观试题(二分法记分): R:答对该题的人数;N:参加测验的总人数由于选择题允许猜测,所以通过率可能因机遇作用而变大。备选答案的数目越少,机遇的作用越大,越不能真正反映测验的难度。为此,吉尔福特提出了一个P值校正公式。CP:校正后的难度值;P:实际得到的通过率;K:选项数目例题:假定某题有75的被试通过,若该题有5个备选答案,则校正后的通过率为: 当有4个备选答案时,CP=0.67;有3个,CP0.63;有2个,CP0.54)b非二分记分:例题某一数学能力测验题的满分为20分,全体被试在该题上的平均分数为15分,则该题的难度为: P15/200.75例:一个题目的难度值为0.75,分别计算此题有四个选项、三个选项、两个选项时大的难度值(2)主观题的平均数法2、极端分组法(1)客观题的极端分组法根据测验分数按高低排序,用两个极端组在某项目上的平均通过率表示项目的难度 PH、PL分别为高分组与低分组的通过率。步骤:A、按测验总分由高到低排序B、从高分段向下选出全部试卷的27作为高分组C、从低分段向上选出全部试卷的27作为低分组D、按照上述公式计算项目难度值例:100人参加某测验,高分组与低分组各取27人,其中第一题高分组20人答对,低分组10人答对。这道题的难度系数是多少?(2)主观题的极端分组法步骤:A、按测验总分由高到低排序B、从高分段向下选出全部试卷的25作为高分组C、从低分段向上选出全部试卷的25作为低分组D、按照上述公式计算项目难度值XH:高分组所得总分;XL:低分组所得总分;H:该题最高分;L:该题最低分;N:考生总人数的25(三)难度对测验的影响1、难度对测验分数分布的影响(1)P值越小 测验项目越难测验分数集中在低分端分数分布呈正偏态分布。(2)P值越大测验项目越易 测验分数集中在高分端分数分布呈负偏态分布。 即:测验项目过份容易或过份难,都会造成测验分数偏离正态分布,而使测验分数的离散程度变小。2、难度对测验鉴别力的影响测验的主要功效之一就是鉴别考生实际水平的高低。自欺欺人适量难度可以加大考生得分的差异,从而提高测验的鉴别力。P值越接近0.50,试题的鉴别能力就越高;相反,P值越接近1.00或0,试题的鉴别能力就越低。3、难度与测验目的的关系项目难度应根据测验目的来确定,不能认为测验项目都必须保持值等于0.50最好。事实上,一方面,如果每个项目的难度都等于0.50,测验项目之间存在高度相关,会使测验分数的分布呈双峰状态,即有5%的人所有题目都答对,得满分,另外5%的人全部答错,得0分。为此,难度水平的确定应根据测验的目的,性质及题目的形成。(1)对于一般的常模、参照测验而言,其目的在于测量个体差异,一般只要求测验题目的平均难度为0.50,而个题难度可在0.50+0.20之间 。(2)当测验用与选拔或诊断时,题目的难度值应更多地接近录取率。(3)就选择题而言,P值应大于概率水平。P值若等于概率,说明被试纯粹凭猜测作答;P值若小于概率,说明题目很可能存在问题。(4)整个测验的难度水平取决于组成测验的题目的难度。(四)难度的转换难度指出的仅仅是题目的相对难度,不能客观地指出题目难度之间差异大小P向Z的转换n假定每个试题所要测量地潜在特质或能力是呈正态分布的,可将P值作为正态曲线下的概率面积,以此转换成Z分数二、项目的区分度D(一)区分度的概念区分度是测验对被试实际水平的区分程度。是测验项目分析的重要内容是作为评价项目质量、筛选项目的主要指标与依据通常用D表示,取值范围为1.00至1.00D越高时,试题的质量越好,D值范围在-1.00和+1.00之间,值越大,试题的区分能力越强。当D为正值时,说明试题是积极区分,即高分组通过率高,低分组通过率低。为D负值时,说明试题有消极区分,高组通过率低,低组通过率高。D为0时,说明试题无区分用(二)区分度对测验的影响1.区分度与难度的关系l试题的区分度与难度有密切关系。试题难度过大或过小,其区分度都较低。当难度值为1.00或0时,高分组和低分组或全部通过得满分,或全部未通过得0分,这时区分度都为0分。这两种情况,都表示试题没有鉴别考生水平高低的能力。所以,调整试题难度是提高试题区分度的重要方法。右表可说明难度与区分度的关系。A、假如样本中通过某一项目的人数比率为1.00或0,说明高分组与低分组在通过率上不存在差异,因此D为0;假如项目的通过率为0.50,则可能是高分组的所有人都通过了,而低分组却无人通过,这样D的最大值可能达到1.00。B、为了使整个测验项目的潜在区分度最大,似乎应该使每个项目的难度处于0.50水平,但事实并非如此简单。如果每一个项目的难度均处于0.50,由于项目难度相同,有可能大多趋向于有关的内容或技能,结果造成项目同质性提高。在极端情况下,有可能50的被试全部通过各项目得满分,另外50的被试全部为0分,形成U形分布,这样反而降低总分的区分能力。如果测验的所有项目都是中等难度,只有项目的内在相关为0时,整个测验才能产生常态分布。考虑到一般测验项目之间具有某种程度的相关难度的分布要广一些,梯度多一些,是合乎需要的。2.区分度与信度的关系一个良好的测验,信度必须要高。测验的信度与项目的区分度有着密切的关系,事实上,由试题的区分度还可以估计测验的信度。整个测验中各试题的区分度值的平均数越高,测验的信度就越高。值的平均数与信度的关系如右表。(三)区分度计算方法1、极端分组法(1)客观性试题区分度的计算公式: DPHPL按测验总分从高到低排序确定测验总分最高的27的被试作为高分组,最低的27的被试为低分组分别求出这两组被试通过试题的百分比(2)主观性试题区分度的计算公式:说明: XH:高分组所得总分;XL:低分组所得总分;H:该题最高分;L:该题最低分;N:考生总人数的25步骤:按测验总分由高到低排序;分别确定测验总分的25、25作为高低分组;列出试题分析表;将数据带入以上公式加以计算2、相关法考虑中间数据以项目分数与效标分数(效标分数不易得到时,以测验总分代替)的相关作为项目区分度的指标相关越高,区分能力越好具体方法:点二列相关:适用于一类变量为二分称名变量,另一类变量为连续变量的成对变量的相关计算。二列相关:适用于两个连续变量,但其中一个变量被人为分成两类。 相关:适用于两个变量均为二分称名变量。积差相关法,点二列相关,二列相关,相关(一)(二)(三)1、 使试题的难度适中,使整个考试难度适中2、 着重考察复杂的学习结果(四) 区分度的评价标准以上标准仅作参考,不是绝对的。事实上,项目区分度的要求应根据测验目的而定,若测验目的在于选人,主要评判被试的个别差异,那么区分度要求高些;若测验只是考察被试对所学知识的掌握情况,可不过多考虑区分度。三、项目分析的特殊问题(一)选择题反应模式的分析对于选择题,除了分析其难度的区分度外,还要分析被试对每个备选答案的反应情况。一般要做以下分析:1、如果正确的备选答案被所有被试所选择,则说明该题目太易或者题目中可能提供了某种暗示;2、如果某个错误答案没有一个被试选择,说明该选项不具迷惑性,错得过于明显,一般说来,除非有2%以上的人选择,否则这个备选答案就应该修改。3、如果所有被试的选择了同一个错误答案,可能是编制测验时把答案定错了,也可能是教学中发生了错误。4、如果所有被试的选择集中在两个答案上,二者选择率相近,说明该题可能有两个正确答案或另一个答案也有一定道理。5、如果高分组对正确答案的选择与低分组相等或低于,说明所考察的东西与水平无关。6、如果一个题目被试未答人数过多或选择各个备选答案人数相等则说明题目过难或题意不清。(二)标准参照测验的项目分析标准参照测验主要用于判断被试是否掌握了某些知识技能,是达到了一个事先确定的标准,测验结果只与既定标准比较而不在被试之间作比较。因此测验分数的变异性不是标准参照测验的必要条件。所以,常模参照测验的项目分析方法不完全适用于标准参照测验。1、难度分析标准参照测验可以采用常模参照测验的方法计算难度,但是在筛选项目时,对难度水平的要求与常模参照测验不同。由于标准参照测验的目的是为了考察被试对某方面的知识技能的掌握情况,因此,只要能反映教育目标或教育者认为重要的内容,无论其难度为多少,都可以编入测验。2、区分度分析标准参照测验一般分数变异较小,不适合用相关法来计算区分度,但是可以采用鉴别指数的方法计算,即比较两组的通过率。方法一根据测验分数将被试分为达标组与未达标组,然后分别计算它们在某一项目上的通过率,两组考生通过率之差,便是该项目的区分度,其公式为:D=ps-pn式中ps、pn为达标组与未达标组在某一项目上的通过率。这种方法主要的问题是分组标准不同,得到的区分度值不同。方法二用同一测验对同一组被试在教学前后各施测一次,分别统计各项目前后测的通过率,二者之差便是项目的区分度。其公式为:D=ppost-ppreD值越高,说明项目对教学效果越敏感,所以有人将其称做教学效果敏感指数,其公式也可写为其中S 为敏感指数,RA、RB分别为前测、后测通过人数,N为总人数。此种方法的主要缺点是:(1)同一测验施测两次可能会产生练习效应,成绩的提高究竟是由教学引起的,还是由练习引起的难以分辨;(2)只有等两次施测后才能进行项目分析;(3)当D值低时,难于做出明确的解释,无法确定是由试题不良还是由教学不当所致。式中ppost、ppre分别为项目在后测和前测中的通过率。方法三取两组条件相近的考生,一组接受过同测验有关的学科教学,另一组没有接受过此种教学。施测同一测验后,分别统计每组考生答对某题的人数,两组考生通过率之差便是该题的区分度。公式为D=pi-pu式中pi、pu分别为教学组和未经教学组对某题的通过率。此方法的缺点是,两组考生除在教学方面不同外在其他有关方面必须同质,而这一点是难以做到的。 项目特征曲线:是项目特征函数或项目反应函数的图解形式,它反映了被试对某一测验项目的正确反应概率与该项目所对应的能力或特质的水平之间的一种函数关系。这一方法不仅适用于项目分析,而且也适用于某些测验量表的编制。A项目特征曲线可图解测验的鉴别力,项目鉴别力的高低主要在于其曲线的倾斜度,曲线坡度越陡,鉴别能力越好,预测的误差越小。B项目特征曲线可以图解项目难度。C项目特征曲线还可以图解选择题的诱答反应。第三章 测量的误差及其检验教学目的与要求(1)了解测量误差的种类与来源(2)掌握信度的定义、意义及其估计方法(3)掌握效度的定义、意义及其估计方法教学重点与难点信度与效度的估计教学时数4学时第一节 测量的误差一、误差的种类(一)误差的定义误差是在测量中与目的无关的因素所产生的不准确的或不一致的结果。(二)误差的种类1、随机误差:与测量目的无关的偶然因素引起的变化规律的误差,使得多次的测量结果不一致,这种误差的大小和方向是随机的。既影响测量的准确性又影响一致性。2、系统误差:与测量目的无关的因素引起的恒定的有规律的误差,它稳定地存在于每一次测量中。只影响测量的准确性。二、误差的来源(一)测验自身引起的误差主要来源于测验的编制过程,其中项目取样影响最大。(二)施测过程引起的误差1、测试环境2、测试时间3、主试因素4、意外干扰5、评分记分(三)被试引起的误差1、应试动机2、测验焦虑3、测验经验4、练习效应5、反应倾向6、生理变因三、真分数(一)含义真分数是指测量没有误差时所得到的真值。其操作定义是无数次测量结果的平均值。(二)数学模型及其假设1、CTT模型经典测验理论假定,观察分数(X)与真分数(T)之间是一种线性关系,并只相差下个随机误差(E),即X=T+E这里的测量误差E指的是引起测量不一致的变因所产生的效应,即指随机误差,不包括系统误差。分析假设公理:(1)若一具人的某种心理特质可以用平行的测验分数反复测量足够多次,则其观察分数的平均值会接近于真分数。即E(X)=T或E(E)=1 0(2)真分数和误差分数之间的相关为零。即P(T,E)=0(3)各平行测验上的误差分数之间的相关为零。2、引申:(1)在一次测量中,被试观察分数的方差等于其真分数方差与误差分数方差之和。S2X=ST2+S2E(2)真分数可以分成两部分:与测量目的有关变异S2V和与测量目的无关的变异S2I,即:ST2=S2V+S2I(3)一次测验中,一个团体的实测分数之间的变异性是由与测量目的有关的变异数SV2、稳定的但出自无关来源的变异数SI2和测量误差的变异数SE2所决定的。即:S2X=SV2+SI2+SE2第二节 信度(reliability)一、什么是信度定义:指的是测量结果的稳定性程度(或叫可靠性)。也指同一被试在不同时间内用同一测验(或用另一套相等的测验)重复测量,所得结果的一致程度。1、理论定义:传统的信度理论认为,每一个测验的实得分数(X)总是由真实分数(T)和误差(E),两个部份构成的,公式为:X=T+E讨论一组测验分数的特性时,可用方差导标具体分数,公式:(测验实得分数的方差) (测验真分数的方差)(测验误差的方差)2、操作定义:定义1:一组测量分数的真分数变异数(方差)与总变异数(总方差、实得分数的方差)的比率,或者是真实分数方差占总方差的的百分比。计算公式:rxx=ST2/SX2定义2:信度乃是一个被试团体的真分数与实得分数的相关系数的平方。即rxx=ptx2定义3:信度乃是一个测验X(A卷)与它的任意一个“平行测验”X/(B卷)的相关系数。即rxx=pXX2二、信度的指标(一)信度系数:大部分情况下,信度是信度系数为指标,它是一种相关系数。理论上说就是真分数方差与实得分数的方差的比值,公式是:rxx=ptx2(二)信度指数:是真分数标准差与实得分数的标准差的比值,公式是:信度指数的平方就是信度系数 rxx=ST2/SX2(三)标准误:指出个人测验分数的变异量。信度系数表示一组测量的实得分数与真分数的符合程度,标准误表示个人测验分数的变异量。用一组被试两次测量结果来代替同一个人反复实测,有了信度的另一个指标:测量标准误。测量的标准误与信度之间呈反比关系:标准误越小,信度越高;标准误越大,信度越低。三、信度与测验分数的解释(一)解释真实分数与实得分数的相关(二)比较信度可以接受的水平(三)解释个人分数的意义:(四)比较不同测验分数的差异:四、信度的类型及估计方法(一)重测信度(再测信度):1、含义与计算又称稳定性系数。他的计算方法是采用重测法,即使用同一测验,在同样条件下对同一组被试前后施测两次测验,求两次得分间的相关系数。2、使用的前提条件(1)所测量的心理特性必须是稳定的。(2)遗忘和练习的效果基本上相互抵消。(3)在时间间隔中没有学习另外的与测验有关的东西,或者说每人学习其他东西的程度都一样。3、优缺点:优点:(1) 它最符合重复测验的涵义,是重复测验最简单最明确的方式(2)首测和再测只需要一套测验题目,省时、省力(3)同一套题目无论施测几次,所测的属性是完全相同的。缺点:(1)同一组被试对同一个测验先后两次作答相互之间是不独立的。(2)如果两次施测时间间隔较长,在此期间被试的身心发展,新知识的获得,都会使两次测验结果不相同。(3)同一个被试对现一个测验先后两次作答,对测验的兴趣不同,影响测验结果。(4)两次施测的环境不同,也是产生测量误差的因素。(二)复本信度(Alternate-form reliability)1、含义与计算:含义:又称等值性系数。它是以两个平行或复本的测验(等值但题目不同)来测量同一群体,然后求得被试在两个测验上得分的相关系数,这个相关系数就代表了复本信度的高低。复本信度反映的是测验在内容上的等值性,故称等值性系数。复本信度的高低关键取决于复本测验的选择。2、使用的前提条件:(1)要两份或两份以上真正平行的测验(2)被试要有条件接受两个测验。主要取决于时间、经费等几方面。3、优缺点:优点:(1)一个测验的复本使得测验数目的增加,对于所欲测量的属性相联系的行为总体代表性强,因此,一个测验的两个复本在两三天至一周对同一组被试施测时,获得的复本信度系数是相当准确的。(2)测验的两个复本,如果在不同时间使用,其信度不仅可以反映在不同时间的稳定性,而且还可以反映对于不同测题的一致性。(3)两个复本在同时使用时,可以避免再测验信度的缺点。缺点:(1)编制两个完全相等的测验是很困难的,(2)复本法只能减少而不能完全排除练习和记忆的影响。(3)被试同时接受性质相似的两个测验可能减少完成测验的积极性。4、 适用范围(1)如果两个复本的施测相隔一段时间,则称稳定与等值系数。稳定与等值系数既考虑了测验在时间上的稳定性,也考虑了不同题目样本反应的一致性,因而是更为严格的信度考察方法,也是应用较为广泛的方法。(2)在实际应用时,为了抵消施测顺序的效应,应该有半数的被试先作A本再作B本,另一半被试先作B本再作A本。(3)复本测验不仅适用于难度测验,也是估计速度测验信度的最好方法。(三)分半信度(split-half reliability)1、含义与计算指采用分半法估计所得的信度系数。这种方法估计信度系数只需一种测验形式,实施一次测验。通常是在测验实施后将测验按奇、偶数分为等值的两半,并分别计算每位被试在两半测验上的得分,求出这两半分数的相关系数。常见的是将测题按其序列号的奇偶分,这种分法的前提是:测题并非随机排列,而是按某种顺序(如难度)排列;如果随机排列的题目,则必须是所有题目平等的(要么难度相等,要么性质一样);如果测验有多个分量表,应该在分量表内部排好顺序,再把各分量表分两半组合起来求相关。2、计算(1)两半测验分数的变异数相等(方差齐性)先计算两半测验的积差相关系数,再进行校正。常用的修正公式是:斯皮尔曼布朗公式:(2)两半测验分数的变异数不等(方差不齐),可采用:弗朗那根公式或卢伦公式中的任一一个。例题:对初一年级学生进行地理成绩测验,每答对1题得1分,答错1题得0分,测题从易到难排列如表所示,试估计该测验的分半信度。学生12345678910奇数题得分X1022132213偶数题得分Y0101123223总分11232554363、使用条件及范围分半信度通常是在只能施测一次或没有复本的情况下使用。而且,在使用斯皮尔-布朗公式时要求全体被试在两半测验上得分的变异数要相等。当一个测验无法分成对等的两半时,分半信度不宜使用。(四)同质性信度(homogeneity reliability)1、含义:指测验内部所有题目间的一致性。题目的一致性有两层含义:其一是指所有题目都测的是同一种心理特质;其二是指所有题目之间都具有较高的正相关。总之,同质性信度就是一个测验所测内容或特质的相同程度。2、测量同质性的基本公式:3、库德-理查逊公式:适用于客观性试题(0、1记分)3、克伦巴赫系数(多重记分测验)例题:某态度量表共7题,100个被试在各题上的得分方差分别是0.81,0.82,0.79,0.83,0.85,0.76,0.77,测验总分的方差为14.00,则此测量的的信度为0.70.4、注意:当各个测题的得分有较高的正相关时,不论题目的内容和形式如何,测验即为同质的;若所有题目看起来好像测量的是同一特质,但相关很低或为负相关时,测验即为异质的。对于一些复杂的、异质的心理学变量,采用单一的同质性测验是不行的,因而常常采用若干相对异质的分测验,并使每个分测验内容具有同质性,这样每个分测验就能用来预测异质效标的某一方面。(五)评分者信度(scorer reliability)1、含义与计算:指的是多个评分者给同一批人的答卷进行评分的一致性程度。是用于测量不同评分者之间所产生的误差。式中W为和谐系数,K为评分者的人数,N为被评对象数,RI为每一对象被评的等级总和。例子:假设有三位专家给六篇论文评等级,结果如表所示,试计算此次评分者的评分者信度。专家123456124156323415623351462Ri8133141872、注意的问题:为了衡量评分者之间的信度高低,可随机抽取若干份测验卷,由两位评分者按评分标准分别给分,然后再根据每份测验卷的两个分数计算相关,即得评分者信度。一般要求在成对的受过训练的评分者之间平均一致性达0.90以上,才认为评分是客观的。当多个评分者评定多个对象 ,并以等级法记分时,可采用肯德尔和谐系数作为评分者信度的估计。五、标准参照测验的信度估计1、对相关法信度系数进行校正为了对标准参照测验的信度做出较为准确的估计,利文斯顿提出了对相关法信度系数的校正公式:2、用决策的一致性作为信度指标林德曼与梅伦达的一致性公式:C为一致性,n为在两次施测中均未达到标的人数,b为在两次施测中均已达标的人数,f为只在第一次施测中达标的人数,s为只在第二次施测中达标的人数,v为f或s中较小的值。六、各种信度系数相应误差方差的来源信度系数类型 误差方差来源重测信度 时间取样复本信度(连续施测) 内容取样复本信度(间隔施测) 时间和内容取样分半信度 内容取样同质性信度 内容的异质性评分者信度 评分者之间的差异七、影响信度的因素(一)样本的特征:信度常用信度系数来表示,信度系数就是相关系数,相关系数受样本团体得分分布、样本是否异质及样本团体平均能力水平的影响。1、样本团体分数分布的影响:当分布范围增大时,其信度估计就较高;当分布范围减小时,相关系数随之下降,信度值则较低。2、样本团体异质性的影响:若获得信度的取样团体较为异质的话,往往会高估测验的信度,相反则会低估测验的信度。3、样本团体平均能力水平的影响:对于不同水平的团体,题目具有不同的难度,每个题目在难度上的微小差异累计起来便会影响信度。(二)测验的长度:1、测验越长,测验的测题取样或内容取样越有代表性。2、测验越长 ,被试的猜测因素影响就越小。3、测验的项目越多,在每个项目上的随机误差就可以相互抵消。(三)测验的难度:难度对信度的影响只存在于某些测验中,如智力测验、成就测验、能力倾向测验等。如果一个测验对某团体而言太容易,会使所得分数都集中在高分端;当题目太困难时,得分就会集中在低分端。两种情况均会使信度样本的分数范围变窄,从而使测验变得不够可靠。从理论上说,只有难度水平为50时,才能使测验分数分布范围最大,求得的信度也最高。(四)测验的时间间隔:以再测法或复本法求信度,两次测验相隔时间越短,其信度系数越大;间隔时间越久,其它变因介入的可能性越大,受外界的影响越大,信度系数便越低。第三节 测验的效度在测量活动中,测量者对所使用的测量工具非常信任,他会采取复测行为以判断测量有无误差;如果测量者对所使用的测量工具发生怀疑,那他往往会去找一公认非常准确的测量工具对先前的测值进行检验。这种在原测量工具之外寻求新的证据来肯定或否定某一测量工具准确性的做法就是在研究测量的效度问题。心理测量是一种间接测量,心理测量更重视测量的效度研究。一、效度(validity) (一)定义:效度是指所测量的与所要测量的心理特点之间符合的程度,或者简单地说是指一个心理测验的准确性。或是指一个测验或量表实际能测出其所要测的心理特质的程度。1、关于效度的概念,我们要特别注意以下几点:(1)效度是一个相对的概念。这种相对性表现在两个方面:效度是相对于一定的测量目的而言的。心理特质是较隐蔽的特性,只能通过他的行为表现来进行推测,因此,心理测量不可能达到百分之百的准确,而只能达到某种程度的准确。(2)效度是测量的随机误差和系统误差的综合反映。任一误差的存在,测量的效度都会受到影响(3)判断一个测量是否有效要从多方面收集证据2、在测验理论中,效度被定义为在一组测量中,与测量目标有关的真实方差(或称有效方差,由所要测量的变因引起的有效变异)与总方差(实得变异数)的比率,即3、一组测验分数的总方差等于真实方差与误差方差之和,而真实方差又可分为两部分,即有关的方差和无关的但稳定的方差,后者也就是所谓系统误差带来的方差 S2X=SV2+SI2+SE2由于有效方差是一个理论值,无法测量,所以效度和信度一样是一个理论上的概念。二、效度和信度的关系(一)信度是效度的必要而非充分条件。(二)效度是受信度制约的:信度系数的平方根是效度系数的最高限度,可见,一个测验的效度总是受它的信度所制约。三、效度的类型及评估方法(一)内容效度(Content Validity)1、定义:指的是项目对欲测的内容或行为范围的取样的适当程度。也即测验题目对有关内容或行为取样的适用性,从而确定测验是否是所欲测量的行为领域的代表性取样。一个测验要具备较好的内容效度必须满足两个条件:(1)要确定好内容范围,并使测验的全部项目均在此范围内。所谓内容范围可以是具体知识或技能,也可以是复杂的行为。要对所测量的心理特性有个明确的概念,并划定出哪些行为与这心理特性有关。(2)测验题目应是所界定的内容范围的代表性取样。2、内容效度的评估方法:(1)专家判断法:(2)统计分析法(3)经验推测法: 3、内容效度的应用(1)是编制任何测验应加以考虑的基本方面。(2)较适用于评价教育成就测验和职业选拔测验。(3)对标准参照测验更为重要,是因为在标准参照测验中我们主要关心的是被试对一定范围的知识、技能掌握得如何。(4)注意内容效度与表面效度的关系(5)它缺乏可靠的数量指标,因而妨碍了各测验间的相互比较。(二)构想效度(construct Validity)1954年提出,有人翻译为构思效度,也有叫结构效度。它是指测验能够测量到理论上的构想和特质的程度,即测验的结果是否能证实或解释某一理论的假设、术语或构想,解释的程度如何。1、构想效度的特点:(1)其大小首先取决于事先假定的心理特质理论(2)当实际测量的资料无法证实我们的理论假设时,并不一定就表明该测验结构效不高,因为还有可能是理论假设不成立,或者该实验设计不能对该假设作适当的检验等情况,当然这就使得结构效度的获取更为困难。(3)结构效度通过测量什么、不测量什么的证据累积起来给以确定,因而不可能有单一的数量指标来描述结构效度。结构效度主要应用于智力测验、人格测验等一些心理测验方面。2、结构效度的确定方法:(1)提出理论假设,并把这一假设分解成一些细小的纲目,以解释被试在测验上的表现。(2)依据理论框架,推演出有关测验成绩的假设。(3)用逻辑和实证的方法来验证假设。3、构想效度的估计方法:(1)测验内法(对测验本身的分析):(2)测验间的相互比较:相容效度区分效度是构思效度的又一个证据。因素效度:(3)效标关联法,效度的研究证明:一个测验若效标度理想,那么该测验所预测的效标的性质和种类就可以作为分析测验构思效度的指标,另一种证实构思效度的方法是心理特质的发展变化。(4)实验法和观察法证实:观察实验前和实验后分数的差异是验证构思效度的方法。3、对构想效度的评价(1)构想效度促使研究者把着眼点放在提出假设上、检验假设上,使得测验成为理论研究的重要工具,而不再只是实际决策的辅助工具,从而使测验有了更广阔的发展情景。(2)主要缺点是,有些构想概论模糊,没有一致的定义,确定效度时没有明确的操作步骤,没有单一的数量指标来描述有效程度。(三)效标效度1、定义:又称实证效度,反映的是测验预测个体在某种情境下行为表现的有效性程度。被预测的行为是检验效度的标准,简称效标。由于这种效度是看测验对效标预测如何,所以叫效标
展开阅读全文