资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第 五 章,心 理 测 量 学,郑 威,13554071045,第一节 概述,第一单元 测量与测量量表,一、测量,依据一定的法则用数字对事物加以确定。,测量定义的三要素:,事物 要测量的对象,心理能力、个性特征等,数字 表示某一属性的量,表明差别程度,法则 测量所依据的规则和方法,如:温度计量温度,依据热胀冷缩规律,二、测量要素,测量的二要素:参照点 单位,参照点,测量时计算的起点,绝对零点,测量长度,从零计算,相对零点,测量海拔高度,人为确定以东海平面为起点,心理测量中很难找到绝对零点,多采用人为标定的零点,如智商测验中的智力年龄,“,0,”,,指,0,岁儿童的智力水平,单位,好的单位必须具备两个条件:,确定的意义,不会曲解,相同的价值,等距,但心理测量的单位:,1,、没有统一单位,2,、不符合等距要求,三、测量量表,(一)测量的本质:,根据某一法则,在一个定有,单位和参照点,的连续体上,把事物的属性表现出来,这个连续体称为,量表,测量的四种水平(从低级到高级):,1,、命名量表,用数字代表事物或把事物归类,代号 学生的学号,类别 用,“,1,”,代表男,,“,2,”,代表女,2,、顺序量表,其数字既代表类别,也指明类别大小或程度,如成绩量表,ABCD,代表的不同等级,3,、等距量表 有大小关系,有相等单位,数值可做加减法,如温度量表,4,、等比量表,有相等单位、绝对零点,可做加减乘除,如体重、身高,心理量表 一般属顺序量表,无绝对零点,不可运算。但运用统计方法可以把顺序量表中的数据换算成等距量表,进行统计运算,量表,绝对零点,加减运算,乘除运算,统计分析,命名,量表,无,否,否,次数、众数、百分比、,2,顺序,量表,无,否,否,中位数、百分位数、等级相关,等距,量表,无,可以,否,平均数、标准差、积差相关、,t,检验、,F,检验,等比,量表,有,可以,可以,几何平均数,第二单元 心理测量的基本概念,一、心理测量,依据心理学理论,,使用一定的操作程序,,通过观察人的少数有,代表性的行为,,,对于贯穿在人的全部行为活动中的,心理特点,,做出,推论和数量化分析,的一种科学手段。,含义:,1,、心理测量的对象是人的行为,2,、心理测量常是对少数选择后的行为样本进行观察,间接推知受测者心理特征,如智商测验,行为样本,有代表性的样本,或根据某些条件取得的标准样本。,3,、测验条件对所有受测者必须相同,4,、个体测验后的分数必须与常模比较才有意义,常模,常模的作用,在于给测验分数提供比较标准,即提供某一标准化样组在某测验上的平均分,从而对测验分数加以解释。,常模是否可靠,关键是有无代表性的被试样本,即建立常模的这组被试要有足够的数量,而且是依据随机抽样和分层抽样的原则挑选出来的。,什么是标准化,测题,在测验编制时,测题的印刷和成批生产的器具要保证物理性质上的一致;,指导语,凡是足以影响测验作业的每种情况,都有详细说明,以保证被试者在反应时减少误差;,评分标准,要测验编制时规定清楚,必要时还应该举例说明,以使主试者评分时都可以按同样的标准规则记分,。,二、心理测量的性质,同物理测量相比较,心理测量具有以下独特性质,(一),间接性,只能通过测量人的外显行为,推知心理特质,特质,用来描述一组内部相关或有内在联系的行为时所使用的术语,是个人对刺激作反应的一种内在倾向。,一个人喜欢排球、篮球、体操、游泳等体育运动,运动特质,一个人喜欢唱歌、演戏、跳舞等艺术活动,艺术特质,(二),相对性,个体测量分数总是要与常模做比较,从而判断他所处的位置。,例如测得 智商,95,(三),客观性,标准化,测验用的项目或作业 施测说明 主测者的言语态度,施测时的物理环境 评分记分的原则和手续,分数转换和解释,第三单元,心理测验的分类,一、按测验的功能分类,智力测验,比奈,西蒙智力测验,斯坦福,比奈智力量表,特殊能力测验,音乐能力,绘画能力,人格测验,(性格、气质、兴趣、态度、情绪、动机、信念),测验方法有两种,:,问卷法,卡特尔,16,种人格因素问卷,投射法,罗夏墨迹测验,二、按测验材料的性质分类,1,、,文字测验,(,16PF,、,EPQ,),优点:实施方便,适合团体施测。,缺点:受文化程度影响大,2,、,操作测验(,非文字测验),对图形、模型、实物进行辨认和操作,可用于不识字的儿童和成人,如:罗夏测验、智力测验中的操作部分,优点:不受文化因素的限制,缺点:不宜团体施测,费时,三、按测验材料的严谨程度分类,1.,客观测验,测验中的词句描述、图形表现等意义明确,不需要想象力,2.,投射测验,测验中,受测者需要凭借想象力进行猜测和遐想,给出见解,以此投射出心理特征,四、按测验的方式分类,1,个别测验,一对一形式进行,优点:一对一交流充分了解测验状况,结果较可靠,缺点:费时、测验过程复杂、对主测要求高。,2,团体测验,同时对多个受测者实施测验,优点:省时,对主测要求低,缺点:主测不能有效控制受测者行为,结果较不可靠,团体测验材料也可以个别施测,但个别测验一般不做团体施测。,五、按测验的要求分类,最高作为测验,要求受测者尽量做出最好的回答,如智力测验、成就测验,典型行为测验,要求受测者按通常的习惯方式做出反应,没有正确答案,如人格测验,第四单元,纠正错误的测验观,一、错误的测验观,1,、,测验万能论,测验可以解决一切问题,把测验分数绝对化,2,、,测验无用论,认为:,某些人格测验侵犯了个人隐私,违背民主原则,测验为宿命论和种族歧视提供了心理学基础 黑人,3,、,心理测验就是智力测验,心理测验,=,智力测验,=,智商,=,遗传决定论,二、正确的测验观,1,、心理测验是心理学的重要研究方法之一,是决策的辅助工具,如人事招聘中的心理测验,2,、心理测验作为研究方法和测量工具尚不完善,应谨慎对待测验结果和分数,第五单元 心理测验在心理咨询中的应用,一、,智力测验,中国比内量表(吴天敏修订) 瑞文标准型测验,韦氏智力量表(成人、儿童、幼儿),二、,人格测验,艾森克人格问卷 卡特尔,16,因素人格因素问卷,明尼苏达多项人格调查表,三、,心理评定量表,精神病评定量表 躁狂状态评定量表,抑郁量表 焦虑量表 恐怖量表,第六单元,心理测量的发展史,一、科学心理测验的产生与发展,1,、高尔顿(英) 首先倡导科学心理测验,2,、卡特尔(美) 在杂志上发表,“,心理测验与测量,”,,首次出现于心理学文献,,并主张确立常模的重要性,提出:心理学若不立足于实验与测量上,绝不能够有自然科学之准确性。,3,、比内,编制第一个智力测验量表,19,世纪,80,年代是高尔顿的,10,年,90,年代是卡特尔的,10,年,20,世纪头,10,年是比内的智力测验的,10,年。,20,世纪心理测验的发展四个方面,1.,操作测验的发展,比内,-,西蒙量表多是文字材料,大多儿童无法使用,因此,操作性测验问世和发展,2.,团体智力测验的发展,比内,-,西蒙量,表是个别测验,费时,第一次世界大战开始,美国开始使用团体测验,奥蒂斯:陆军甲种、乙种智力测验,官兵选拔和分派兵种,3.,能力倾向测验的发展,韦克斯勒智力量表,将智力量表分为言语和操作两部分,每部分又含不同的分测验,可区分智力的不同侧面,4.,人格测验的发展,人格测验的先驱,克雷丕林,最早将自由联想测验施测精神病人,第二节,测验的常模,第一单元 常模团体,一、常模团体的性质,常模团体,由具有某种共同特征的人组成的一个群体,或该群体的一个样本。,1,、常模团体必须能够代表本次测验要施测的总体。,2,、确定常模团体时,要先确定一般总体,再确定目标总体,最后确定样本。,如:要研究大学生的择业取向,一般总体是全体大学生,目标总体可选择大四的学生,,样本就可从不同高校的大四学生中随机抽取,二、常模团体的条件,群体的构成必须明确界定,,依据不同变量确定群体,得到的常模会有显著差别,如:性别、年龄、职业、文化程度、民族、地理地域、社会经济地位,若发现某变量下得到的数据结果有较显著差异,就应此变量为标准确立常模,如:在智力测验中,在操作能力定向测验项目上,男性分数高于女性;而在语言文字能力测验上,女性高于男性,就可以分别建立男性和女性在此两类测验中的常模。,常模团体必须是所测群体的代表性样本,当测量样本很小时,可以逐个测验,得到所有人的分数,平均分就是这个测量群体的可靠常模;,但当群体很大时,不可能逐一测验,就需要选取样本,就存在样本是否恰当的问题,如,测量大学生的择业取向,大学生的性别,男、女,大学生的家庭背景,农村、城市,贫穷、富有,这些都可能造成测量结果的差异,因此,在收集常模资料时,通常采用随机取样、分层取样,或二者结合的方法,样本的大小要适当,总体数目小,只有几十个人,则需要,100%,的样本。,如果总体数目大,相应的样本也大,一般最低不小于,30,或,100,个。,全国性常模,一般应有,20003000,人为宜。,标准化样组是一定时空的产物,30,年前选取的常模,可能已经不适合今天的情况,因此常模必须定期修订。,应注意选择较新近的常模。,三、取样的方法,取样,从目标人群中选择有代表性的样本。,简单随机抽样,按照随机表顺序选择受测者,构成样本,可避免因某些喜好所造成的取样偏差,系统抽样(,等距抽样),将编号的个体每隔若干号抽取一个,要求:目标总体无等级结构存在。,如调查伙食质量满意度,军队里每,5,人,1,班,抽取样本比例若为,1,:,5,,那么可能抽取的都是班长,分组抽样,群体人太多,且多样性,可先分组,再在组内抽样,如:人口普查,按不同的行政区划进行抽样,先将群体进行分组,再在组内进行随机取样。,分层抽样,先将总体按某变量(如年龄)分若干层,再从各层中随机抽取被试,。可避免随机抽样中样本集中于某特性的情况,如:大学生对药家鑫案看法,农村和城市生源可能有不同结论,四、常模与常模分数,常模,一种供比较的标准量数,由标准化样本测试结果计算而来,是心理测验中用于比较和解释测验结果的参照分数标准,1,、按照样本的大小和来源,通常分为:,全国常模 区域常模 特殊常模,2,、按具体应用标准和分数特征,通常分为:,百分位常模 标准分常模,常模分数,施测常模样本后,将受测者的原始分数按一定规则转换出来的导出分数,原始分数,(,raw score,):通过将被试的反应与标准答案相比较获得的测验分数。,导出分数,:原始分数构成的分布转换来的分数(有意义、等单位、带参照点 )。,如:艾森克人格问卷,得分:,E,(内、外向),20,此分数为原始分数,须转换为导出分数,才能具体解释意义,第二单元 常模的类型,一、,发展常模,人的许多心理特质都在发展,常把个人某年龄段的成绩与各个发展水平阶段的人的平均表现相比较。,根据这种平均表现所制成的量表就是发展常模,亦称年龄量表。,发展顺序量表,是最直观的发展常模,表明各个年龄的儿童应具备哪些能力和行为,何为超前,何为滞后,葛塞尔发展程序表,其中按月份显示儿童在运动水平、适应性、语言、社会性四个方面的大致发展水平。,关键年龄,成熟阶段,动作能,应物能,言语能,应人能,4,周,仰卧,不能控制头部,仰卧姿势左右不对称,眼光能短暂跟随人、物,给玩具立即放弃,面部无表情,喉头作微声,凝视四周,,“,倾听声音,”,16,周,仰卧,颈可竖直,头微摇动,仰卧姿势左右对称,开始接近有响声的玩具,注视手中有响声的玩具,发出咕咕声,出声笑,自动微笑迎人,玩弄己手,28,周,坐,扶起独坐,身体前倾,伸手拿玩具,能将玩具自一手递另手,呼号,哭时作,“,姆姆,”,声,将足置口中,40,周,坐,可独坐,爬行,扶着物件站立,能将两样玩具放在一起,平指摘小丸,能呼爸爸妈妈,除爸妈外能说另一字,懂得成人逗玩,能自己吃饼干,52,周,运动,搀一手行走,摇摆,能把方木置于杯中,试堆叠二方木,能说二字,对,“,给我,”,二字有反应,穿衣时能合作,葛塞尔发展程序表,-,婴幼儿智能发育阶段初步检查表,葛塞尔发展程序表,-,婴幼儿智能发育阶段初步检查表,关键年龄,成熟阶段,动作能,应物能,言语能,应人能,15,月,运动,独自行走,微有摇摆;自坐椅子中,堆叠二块方木;能把,6,块方木置于杯内,能用,46,个字,能指出并说出所需之物,摸玩具,18,月,运动,独自行走,自坐于小椅子中,堆叠,34,块方木,模仿一划,能用,10,字言语(无任何意义),白天能控制大小便;能携带及抱娃娃,2,岁,幼儿园前期,能跑,自行上下楼,堆叠,67,块方木,模仿画圆圈。,能说,23,字短语,能说,35,张画片中物名,白天预示大小便,能照顾娃娃入睡,3,岁,幼儿园前期,能骑三轮脚踏车,能一足短暂独立,模仿叠方木成品字形、房屋型,模仿画十字,能成句,能说出姓名、性别,能自己吃食物,能自己穿袜解扣。,智力年龄,智力年龄(智龄,),在比内,-,西蒙量表中,每个年龄水平的人都在智力量表中有相应的测验题目,一个人在此年龄量表上的得分,就是代表其智力水平的年龄,这个分数就叫智力年龄。,基础年龄,,即全部题目都通过的那组题目所代表的年龄。,如,:,大部分,6,岁儿童,都刚好能正确完成设计好的一组题目,增加难度就不能完成。则该组题目代表,6,岁基础年龄,儿童的智龄是基础年龄与在较高年龄水平的题目上获得的附加月份之和。,有些量表中,不按年龄组编写题目,完成整个测验后,每个年龄都有一个常模分数,通过将原始分数与年龄常模对比,便可求得每个人的智龄。,某,6,岁儿童心理年龄的计算方法,实际年龄,通过的题数,测验得到的月数,得分,年 月,6,岁,6,6 ,7,岁,4,1, 8,8,岁,3,1, 6,9,岁,2,1, 4,总分,6 18,心理年龄:,7,岁,6,个月,(三),年级当量,(,年级量表,),说明测验结果属哪一年级的水平,在教育成就测验中最常用,如某学生,算术能力,3,年级水平,理解能力,5,年级水平,阅读能力,4,年级水平,年级当量的单位通常为,10,个月,即每,10,个月为一个年级,。,3-0,表示三年级初始平均成绩,,3-5,表示三年级上学期期末成绩,二、百分位常模,包括:,(一)百分等级,指在常模样本中低于这个分数的人数百分比。,百分等级越低,个体所处位置就越低。,如:百分等级为,90,在常模样本中有,90%,的人低于此分数,百分点(百分位数),,相对于某一百分等级的分数点。,是计算处于某一百分比例的人对应的测验分数是多少。,如:百分等级为,90,,一般对应某一分数,高于此分数有,10%,的人,低于此分数有,90%,的人。,百分位常模,由原始分数可计算百分等级,由百分等级也可确定原始分数,这样双向方式编制的原始分数与百分等级对照表,就是,百分位常模,。,(三),四分位数,、,十分位数,是百分位数的两个变式,四分位数,是将量表分成四等份,相当于百分等级,25%,、,50%,、,75%,对应的三个百分点分成的四段,。,十分位数,是将量表分成,10,段,即,1%10%. 91%100%,三、,标准分常模,将原始分数与平均数的距离以标准差为单位表示出来的量表,(一)线性转换的标准分数,式中:,X,原始分数,,X,拔为样本平均数,,SD,标准差,指一组数的离散程度,如:离差智商测验中,,100,为平均数,,15,为标准差,前一个算式常出现负数和小数,所以常使用其转换式,即后一个算式。,(二)非线性转换的标准分数 (原始分数不是常态分布时使用),1,对每个原始分数值计算累积百分比;,2,在常态曲线面积表中,求出对应于该百分比的,z,分数。,分数(,X,),x = X-M,x,2,48,+8,64,47,+7,49,43,+3,9,41,+1,1,41,+1,1,40,0,0,38,-2,4,36,-4,16,34,-6,36,32,-8,64,400 0 244,S = ,x,2,/ N =4.9,Z =,(,X ,M,),/ S,M,为团体平均数,X,为个体所得分数,S,标准差,正态分布,T,分数,纪念,Terman,和,Thorndike,。,T=,50,+,10,z,平均数为,50,,标准差为,10,标准九,(sta-nine),标准化九级分制,标准九,=5+2,z,,即平均数为,5,,标准差为,2,标准十分,= 5 + 1.5,z,标准二十分,= 10+3,z,四、智商及其意义,最原始的比内,-,西蒙量表用,“,心理年龄,”,与,“,生理年龄,”,相比较来表示被试智力高低,,但不同年龄儿童有些方面不具可比性,所以后人用比率智商和离差智商表示智力高低,(一),比率智商,IQ=,(,MA/CA,),X100,心理年龄与实足年龄之比,所得商乘以,100,一儿童心理年龄,=,实足年龄,则智商为,100,,高于,100,则为发展超前,比率智商不适合年龄大的受测者,因为心理年龄与实足年龄增长并非同步,离差智商,(个体智力在所处年龄组中的位置,更理想),IQ=100+15,(,x-X,),SD,不同测验获得的离差只有在标准差相同或相近时才可比较(,372,),几种导出分数间的相互关系,第三单元 常模分数的表示方法,一、转换表法,最简单、最基本的表示常模的方法就是转换表,也叫常模表。,利用转换表可将测验获得的每个原始分数转换为与其对应的导出分数,从而对测验的分数作出有意义的解释,。,分 组 分 数,百分等级(,PR,),T,分 数,7579,7074,6569,6064,5559,5054,4549,4044,3539,3034,99.4,(,99,),96.6,(,97,),90.8,(,91,),81.8,(,82,),66.6,(,67,),43.8,(,44,),23.2,(,23,),10.6,(,11,),3.0,(,3,),0.2,(,0,),75,68,63,59,54,48,43,37,31,21,二、剖面图法 将测验分数的转换关系用图形表现出来,韦克斯勒儿童智力量表记录纸,第三节 测验的信度,第一单元 信度的概念,一、,信度,同一被试者在不同时间内用同一测验(或用另一套相等的测验)重复测量,所得结果的一致程度。,信度是评价一个测验是否合格(可靠)的重要指标。,信度只受随机误差的影响。随机误差越大,信度越低。,系统误差,:测量工具本身引起的误差(稳定);,随机误差,:由不稳定因素引起的误差(不稳定)。,二、信度的指标,评价信度高低的指标,:,(一)信度系数,与,信度指数,信度系数,是信度的重要指标,,常是同一受测者样本所得的两组资料的相关。,信度指数,,也是信度的指标,,信度指数的平方就是信度系数,(二)测量标准误,信度的另一个指标,SE=S,X,1 r,XX,SE,为测量的标准误,,S,X,为所得分数的标准差,,,r,XX,为测验的信度系数,第二单元,信度评估的方法,每一种信度只能说明信度的不同方面,例如:,一、,重测信度,又称,稳定性系数,。用重测法,同一测验,在同样条件下对同一组受测者前后施测两次,求两次得分的相关系数。,若对人的某些稳定心理特征,智力、兴趣、性格进行重测,分数差别较大,说明此测验未能反映较稳定的心理特征,而是受了随机变量的影响。,用重测法估计信度的优点:,1,、能提供有关测验是否随时间而变化的资料,2,、可作为受测者将来行为表现的依据,缺点:,1,、若时间间隔短,易受练习和记忆的影响,2,、若时间间隔长,身心发展足以改变测验分数意义,相关降低。,适宜时距,:一般是两周到四周较宜,间隔时间最好不超过六个月。,二、,复本信度,又称,等值性系数,。以两个等值但题目不同的测验(复本)测量同一群体,求得被试在两个测验上得分的相关系数,等值性系数,:两个复本测验是同时连续施测的。一半受测者先测,A,后测,B,,另一半先,B,后,A,,以抵消施测顺序效应。,稳定与等值系数,(重测复本信度):两个复本测验相距一段时间分两次施测。考验时间上的稳定性、不同题目样本反应的一致性,复本信度优点,:,能避免重测信度的记忆、学习效应。,复本信度缺点:,1,、复本信度只能减少而不能完全消除练习影响,2,、第二个测验只改变题目内容,但解题原则可迁移到同类问题,3,、许多测验要建立复本太难。,三、,内部一致性信度,反映同一量表中题目之间的关系,即测验能测量相同内容或特质的程度,(一)分半信度,采用分半法估计所得的信度系数,将测验按奇、偶数分为等值的两半,并分别计算每位被试在两半测验上的得分,求出这两半分数的相关系数。,(二),同质性信度,代表测验内部所有题目间的一致性。,各个测题的得分有较高正相关,则测验为同质的,反之,则测验为异质,四、,评分者信度,用于测量不同评分者之间产生的误差,要求,:,评分者之间平均一致性达,0.90,以上,才认为评分是客观的。,信度,误差变异来源,重测信度,时间取样,复本信度(连续施测),内容取样,复本信度(间隔施测),时间与内容取样,分半信度,内容取样,同质性信度,内容取样和内容的异质性,评分者信度,评分者间的差异,各种信度系数相应误差变异的来源,第三单元 信度与测验分数的解释,一、,解释真实分数与实得分数的相关,信度系数,r,xx,=0.90,时,可以认为实得分数中有,90%,的变异是真分数造成的,仅,10%,是来自测验的误差。,二、,确定信度可以接受的水平,一般原则:,1,、当测验信度系数,r,xx,0.70,时,测验不能用于对个人做出评价或预测,而且不能作团体比较;,2,、当,0.70r,xx,0.85,时,可用于团体比较;,3,、当,r,xx,0.85,时,才能用来鉴别或预测个人成绩或作为。,4,、新编的测验信度应高于原有的同类测验或相似测验。,三、信度在解释个人分数上的意义,1,、估计真实分数的范围,2,、了解实得分数再测时可能的变化情形,三、解释个人分数的意义,SE=S,X,1 - r,XX,真分数的置信区间(,95%,),=X1.96SE,四、比较不同测验分数的差异,SE,d,=S 2-r,xx,-r,yy,S,为两测验的标准差(如,T,分数的,10,)。,如:数学,r,xx,为,0.84,,语文,r,yy,为,0.91,,则,Se,d,=10 2,-,0.84,-,0.91=5,,,1.96 Se,d,=9.8,,只有高,9.8,,才有显著差异,第四单元,影响信度的因素,一、样本特征 信度受样本特征影响,其中包括:,(一)样本,团体异质性,的影响,(二)样本团体平均能力水平的影响,二、测验长度 即测题的数量,(一)测验越长,测验的测题取样或内容取样越有代表性。,如,智力测验中,需要提供难度不同、题型众多的测验,(二)测验越长,受测者的猜测因素就越小。,如,一个题目猜对的可能性,50%,,,100,题都猜中的可能性很小,但要注意,题目过多会引起疲劳和反感,可靠性,信度降低,三、,测验难度,测验太难或太易,分数范围会缩小,信度则降低,即,没拉开差距,就很难发现个体存在的问题,测验就不可靠,难度存在于智力测验、成就测验、能力倾向测验等,人格测验、兴趣测验则不存在难度,四、,时间间隔,只对重测信度和不同时测量的复本信度有影响,第四节 测验的效度,第一单元 效度的概念,一、效度,指所测量的与所要测量的心理特点之间的符合程度,即一个心理测验的准确性。,如:想测孩子的身高,把孩子放到秤上称,则,本测验没有效度,注意:,信度高的测验未必有高效度,秤很准,但不适合量身高,效度高的测验未必有高信度,拿秤称体重,可是秤不准,二、效度的性质,(一),效度具有相对性,每种测验各有其功能与限制,如 数学测验的成绩对学生数学学习水平预测效度高,但对音乐能力是没什么预测效度的,(二),效度具有连续性,评价一个测验时,不应该说,“,有效,”,或,“,无效,”,,而应该用,效度较高或较低,来评价。,如 用秤给一个人称体重,并以此衡量他的腰围,一定程度上是有作用的,只是效度较低,第二单元,效度评估的方法,一、,内容效度,(一)什么是内容效度,指,测验题目,对有关内容或行为,取样的适用性,,即,该测验与要测量的目标是否一致,。,如 在智力测验中包含了许多与智力无关的题目,则内容效度有问题,要想编制内容效度高的心理测验,,需要,:,1,、首先要对所测量的心理特性有明确概念。划定出哪些行为与这种心理特性密切相关,如 智力测验包含的内容可能有哪些方面,,2,、其次,测验题目应是所界定的内容范围的代表性取样。,如,确定了智力测验的考察范围之后,须具体设计哪些问题,(二)内容效度的评估方法,1,专家判断法,步骤:,(,1,)定义好测验内容的总体范围;,(,2,)编制双向细目表,确定内容和技能各占比例,并确定各题所测是何内容或技能;,(,3,)制定评定量表来测量测验的整个效度,由每位评判者做判断,从而获得证据。,2,统计分析法,计算两个评分者之间评定的一致性,3,经验推测法,即 通过实践来检验效度,如 检验儿童发展量表的效度,可对不同年龄段的儿童进行测验,观察其结果是否依年龄发展而有不同,如果通过率是随着年龄的增加而增加,就可推测该测验有内容效度。,(三),内容效度的特性,内容效度不是普遍适用的,如,时间上的特定性,适合过去的测验未必适合对现在的被试者使用,内容效度容易与表面效度混淆,二者判断标准不同:,表面效度(,face validity,):由外行对测验作表面上的检查确定的,指测验表面上看来是否是测量所要测的东西。,而,内容效度,是由专家详尽、系统地对测验做评价而建立的,为激发受测者的测量动机,,最高行为测验,要求,较高,表面效度;,为掩饰题目的测量目的,,典型行为测验,却要求,较低,的表面效度。,二、构想效度,(一)什么是,构想效度,?,也叫,构思效度,或,结构效度,,指测验能够测量到理论上的构想或特质的程度。,研究和考察构想效度的宗旨是要回答下面的问题:,1,、一个测验测量什么心理构想?,2,、对这构想测得有多好?,3,、测验分数中有多少比例的变异数是来自测验所欲测之构想?,如:构想,弱智儿和正常儿童想比,前者适应行为显著弱于后者,首先,用实证法搜集资料,对假设逐一验证,其次,若假设都得以验证,则该测验结构效度高,(二)构想效度的估计方法,1,对测验本身的分析,内容效度,测验的内部一致性指标:分半信度等指标,分析被试者对题目的反应特点,2,测验间的相互比较,相容效度,:两测验之间的相关系数,两个测验测量同一种心理特质,一个是等待研究其效度的,另一个是效度已经验证过的,加入相关高,说明新测验测量的特质对路,区分效度,:与测量,不同构思的测验,之间没有相关,则理想,因素分析法:,对一组测验进行因素分析,找到影响测验分数的共同因素,这种因素可能就是要测量的心理特质(构想),3,效标效度的研究证明,根据效标将受测者分成相对照的两组,再比较两组的测验成绩,若测验分数的确能区分两组,则构想效度理想,如:对算术能力测验进行考察,测验前选定以前算术能力高和算术能力低的两组,,验证其测验成绩是否也分别有显著的高低差异,,若有,则该测验的构想效度理想,4,实验法和观察法,证实,再测法(训练前后),预测在前测的影响下,再测的分数会有变化,如果预测被证实,则为构想效度提供了依据,三、,效标效度,又称,实证效度,,反映的是,测验,对,预测个体在某种情境下行为表现,的,有效性程度,。,效标,:即,被预测的行为,它,是检验效度的标准,简称效标。,同时效度,:即测验所得的分数可与效标同时验证 。,如 智力测验以学生当时的学业成绩为效标,成绩是现成的,可直接与此次测验分数相比较,则可计算出同时效度,预测效度,:效标资料需要一段时间才可搜集到。,如 高考的试卷 可用学生入大学后的学习成绩作效标,之间有时间间隔,一个好的效标必须具备以下条件:,(,1,)效标测量本身必须有效;,(,2,)效标必须具有较高的信度;,(,3,)效标可以客观地加以测量;,(,4,)效标测量的方法简单,省时省力,经济实用。,(二)效标效度的评估方法,1,相关法 即 求测验分数与效标资料间的相关,此相关系数称为,效度系数,2,区分法 检验,测验分数能否有效区分由效标所定义的团体,的方法,如效标定义,A,组学生数学成绩好,,B,组数学成绩差,,从测验分数看,A,组与,B,组学生成绩相近的少,,A,组成绩普遍高,,B,组成绩较低,,说明测验的效度高;,反之,如果成绩相近的人数很多,则说明测验的效度低,3,、命中率法 当把测验用来作为取舍依据,用其正确决定的比例作为效度指标,如 高考试卷作选拔依据,,95%,学生按预期成绩考上理想大学,,则高考试卷效度较高,工 作,表 现,测验成绩,合格,不合格,合格,A,C,不合格,B,D,命中率,总命中率,=,(,A+D,),/,(,A+B+C+D,),正命中率,= A/,(,A+C,),第三单元 效度的功能,一、预测误差,决定性系数,r,2,表示测验正确预测或解释的效标的方差占总方差的比例。,对真正分数估计的标准误,S,est,= S,y,1 r,xy,2,某人真正分数,95%,的可能是:测验分数,1.96 S,est,二、预测效标分数, = a + b,yx,X,第四单元,影响效度的因素,一、,测验本身的因素,测验取材的代表性、测验长度、试题类型、难度、区分度以及编排方式等,1,、测验材料必须对整个内容有代表性,2,、测题设计应尽量避免容易引起误差的题型,3,、测题难度适中,具有较高区分度,4,、测验长度恰当,测题量不少也不能太多,5,、测题的排列先易后难,二、,测验实施中的干扰因素,(一)主测者的影响因素,1,、是否按使用手册进行标准化施测,2,、指导语是否统一,3,、测验的时限是否一致,4,、评分是否合理,(二)受测者的影响因素,兴趣、动机、情绪、态度和身心状况、健康状态以及是否充分合作与尽力而为等,(三)测验情境,场地布置、材料准备、测验场所有无噪音和其他干扰因素等,三、,样本团体的性质,(一)样本团体的异质性,样本团体越同质,分数范围分布越小,测验效度就越低,1,、只以选拔出来的受测团体参加效度研究,会降低测验效度,招聘销售员,只能对聘用者的业绩进行研究,缩小了样本个体差异,预测效度低,2,、选拔标准太高,样本同质性增加,会降低测验效度,如:,90,年代前高考录取率低,如用大学成绩做高考成绩的效标,则预测效度很低,(二)干涉变量,不同性质的团体,同一测验的效度会有很大不同,因为,:,制定常模时没有考虑到的、使测验效度降低的变量:年龄、性别、职业、兴趣等,如 对出租车伺机进行能力倾向(驾驶技能)测验,测验成绩与工作表现相关仅,0.20,把其中对驾驶工作感兴趣的受测者进行效度计算,效度系数达到,0.60,,大大提高,因为,对驾驶无,兴趣,的伺机没认真完成测验,四、效标的性质,效标测量的信度不可靠,则它与测验分数之间的关系也会不可靠,第五节,项目分析,测验的项目分析包括:,1,、定性分析,包括考虑内容效度,题目编写的恰当性和有效性等;,2,、定量分析,主要是指对题目难度和区分度等进行分析。,通过项目分析,可以选择和修改测验题目,以提高信度和效度,第一单元 项目的难度,一、定义,难度,即项目的难易程度,难度指标,常用通过率表示,即答对或通过者人数占测验总人数的百分比,通过率:,P=R/N*100%,P,项目的难度,N,全体被试者人数,R,答对或通过该项目的人数,二、计算方法,(一)二分法记分的项目,例如:,1,、测验项目若为选择题,通过记,1,分,错误记,0,分,2,、受测者人多时,可根据成绩分三组,:,27%,高分者为高分组(,NH,),27%,低分者为低分组(,NL,),中间的,46%,为中间组,3,、分别计算高分组和地分组的通过率,4,、以两组通过率的平均值作为每题的难度,如第一题高分组通过率为,90%,,低分组通过率为,30%,,则该题难度为 (,90%+30%,),2 = 60%,(二)非二分法记分的项目,当测验项目为问答题等 ,不能用二分法记分时,公式:,难度,=,全体受测者在该题的平均分该题的满分,X 100%,三、难度水平的确定,(一)项目的难度,难度分析的主要目的就是筛选项目,难度值,P,越接近,0,或,1,,则题目的区分能力越差,,P,越接近,0.50,,区别力越高,在选拔测验(如高考)中:题目的难度应接近录取率,是非题,难度,0.75,最合适;,四选一的选择题,难度,0,。,63,最合适,(二)测验的难度,最好使测验包含的试题难度,在,0.50,0.20,之间,平均难度接近,0.50,时最理想,测验难度的偏态分布,正偏态 负偏态,第二单元,项目的区分度,一、定义,项目,区分度,(,item discrimination,),也叫,鉴别力,,是指测验项目对受测者的心理特性的区分能力。,如果一个项目,实际水平高者能顺利通过,而低者不能通过,则说该项目区分度较高。,二、计算方法,(一),鉴别指数 步骤,1,、按测验总分的高低排列答卷,2,、确定高分组与低分组,每一组取答卷的,27%,3,、分别计算高分组与低分组在该项目上的通过率或得分率,4,、按此公式估计项目的鉴别指数,D,为鉴别指数,,P,H,为高分组的通过率或得分率,,P,L,为低分组的通过率或得分率,取值范围:,-1 +1,项目鉴别指数与评价标准,鉴别指数,题目评价,0.40,以上,很好,0.300.39,良好,修改会更好,0.200.29,尚可,仍需修改,0.19,以下,差,必须淘汰,(二)相关法 计算区分度最常用的方法,即 以某一,项目分数,与,效标成绩,或测验总分的相关作为该项目区分度的指标,1,、常用计算方:有点二列相关 、二列相关、,相关法,2,、相关越高,表明项目越具有区分的功能,3,、区分度取值范围在,-1,至,+1,之间,如项目得分与实际能力水平之间呈负相关,则为负值,区分度为负值,意味着受测者实际能力越高,该项目得分越低,三、区分度与难度的关系,一般,较难的项目对高水平受测者区分度高,较容易的项目对低水平受测者区分度高。,项目难度的分布以常态分布为好,即特别难与特别易的项目少些,接近中等难度的项目多些,而所有项目的平均难度为,0.50,最理想。,鉴别指数,D,与项目难度,P,的关系,难度(),区分度(),1.00,0,0.90,0.20,0.80,0.40,0.70,0.60,0.60,0.80,0.50,1,0.40,0.80,0.30,0.60,0.20,0.40,0.10,0.20,0,0,第六节 测验编制的一般程序,第一单元,测验的目标分析,一、测验的对象,要明确测量对象的特点:年龄、文化、社会状况等,二、测验的用途 是要做描述还是做预测,诊断还是选拔,用途不同,取材范围和试题难度也不同,(一),显示性测验,测验题目和所要测量的心理特征相似,如成就测验,反映受测者有什么能力,能完成什么任务,(二),预测性测验,预测一些没被测量的行为的测验,如通过行政能力测验来预测一个考生在行政管理方面的才能,三、测验的目标 即 用来测量什么心理变量或行为特征,目标分析,:将测验目标转换成可操作的术语的过程,根据测验的不同,分三种情况,:,(,一,),工作分析,也叫,任务分析,(,job analysis,)。包括两个步骤:,1,、确定哪些心理特征和行为可以使要预测的活动达到成功,如,:,招聘销售总监,语言交流能力,2,、建立,衡量受测者是否成功,的标准(效标)。,确定,怎样的状态才是成功的状态,如:幸福感测量,什么是幸福,(二)对特定概念下定义,如 要编制智力测验,必须给智力下定义,包括哪些方面,(三)确定测验的具体内容,双向细目表,小学自然常识测验双向细目表,知识,理解,应用,分析,综合,评价,合计,生物世界,3,5,6,3,2,1,20,资源利用,2,3,3,1,1,0,10,动力与机械,2,3,4,2,0,1,12,物质与能量,5,6,8,3,2,1,25,气象,2,4,3,2,2,0,13,宇宙,2,5,4,1,0,0,12,地球,2,2,2,1,1,0,8,合计,18,28,30,13,8,8,100,第二单元,测题的编写,一、搜集资料,(一)已出版的标准测验,(二)理论和专家的经验,(三)临床观察和记录,二、命题原则(,4,方面),(一)内容方面,1,、题目内容符合测验目的,避免贪多胡乱出题,2,、内容取样有代表性,比例适当,3,、题目之间内容要相互独立,切忌一题答案影响另一题,(二)文字方面,1,、避免使用生僻字句,2,、排除与答案无关的因素,3,、不遗漏答题依据的必要条件,4,、言简意赅,意义明确,不含糊暧昧,(三),理解方面,1,、题目应有确定答案,内容不超出受测团体知识水平和理解能力,2,、题目不能令人费解,不能有歧义,(四),社会敏感性方面,如自杀、性观念,1,、应尽量避开社会敏感性问题,个人隐私、社会禁忌,2,、必须设计敏感性问题时,应鼓励作答,策略:,(,1,)命题时假定被试具有某种行为,你有几个婚外性伴侣?,A,、一个,B,、两个,C,、三个,(,2,)命题时假定规范不一致,有人认为手淫有害健康,也有人认为手淫是必要的,你怎样认为?,(,3,)指出该行为是常见的,大部分青年男性有手淫行为,你有吗?,三、编制要领,题目类型:,提供型:,论文题、简答题、填空题等,选择型:,选择题、是非题、匹配题,(一),选择题,要求:,1,题干明确,便于理解,2,选项简明扼要,3,每题只给一个正确答案,4,各选项长度应相等,5,避免题干用词与选项用词一致,不用下列词:,“,决不,”,、,“,从来,”,、,“,所有,”,、,“,唯一,”,、,“,绝对,”,6,选项最好用同一形式,如同是日期、人名等,并随机排列,除非本身有逻辑顺序,(二),是非题,(正误题),你认为自己大部分时候很快乐吗?,A,、是,B,、否,注意事项:,1,内容确切,不掺杂琐碎细节或无关语句,2,每道题只能包含一个概念,不要半对半错,3,最好用肯定句,尽量避免否定甚至双重否定的叙述,4,若是表达意见的题目,最好说明意见的来源和根据,以便测出受测者是否了解某个人或某些人的意见、信念或价值观等,5,是、非题比例基本相等,且随机排列。,(三),简答题,编制三原则:,1,最好采用问句形式,2,、空格不宜太多,空格尽量放在最后,3,每题应只有一个正确答案,答案简短而具体,(四),操作题,如画图、走迷津、拼物,编制四原则:,1,明确所要测量的目标,并将其操作化,找出具有代表性的工作样本,建立作业标准,2,尽量选择逼真度较高的项目,与真实操作场景相比,3,指导语要简明扼要,如工具、时间、评价依据等,4,制订评分标准,确定计分方法,完成数量、完成时间,第三单元,测验的编排和组织,一、合成测验,(一)选择与审定试题,1.,选择试题形式,考虑三点:,(,1,),测验的目的和材料的性质,概念和原理的记忆,简答题,事物的辨别和判断,选择题,综合运用知识的能力,论文题,(,2,),接受测验的团体的特点,幼儿,口头测验,文盲,不宜采用要求读和写的项目,有言语缺陷的人,操作项目,(,3,),各种实际因素,受测者多、供测验时间少、经费有限,选择题,团体纸笔测验,受测者少、时间充裕、需要设备,操作测验,2,审定题目,工作内容,:,审查修订题目,改正意义不明确词语,取消重复和不合理题目,修订后构成一个预备测验,注意事项,:,题目的范围应与测验计划一致,题目的数量要比最后所需的数目多一倍至几倍,以备筛选和编制复份,题目的难度必须符合测验目的,题目的说明必须清楚明白,(二)测题的编排,1,、测题的难度排列宜逐步上升,2,、尽可能将同类型的测题组合在一起,3,、注意各种类型测题本身的特点,是非题的答案不要有规律性,两种常见的测题排列方式:,并列直进式,多个分测验,同一分测验内题目由易到难,如:韦氏智力量表,混合螺旋式,试题按难度分成若干层次,将不同性质的试题进行组合,交叉式排列,难度渐次增大,如:,比内测验,二、测验的预试,(一),预测,预测对象应取自将来正式测验准备应用的群体类型。,预测的实施过程与情境应力求与将来正式测验时的情况相近似。,预测的时限可稍宽一些,。,在预测过程中,应对被试的反应情形随时加以记录。,(二),项目分析,1,、,质的分析,从内容取样的适用性、题目的思想性以及表达是否清楚等方面加以评价,2,、,量的分析,对预测结果进行统计分析,确定题目的难度、区分度、备选答案的适合度等,三、信度和效度考察,1,、信度(衡量测验质量的最基本指标),信度缺乏的表现:,同一个测量工具,而多人测量结果不一致,同一个测量工具,一人多次测量结果不一致,2,、效度(参见前面内容),四、常模制订,建立常模的方法:,在要测验的所有个体中,选择有代表性的一部分人施测,将所得分数统计整理,得出一个分数分布,作为该测验的常模,五、编写指导手册,(一),作用,:向测验使用者说明如何实施测验,以提高测验结果的信度和效度,(二),手册的内容,:,1,、测验的目的和功用,2,、测验编制的理论背景、测验中的材料根据什么原则,用什么方法选出来的,3,、如何实施测验,4,、测验的标准答案或记分标准,5,、常模资料,常模表、常模适用的团体、对测验分数的解释,6,、测验的基本特征,难度,鉴别力,信度,效度,因素分析资料,资料取得的条件、情境和调查的样本、时间等,第七节 心理测验的使用,第一单元,主试的资格,一、技术资质,(一)知识结构,1,、,基础知识,普通心理学、发展心理学、社会心理学、心理统计学等,2,、,专业知识,人格心理学、能力心理学、变态心理学等,二、专业理论知识和专业技能,(一),专业理论知识,主测资格考察的最基本条件,1,、主测对测验的特点和性质、作用和局限性有清楚认识,2,、了解测验的基本特征:信度、效度、难度、区分度等指标,3,、熟悉心理测验标准化的必要性,(二),专业技能,1,、接受过严格、系统的心理测验专业训练,2,、熟悉测验的内容、适用范围、测验程序和记分方法,3,、投射测验要求主测是临床心理咨询专家或精神科医生,三、职业道德,(一),测验的保密和控制使用,1,、测验的内容只有受测者事先不熟悉才有价值,2,、不可在媒体上刊登测验内容,3,、宣传介绍测验时,只能引用立体,不公开正式测验,4,、对测验控制使用,使用者须经专业训练、具备一定资格,5,、不可将测验借给无资格的人员使用,以避免误用和滥用,(二),测验中个人隐私的保护,1,、尊重受测者的人格,2,、对测验中获得的个人信息要严格保密,3,、除非对个人或社会可能造成危害才可告知有关信息,第二单元,测验的选择,一、所选测验必须,适合测量的目的,1,、了解各种测验的功用及特长、优缺点,2,、不同的目的要选择不同的测验,3,、要了解所选测验的适用范围和功效,二、所选测验必须,符合心理测量学的要求,1,、测验是否经过了标准化,信度、效度高低,2,、常模样本是否符合测试对象,3,、常模资料是否太久远,4,、使用的测验应符合时代特征和区域特征,第三单元,测验前的准备及注意事项,一、测验前的准备工作,(一),预告测验,1,、事先通知受测者:时间、地点、内容范围、测题类型等,2,、不搞突然袭击,避免受测者智力、体力、情绪混乱,(二),准备测验材料,1,、检查问卷或器材是否完整,2,、清点、摆放好测验材料,(三),熟,悉测验指导语,能熟练、轻松朗读指导语,不影响受测者答题情绪和态度,(四),熟悉测验的具体程序,如受测者数量大,要进行主测的人员分工,二、测验中主测的职责,1,、按照指导语要求施测。不带暗示,尽量按中性方式、照字典的意义解释。,2,、测验前不讲太多无关话,占用时间不宜过长,3,、对于受测者的反应,主测不应做出暗示性反应(点头、摇头等),保持和蔼、微笑的态度。,4,、施测时,不让受测者看见记分,避免影响其情绪和注意力,5,、对特殊问题(仪器故障、生病等)要有心理准备,三、建立协调关系,协调关系,主测和受测者之间一种友好的、合作、能促使受测者最大限度地做
展开阅读全文