心理测验技能(咨询师)

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,心理测验技能,（心理咨询师）,1,一、概述,测量与测量量表,测量:就是依据一定的法则用数字对事物加以确定.,主要元素:1 事物 2 数字 3 法则.,测量要素:1 参照点 2单位,参照点:1 绝对零点 2 相对零点,单位 1 确定的意义 2 相同的价值,2,（,一）、测量量表,测量的本质是根据某一法则将事物数量化,即在一个定有单位和参照点的连续体上把事物的属性表现出来,这个连续体称为量表.,命名量表,顺序量表,等距量表,等比量表,3,命名量表:,这是测量水平最低的一种量表形式,只是用数字来代表事物或者将事物分类.,顺序量表:,比命名量表水平高,其中的数字不仅指明类别,同时指明类别的大小或者含有某中属性的程度.,等距量表:,比顺序量表又进一步,不但有大小关系,而且具有相等的单位,其数值相互做加、减运算,但没有绝对的零点,因此不能做乘、除运算.,等比量表:,是最高水平的量表,既有相等单位又有绝对零点,所得数值可以做加、减、乘、除运算.,4,( 二)、心理测验的基本概念,1 、,心理测验的定义:根据心理学理论,使用一定的操作程序,通过观察人的少数有代表性的行为,对于贯穿在人的全部行为活动中的心理特点做出推论和数量化分析的一种科学手段.,2 、,心理测验的性质:间接性、相对性、客观性,5,（三）、心理测验的分类,1 、按测验的功能分:智力测验、特殊能力测验、人格测验,2 、按测验材料的性质分:文字测验、操作测验,3 、按测验材料的严谨程度分:客观测验、投射测验,4 、按测验的方式分类:个别测验团体测验,5 、按测验的要求分类:最高作为测验、典型行为测验,6,（四）、纠正错误的测验观,1) 错误的测验观:测验万能论、测验无用论、心理测验即智力测验,2 )正确的测验观:心理测验是重要的心理学研究方法之一,是决策的辅助工具;心理测验作为研究方法和测量工具尚不完善,7,（五）心理测验在心理咨询中的应用,智力测验：,WAIS、SPM、CRT，求助者特殊要求或对方有可疑智力障碍,人格测验：,MMPI、16PF、EPQ，有助于了解人格特征，对问题深入了解，针对性开展咨询，MMPI了解对方精神是否异常,心理评定量表：,精神评定量表、躁狂状态评定量表，抑郁量表、焦虑量表，恐怖量表等，了解心理障碍存在与否及程度,8,（六）心理测验的发展史,法国心理学家比内(A.Binet)经过与助手西蒙(T.Simon)的精心研究,发表了一篇文章,题为:,是世界上第一个正式的心理测验.,综观心理学的发展,有以下几点:,1)操作测验的发展,2)团体智力测验的发展,3)能力倾向测验的发展,4)人格测验的发展,9,二、测验的常模,10,统计学基本知识,总体、样本与个体,总体,具有某种特征的一类事物的全体（母体）,总体的特征无法进行一一测量，只能通过样本来推测。,个体,构成总体的每一个单元,个体特征可以测量，但因其随机性太大，常常不能准确地反映总体的特征。,样本,构成总体的一个部份，常用,“,n,”,或,“,N,”,来表示。,可以被测量，常将其特征来代表总体特征。,样本从总体中抽出，存在抽样误差，某些抽样误差可以控制，但随机误差不能控制。,在心理统计中，n30称为小样本，n30称为大样本。,11,次数、频率和概率,次数（频数）,指某一事件出现的回（次）数简单计数，常用,f,来表示。,频率,指相对次数，所观察发生某一事件与总体事件的比率，常用,来表示。,概率,又称机（会）率，用,P,来表示。,估计概率和真实概率,估计概率：由一定数量的观察中得到频率,真实概率：事物真实发生的频率,当观察数量无限增大时，估计概率越接近真实概率。,概率,（P）=fN,12,统计量（特征数）,反映一组数据统计特征的数字,例：3组20岁男性的体重（公斤）,1组：45、50、55、58、60、60、62、65、70、75,2组：50、55、55、60、60、60、60、65、65、70,3组：40、45、50、55、60、60、65、70、75、80,常用的统计量,反映数据集中性质或集中程度（,平均数,、中位数等）,反映数据离中（离散）性质或离中（离散）程度（,标准差,、,方差,、全距等）,反映两种特征之间的关系（,相关系数,）,13,算术平均值,平均值,（数）中的一种，英文mean，用M来表示，或用,X,来表示。反映数据的集中趋势。,计算公式,X=X,i,N,X,i,为所有数据的和，,X,i,=X,1,+X,2,+X,n,N,为数据的个数,计算举例,（上例1组）,X,1,=（45+50+55+58+60+60+62+65+70+75）10=60,14,方差和标准差,反映数据离中（离散）趋势的两种指标。英文,variance（方差）用S,2,或,2,来表示；standard deviation（标准差），用S或SD来表示，亦可用表示。,对离中趋势进行度量的意义,全面反映事物的面貌：,平均值只反映了事物的典型情况，标准差可反映事物的特殊性。,判断集中量数（如平均值）的代表性：,在一组数据中，离中趋势越小，集中趋势量数的代表性就越好，相反就越差。,15,基本公式,方差计算公式,S,2,=(X,i,-X),2,N,X,i,为每个数据，从X,1,、X,2,X,n,(X,i,-X)为离均差,(X,i,-X),2,为离均差平方,(X,i,-X),2,为离均差平方和,N,为数据的个数,标准差计算公式,S=S,2,16,正态分布,正态分布,又称,常态分布,，统计学中一种重要的理论分布，在自然界、人类社会、心理与教育中大量的现象和特征均按正态的形式分布，如能力、人格特征、学习成绩、社会态度、行为表现以及身高、体重等。,正态分布曲线,17,18,正态分布的特点,正态分布的形式是对称的,正态分布曲线的两端与基线趋于无穷远，但不会相交。,正态分布曲线与基线之间的面积等于1（100），代表了总体事件。,从正态分布曲线的最高点作垂直线，形成正态分布的中轴，将面积分为相等的两半，各占50。,平均值位于正态分布的中轴上。,正态分布曲线下各对应的横坐标（即标准差）处与平均数之间的面积可用积分公式计算，也可查正态分布表获得。,正态分布曲线下，标准差与概率（面积）之间的关系举例：,平均值（加减）,Z,个SD，包含,A,的面积（概率,）,平均值（加减）1个SD，包含68.26的面积（概率）,平均值（加减）1.96个SD，包含95的面积（概率）,平均值（加减）2.58个SD，包含99的面积（概率）,平均值（加减）2个SD，包含95.45的面积（概率）,平均值（加减）3个SD，包含99.73的面积（概率）,19,正态分布理论在心理测验的应用,化等级评定为测量数据,测定题目的难易度,利用正态分布将原始分转变为标准分,在评定时确定人数（概率）,20,常模团体,常模团体的性质：,常模团体是由具有某种共同特征的人所组承德一个群体，或者是该群体的一个样本,对测验的编制者而言，常模的选择主要是基于对将要施测的总体的认识，常模团体必须能够代表该总体,对测验的使用者而言，要考虑的是现有的常模团体哪一个最合适：受测者的分数必须与合适的常模进行比较,21,常模团体对于编制测验时的意义,常模的选择基于对实测对象的总体认识,一般程序：,确定一般总体确定目标总体确定样本,一般总体：准备评价的对象群体,目标总体：准备采样的范围人群,常模样本：根据总体性质（如性别、年龄、文化程度等）确定的、有代表性的样本,常模样本应能够代表一般总体，即具有充分的代表性。,常模团体对于使用测验时的意义,准备测评的对象的性质最近似哪个常模样本的特征（例：职业测评）,哪个常模分数最适合被测评对象（例：WAIS-RC或C-WISC）,22,常模团体的条件,常模团体的界定必须明确：,常模团体是由具有某种共同特征的人所组成的一个群体，或者是该群体的一个样本。确定常模时，必须清楚地说明所要测量的群体的性质与特征,一个测验可能有多个常模团体,WAIS-RC：分城乡、分年龄共16个常模团体,MMPI：分男、女性别两个常模团体,EPQ（成人）：分性别、分年龄12个常模团体,常模团体必须是所测群体的代表性样本,23,建立常模时的注意事项,本的大小适当。,因为抽样误差与样本大小成反比，理论上样本越大越好，但也要考虑具体条件的允许。,样本的数量,总体数目小，全部作为样本。,总体数目较,制定常模时，须清楚地说明所要测量,群体的性质与特征,，依据不同的性质（变量）确定群体，便可得到不同的常模。,大，样本也要大，30100人。,全国常模20003000人。,样本的代表性,样,系统抽样要求目标总体无序可排，也无等级结构存在。,一般常模和特殊常模,24,取样的方法,取样即从目标人群中选择有代表性的样本,随机取样,根据随机的原则选择样本，在该范围内每个人被抽到的机会相等。,常用的抽样方法,简单随机抽样：,利用随机数字表抽样、抽签,系统抽样,在总体项目为N的情况下，选择K分之一的作为样本。,K=Nn,K为组距,N为总样本人数,n 拟抽取样本量,举例：,K为2：两个中抽1个，随机确定首个是谁，隔一个抽1个,K为20：每隔20位抽1个,从121名学生中抽40人作为调查样本,K=121403,若首位是第8号，则每隔3位抽一个，即8、11、14,25,分组抽样,当总体数目较大，无法进行编号，而群体又具多样性时采样,先分组，再在组内随机抽样,分层抽样,制定常模是最常用的方法,先按某种（或几种）变量分层，然后在每层中随机抽取一定样本，组合成常模样本。,分层比例抽样,26,分层非比例抽样,当各层次差异很大时，有些层次的重要性大于其它层次，这时应采用非比例抽样，以降低各层的标准差。,n,i,=nN,i,S,i,(N,i,S,i,),27,常模与常模分数,常模,：是一种供比较的标准量数，由标准化样本测试结果计算而来，是心理测验用于比较和解释测验结果的参照分数标准,按照样本的大小和来源：全国常模，区域常模，特殊常模,常模分数,：就是施测常模样本后，将受测者的原始分数按一定规则转换出来的导出分数（具有一定的参照点和单位）,28,常模的类型,发展常模分数的计算及解释,许多心理特质是随时间（年龄）变化而发展的。,将被测者的成绩与各种发展水平人群平均表现相比较，这种常模即,发展常模,，该量表亦称,年龄量表,。,发展顺序量表,测验条目（能力或行为）按出现的早晚排列，完成该条目说明达到相应的年龄水平。,葛塞尔婴幼儿发育量表：,包括运动水平、适应性、语言、社会性四个方面。,29,智力年龄,一个人在采用年龄量表方式编制的智力测验上得到的分数，简称智龄。,计算方法,每个条目代表一定的年（月）龄，将所通过的条目折算出月龄，然后相加计算出智力年龄。如比内量表。,以标准化样本每个年龄组平均原始分数作为常模，被试者从测验中得到原始分数与其比较，从而确定智龄。,比内量表智龄计算举例,计算公式,IQ=MA（心理年龄）/CA（实足年龄）100,计算举例（例1）,30,心理年龄的分数计算,确定起始年龄,起点：从实际年龄低1岁组开始测验,回头测试原则：若被试在某类型条目失败时，需回头做低年龄组的类似条目，直至成功通过为止。,确定最高年龄：,某年龄组6个条目均失败时停止,继续原则：尽管已确定止点，但该年龄段不含某类型条目，此时应继续做高年龄组的类似条目，直至失败为止。,确定心理年龄,25岁组的条目，每通过1条获得1个月心理年龄；,6SA组的条目，每通过1条获得2个月心理年龄；,SA组的条目，每通过1条获得5个月心理年龄；,SA组的条目，每通过1条获得6个月心理年龄；,起始年龄以下的条目，假定被试完全通过，获得相应的心理年龄。,31,举例（例1）：某10岁儿童心理年龄的计算,32,年级当量,年级当量：就是年级量表。说明测验结果属于哪个年级的水平,年级量表的单位为十个月，十个月为一个年级,33,百分位常模分数的计算及解释,百分位常模包括百分等级、百分点、四分位数和十分位数。,百分等级,百分等级是应用最广泛的表示测验分数的方法,百分等级指出的是个体在常模团体中所处的位置,百分等级的计算,未分组资料,PR=100-(100R-50)N,R 指某人原始分排列的顺序数,N 指样本总人数,举例,：小东在30名同学中语文成绩是80分，排列第5名，其百分等级多少？,PR=100-(1005-50)30=85,计算步骤,公式：,PR=100N (xl)f,p,h+c,f,N=164,x =38,l =36,f,p,=23,h =12,c,f,=123,PR=100164 (3836)2312+123 ,PR=100164126.83,PR=77.34,34,百分点,百分点用于计算处于某一百分比例的人相对应的测验分数是多少,计算方法（直线内插法）,举例：,已知高考的最高分为695，其百分等级为100，最低分为103分，百分等级为1，求百分等级80所对应的分数是多少？,公式：,C 指上限百分等级,S,C,上限百分等级对应的分数,F 指下限百分等级,S,F,下限百分等级对应的分数,X 已知百分等级,PP 根据已知百分等级，要求的对应分数,35,计算部骤（因式分解）,20(695-PP)=79(PP-103),79(695-PP)=20(PP-103)（等号两侧交叉相乘）,54905-79PP=20PP-2060,54905+2060=20PP+79PP,56965=99PP,PP=5696599,PP=575.4,36,四分位数和十分位数,四分位数和十分位数只是百分位数（百分等级）的两个变式。,举例,百分位数（百分等级）,：将量表分成100等份,四分位数：,将量表分4等份，125、2650、5175和76100四段。,十分位数：,将量表分成10份，110为第一段，91100为第十段。,37,标准分的计算及解释,标准分,是将原始分数与平均数的距离以标准差为单位表示出来的量表。,标准分的基本单位是,标准差,。,常见的标准分数有z分数、Z分数、T分数、标准九分数、离差智商（IQ）等。,根据转换方式的不同，标准分可分为：,线性转换的标准分：,z分数、Z分数、T分数,非线性转换的标准分：,z,分数,当原始分不成常态分布，需进行转换使之成为常态分布,转换方法,（百分等级法）,对每个原始分计算累计百分比,在常态曲线面积表中，求出对应于该百分比的z分数,转换后的z分数称为,z分数,38,常见的标准分形式,基本形式,z分,：,z=(XX)/SD,X 为任一原始分,X 为样本平均数,SD 为样本标准差,常用标准分,Z分数,Z=A+Bz,A 为量表的平均数（根据需要指定的常数）,B 为量表的标准差（根据需要指定的常数）,z 为基本形式的z分,举例：,韦氏智力量表智商的平均值为100(A)，标准差为15(B)。某人的全量表分高于常模1个标准差，问其FIQ应为多少？,115(IQ)=100+151,39,T分数,T分数由麦克尔于1939年提出，有纪念推孟和桑代克之意,T分数目前表示任何常态化和非常态化的转换标准系统，量表分平均值固定为50，量表分标准差固定为10。,许多人格问卷均采用T分量表，如MMPI、EPQ,T=50+10 (XX)/SD,或,T=50+10z,50(A)为T分数（量表分）的平均值,10(B)为T分数（量表分）的标准差,标准九分,19分的九级分数量表，平均值为5、标准差为2。,标准9分=5+2 (XX)/SD,或,标准9分=5+2z,40,标准十分,110分的十级分数量表，平均值为5、标准差为1.5。,卡特尔16PF,标准10分=5+1.5 (XX)/SD,或,标准10分=5+1.5z,举例：,（16PF,）,30岁女性被试乐群性得分为15分，常模平均值为10.90、标准差3.23，其量表分是多少？,标准二十分,119分的分数量表，平均值为10、标准差为3。,韦氏智力量表,标准20分=10+3 (XX)/SD,或,标准20分=10+3z,举例：,（,WAIS-RC）,16岁被试算术分测验得分为15分，常模平均值为12.73、标准差3.55，其量表分是多少？,41,智商的计算及其意义,最早的比内,西蒙量表用心理年龄来表示智力的高低,测验题目的安排完全按难度排列，某条目在某年龄组中50能通过，该条目就被当成该年龄组的题目。,比率智商,比率,IQ=MA（心理年龄）/CA（实足年龄）100,比率智商的不足之处,个体智力的增长与年龄的关系并非一直呈直线关系，因此不适合于成人。,比率智商的分数在不同年龄组具有不同的意义。,42,离差智商,是一种以年龄组为样本计算而得的标准分数，为了使其与传统的比率智商基本一致，一般研究者将离差智商的平均值定为100。,韦克斯勒智力量表的标准差定在,15,IQ=100+15 (XX)/SD,或,IQ=100+15z,斯坦福-比内量表的标准差定在,16,IQ=100+16 (XX)/SD,或,IQ=100+16z,常模标准分转换表,在实际工作中，测验编制者会采用某种标准分公式计算出与原始分相对应的标准分，并编制成原始分转换标准分等值表，附在手册上方便使用。,每个测验采用何种标准分，以及量表分的平均值和标准差均可从测验手册中查到。,举例（C-WYCSI）,4岁城市儿童，言语分量表得分42分，常模平均值为49.94、标准差11.58，其言语IQ是多少？,43,注意事项,发展常模换算及解释时需要注意的问题,只适用于所测特质随年龄发生系统变化的情况,只适用于在典型环境下生长的儿童,发展量表的单位在各年龄并不相等，因为各年龄发展速度不同,百分位常模换算及解释时需要注意的问题,各百分位单位不相等，不能加、减、乘、除,原始分转换为百分等级时，靠近中央的分数其差异被夸大，靠近两极的分数其差异被缩小。（见后附表）,不同被试之间不能精确比较,标准分常模换算及解释时需要注意的问题,计算非线性转换的标准分数时，要求所测特质本质上应是常态分布。,来自不同测验的离差智商，只有标准差相同或相近时，才可进行比较,44,常模分数表示法,转换表表示法,又称常模表，最简单、基本的表示方法。,将测验的原始分转换成相对应的常模分数（如百分位、标准分、T分等）,举例,简单转换表：,将单一测验原始分转换成一种或几种分数。如：瑞文推理测验、全量表IQ,复杂转换表：,包括几个分测验或几种常模团体的原始分与导出分数的对应关系。如：韦氏智力测验粗分等值量表分转换表、MMPI T分转换表等。,45,剖面图表示法,剖面图是将分数的转换关系用图形表示出来,剖面图能直观地表示出被试在各分测验上的表现及相对位置,有的剖面图直接可作为粗分等值量表分转换表用，如韦氏成人智力测验记录纸的剖面图,WISC-R剖面图举例,总智商在平均值以上,言语智商相当高，操作智商一般。,46,三、测量的信度、,47,（一）信度分析,定义,信度（,reliability,）是指同一被试在不同时间内用同一测验（或另一套相等的测验）重复测量所得结果的一致程度。,（本教材）,信度指测验或量表的可靠性（可靠程度）。,（龚耀先）,信度就是对测量一致性程度的估计。,（金喻）,在编制或修订心理测验时，信度研究是必须的环节，信度资料是测验手册里必备的测量学指标。,在使用心理测验时，没有信度资料的测验不能使用。,48,信度的指标,1、信度系数与系度指数：是一种相关系数，同一受测者样本所得的两组资料的相关,信度指数的平方就是信度系数,2、测量的标准误：测量误差分布的标准差，用来表示误差的大小。,公式：,SE=S,x,1r,xx,S,x,分数的标准差,r,xx,测验的信度,49,测量误差与真分数,测量误差是由与测验目的无关的偶然因素引起，使得几次测量结果不一致，且这种不一致是非系统的、随机的。,真分数指测量中不存在测量误差时的真值或客观值。,真分数的操作定义就是无数次测量的平均值，常用,X,来表示。,表示真分数的公式：,X,i,=X,+X,e,X,i,指实测分数,X,指真实分数,X,e,指误差分数,实测分数是真分数与误差分数的函数。,在进行心理测量时，,X,被视为是稳定不变的，因此,X,i,的变化由,X,e,所引起。,据此，,S,i,2,=S,2,+S,e,2,由于测量误差的随机性，误差分数的平均数为,0,。,50,信度的表达式,信度,的定义可以理解为一组测验分数中真分数方差与实测分数方差的比率,在实际工作中，“真分数（,X,）”是很难获得的，我们通常将实测分数（,X,i,）作为真分数的“估计值”。,由于真分数（,X,）难以获得，因此,S,2,也很难获得，但后者可以通过其与实测分数方差和误差的关系推出来。,根据,r,xx,=r,x,2,=S,2,S,i,2,和,S,i,2,=S,2,+S,e,2,两式,信度（,r,xx,）则作为反映实测分数作为“真分数”估计值的准确程度指标。,例：如果某测验的信度为0.9，其误差则为0.1。,51,测验误差的来源,测验本身引起的测量误差,测验题目抽样误差,测验题目的形式,测验题目的难度过高或过低,测题或指导语用词不当,测验时限过短,测验实施引起的测量误差,物理环境,主试方面,意外干扰,评分不客观，计算、登记、转换出错,被试引起的测量误差,动机的影响,测验的焦虑,生理因素,学习、发育和教育,测验经验,52,（二）信度的类型及估计方法,重测信度,(test-retest reliability),又称稳定性系数(stability)，主要用于评价时间误差。,方法：,皮尔逊积差相关,公式,：,r,xx,相关系数,X,1,、X,2,同一被试的两个分数,N,样本例数,X,1,、,X,2,两次测验组平均数,S,1,、,S,2,两次测验组标准差,53,相关分析,计算两种具有相关关系的不同现象之间关系程度的统计学方法,直线相关与曲线相关（见图）,直线相关的关系分三种情况,正相关：,两列变量变动方向相同,负相关：,两列变量变动方向相反,零相关：,两列变量之间无相关,相关分析的方法,计量资料的相关分析方法：积差相关（皮尔逊相关）,等级资料的相关分析方法：肯德尔和谐系数,质与量的相关分析方法：点二列相关、二列相关,相关系数：,表示相关程度的统计学指标,相关系数取值于,1.00+1.00之间。负值表示负相关，正值表示正相关。,“,0,”,表示两个变量之间完全没有关系，,“,1,”,表示两个变量之间呈现一对一的关系。,相关系数不是等距的度量值，因此在比较时只能说绝对值大者比绝对值小者相关更密切一些。,相关系数与其他统计量一样也存在抽样误差，因此其统计学意义也应进行显著性检验。,54,复本信度,（alternate-form reliability）,又称等值性系数，以两个等值但题目不同的测验（复本）来测量同一群体，然后求被试者在两个测验得分的相关，用于评价两个测验内容的一致性。,实施两个测验的间隔时间长短可能影响复本信度,复本信度的计算方法同重测信度,内部一致性信度,（internal consistency reliability）,分半信度（split-half reliability）,用于评价同一测验内部条目抽样的误差。,方法：将测验条目按单双号分为两组，计算出两组的得分，然后进行相关。,在同样的情况下，信度的高低与条目数量成正比，分半信度只计算了一半条目的信度，因此要用斯皮尔曼,布朗的公式进行校正。,校正公式：,r,hh,为两半分数的相关系数,r,xx,为校正后（原测验长度时）信度的估计值,55,同质性信度（homogeneity reliability）,评价测验内题目间一致性（内容抽样误差）,库德理查逊公式（K-R20公式）,：适用于0、1记分的测验,N 为测验题目数,P,i,通过某题目的人数比例,q,i,未通过该题目的人数比例,S,x,2,测验总分数的变异（方差）,举例（例4）,56,举例（例4）,：,10名被试在一个有8个条目的测验中得分如下，求其信度？,57,公式：,N=8,p,1,=810=0.8,q,i,=10.8=0.2,p,1,q,1,=0.80.2=0.16,p,i,q,i,=p,1,q,1,+p,2,q,2,+p,n,q,n,=1.72,S,x,2,=(0-4),2,+(1-4),2,+(2-4),2,+(3-4),2,+(3-4),2,+(3-4),2,+,(5-4),2,+(6-4),2,+(6-4),2,+(6-4),2,+(8-4),2,10,=6.0,58,库德理查逊公式（K-R21公式）,X 为测验总分平均值,S,x,2,测验总分数的变异（方差）,举例（上例）,：平均值=4,59,克伦巴赫系数：适用于各种分数形式,N,为测验题目数,S,i,2,为某一题目,分数的变异（方差），,S,i,2,为所有题目方差之和,当题目以1、0记分时，S,i,2,=p,i,q,i,，所以,r,KR20,公式可以当作,系数的特例,S,x,2,测验总分数的变异（方差）,举例（例5）：,60,举例（例5）：,10名被试者在一个有10个条目的测验中得分如下，求该测验的,系数？,被试,测验题目得分,得分,1,2,3,4,5,6,7,8,9,10,1,2,2,2,1,2,2,1,0,0,1,13,2,2,1,1,2,1,0,0,1,0,0,8,3,2,2,2,2,1,2,1,1,1,1,15,4,1,0,0,1,0,0,0,0,0,0,2,5,1,2,0,1,0,0,0,0,0,0,4,6,2,2,1,2,2,1,1,1,1,0,13,7,2,2,1,2,1,1,0,0,0,0,9,8,2,2,2,2,0,1,1,0,1,0,11,9,2,2,2,2,2,1,1,0,0,0,12,10,2,2,1,1,2,1,1,0,0,1,11,平均值,1.8,1.7,1.3,1.5,1.1,0.9,0.6,0.3,0.3,0.3,9.8,S,i,2,0.16,0.41,0.41,0.45,0.69,0.49,0.24,0.21,0.21,0.21,3.48,61,公式：,N=10,S,1,2,=(2-1.8),2,+ (2-1.8),2,+ (2-1.8),2,+ (1-1.8),2,+ (1-1.8),2,+ (2-1.8),2,+ (2-1.8),2,+ (2-1.8),2,+ (2-1.8),2,+ (2-1.8),2, 10=0.16,S,i,2,=3.48,M=XN=9810=9.8,S,x,2,=(139.8),2,+ (89.8),2,+ (159.8),2,+ (29.8),2,+,(49.8),2,+ (139.8),2,+ (99.8),2,+ (119.8),2,+,(129.8),2,+ (119.8),2,10,=15.36,62,评分者信度,（scorer reliability）,评价不同评分者之间的一致性指标（不同评分者之间的误差）,方法：,随机抽取若干份测验卷，有两位或多位评分者按标准评分，计算每两个评分者对同一被试答卷所评分数之间的相关,一般要求评分者之间一致性达0.9以上,计算方法,两个评分者之间的一致性用皮尔逊积差相关方法或等级相关方法计算,多个评分者之间的一致性：等级资料时用肯德尔和谐系数来评价,公式,R,i,为每一对象被评等级的总和,N 被评对象的人数或答卷数,K,评分者人数,举例（例6）,三位专家给6篇论文评等级，结果见表，求评分者信度？,63,三位专家给6篇论文的评定（例6）,专家,1,2,3,4,5,6,1,2,4,1,5,6,2,2,3,4,1,5,5,2,3,3,4,1,4,6,2,R,i,8,12,3,14,17,6,64,计算,公式：,N=6,K=3,R,i,=8+12+3+14+17+6=60,R,i,2,=8,2,+12,2,+3,2,+14,2,+17,2,+6,2,=738,65,有关信度评估的一些问题,重测信度的间隔时间,两次测验间隔时间的长短影响重测信度,间隔多久适宜因测验的目的、性质和被试特点而异，一般,为24周，最好不超过6个月,。,复本信度,计算复本信度时，一半被试先做A本再做B本，另一半被试则相反，由此抵消测验顺序效应。,副本的两个测验必须在项目的内容、形式、数量、难度、时限、指导语等方面相同或相似。,分半信度测量的其它方法,异质心理学变量的测量问题,对于某些复杂的、异质的心理学变量（如智力、人格），单一的测验无法解决，可用几个异质的分测验来分别测量各个方面，保持分测验内部的同质性。,66,（三）信度与测验分数的解释,解释真实分数与实得（测验）分数的关系,信度系数可以用于解释总方差中有多少比例是由真实分数决定的。,因为：,S,i,2,=S,2,+S,e,2,，,并且如果我们将总方差看成是1（100）的话,所以：,S,e,2,= 1r,xx,例如当,r,xx,=0.9,时，我们可以说实得分数中有90的变异是真分数造成，近10的来自误差。,各种信度的可接受水平,一般原则,当信度0.85时，可用于对个人作评价,当0.70信度0.85时，可用于对团体作评价，但不能对个人作评价,当信度0.7时，不能用作评价,因测验类型而异,一般能力测验要求0.9以上,人格、兴趣、态度等测验要求0.80以上（见表）,67,几种心理测验的信度系数,测验类型,信度,低,中,高,成套成就测验,0.66,0.92,0.98,学术能力测验,0.56,0.90,0.97,成套倾向性测验,0.46,0.88,0.96,客观人格测验,0.46,0.85,0.97,兴趣测验,0.42,0.84,0.93,态度量表,0.47,0.79,0.98,68,解释个人分数的意义,测量标准误（SEm, SE）,测量误差分布的标准差，用来表示误差的大小。,公式：,SE=S,x,1r,xx,S,x,分数的标准差,r,xx,测验的信度,举例：,已知WAIS-RC城市20岁组FIQ的信度为0.95，求其测量标准误。,SE=1510.95,=150.224,=3.35,69,测量标准误的用途,确定真分数的置信区间（可信区间）,公式：,X,T,=XZSE,X 为某人的具体得分,Z 置信区间的概率水平,SE 测量标准误,举例：20岁城市男性在已知WAIS-RC全量表IQ为105，问95的置信区间是多少？,从上例已知20岁组FIQ的测量标准误为3.35,当置信区间概率水平为95时，Z为1.96,IQ=1051.963.2599111,比较不同测验分数的差异（离散分析）,测量标准误在评价两个不同测验分数的差异是否具有统计学意义上的显著性时非常重要,这种比较可以是两个人的分数是否存在差别，也可以是同一被试的两个测验分数,该内容留在智力测验结果分析时讲,70,（四）影响信度（相关系数）的因素,样本的特征：,样本团体的异质性,若计算信度的样本较常模团体样本异质，往往会高估测验的信度，相反则会低估测验的信度,。,样本团体平均水平的影响：对不同水平的团体，题目难度不同，累积就会影响信度,71,测验的长度,测验的长度，亦即测验条目数，也是影响信度系数的一个因素。一般说来，增加同质的条目可以提高测验的信度。,如果我们在预备试验中已知道某测验的信度，希望提高至某一水平，可以运用斯皮尔曼,布朗的公式计算出至少应增加多少条目。,公式：,K 指改变后长度为原长度的倍数,r,kk,指期望达到的信度水平,r,xx,指原信度系数,举例：,中国,韦氏幼儿智力量表（城市版）领悟力分测验有18个条目，平均分半信度为0.69。期望将其信度提高至0.80，问需要多少条目？,需要条目=181.79732,72,测验的难度,难度对信度的影响，只存在于某些测验中，如智力测验，对无对错之分的测验，不存在,难度与信度并无简单对应关心,测验的时间间隔,只对重测信度和不同时间测量的复本信度有影响，其余信度不受影响,以再测法或复本法求信度，间隔时间越短，信度系数越大，时间越久，信度系数越低,73,四、效度分析,（一）定义,效度,（validity），,在心理测验中是指所测量的与所要测量的心理特点之间吻合的程度。,心理测验的准确性,心理测验的有效性（龚耀先）,在编制或修订心理测验时，效度研究是必须的环节，效度资料是测验手册里必备的测量学指标。,在使用心理测验时，没有效度资料的测验也不能使用。,74,效度的性质,相对性：是对一定的目标来说的,连续性：用相关系数来表示，只有程度上的不同,75,（二）效度的类型与估计方法,内容效度（contentrelated validity）,指测验条目对有关内容或行为取样的实用性。换句话说，所选用的条目是否能测到想要测量的行为。,估计方法,专家判断法,请有关专家对条目进行审定,审定步骤,定义测验总体范围，描述相关知识与技能及所用材料的来源。,编制双向细目表，确定各种内容所占比例，标出每个条目设计所测内容。（见表）,制定一个相应的评定量表来评价效度，如测验包括的内容、技能、材料的重要程度、条目对内容的实用性等。请每位评定者对各方面进行评价，然后总合所有评定者的评价。,76,高中化学标准测验双向细目表,77,统计分析法,计算两个评审者之间一致性,克伦巴赫推荐的方法：,先编出两个测验复本（取自同样内容范围），在同一组被试中实测，然后计算其相关。,再测法：,学习前先测验一次，学习后在测试一次，计算两次相关。,经验推测法,通过实践来检验,如检验儿童发展量表的效度，观察不同年龄阶段儿童通过率是否随年龄的增长而增加。,78,构想效度（constructrelated validity）,指测验能够测量理论上的构想或特质的程度，亦即测验的结果能否证实或解释某一理论的假设、术语或构想，解释的程度如何。,构想效度一般要回答以下几个问题：,测量了什么心理构想？,对这构想测量得有多好？,测验分数中有多少比例的变异来自测验所欲侧之构想？,估计方法,对测验本身的分析,测验的内容效度可以作为构想效度的证据,测验的同质性信度指标，如分半相关、系数等,分析被试对条目的反应特点（表面效度）,79,测验间的相互比较,与经典、成熟的同类测验相比较：,计算新测验与经典测验之间分数的相关。相关系数的平方即两测验分数共同解释的变异大小，又称为相容效度（congruent validity）。,区分效度（discriminate validity）：,一个有效的测验不仅应与其他测量同一构思的测验成绩有相关，还必须与测量不同构思的测验成绩无相关，后者就是区分效度。,因素分析方法（factor analysis）：,对一组测验进行因素分析，找出影响测验分数的共同因子，这种因素可能就是我们要测量的心理特征。,用效标效度做证明,根据效标选择不同的被试群体，比较不同组测验成绩的差异,利用心理素质的变化关系，如儿童年龄增长与能力发展的关系。,实验法和观察法,观察实验前和实验后测验分数的差异,80,效标效度（criterionrelated validity）,效标效度又称实证效度，反映的是测验预测个体在某种情景下行为表现的有效性程度。,被预测的行为是检验效度的标准，简称,效标,。,估计方法,相关法,求测验分数与效标资料间的相关,最常用的是积差相关，根据资料的特征也可用等级相关、二列相关等方法。,81,区分法,区分法是检验测验分数能否有效地区分由效标所定义的团体的一种方法,公式（t 检验公式）,t 检验统计量,X,H,高分组平均值,X,L,低分组平均值,S,H,2,高分组方差,S,L,2,低分组方差,N,H,高分组样本人数,N,L,低分组样本人数,82,举例（例7）：,用能力倾向测验给工作成功（N=60）和工作失败（N=40）两组工人测试，工作成功组平均得分6.05，方差为3.31；工作失败组平均得分4.25，方差为1.69，问两组得分差异是否具有显著意义？,无效假设：假设两组得分的差异是由抽样误差所造成,自由度(df )=N,H,+N,L,2=60+402=98,查t 值表：t,(0.01),=2.66，本例5.792.66，所以p0.01,结论：无效假设成立的概率0.01，差异有非常显著意义。,83,能力倾向测验与工作成绩的分布（例7）,84,从t 检验方法中可以发现,差异显著性与样本大小有密切关系，,当样本较大时，平均数之间的小差异也有显著性，但这种差异用于区分团体时实际价值很小。,重叠计算法,如果 t 检验有显著差异，进一步求两个分部的重叠量，以解决上述缺点。,一组（A组）内被试超出另一组（B组）平均值的人数与该组（B组）内部平均值以上人数之比。如果该比例越低，说明两组差异越大。,举例：,前例中以6分为界，失败组有7人6分，而成功组有38人6分，其比例为738。,计算两组分布共同区的百分比，重叠量越大，说明分数差异越小，测验效度越差。,举例：,前例中两组分布重叠范围从27分，共86的人分布在此区域。,85,命中率法,用测验结果作为取舍依据时，用其正确决定的比例作为效度指标的一种方法。,计算命中率时除有测验分数外，还需具备某种效标资料。,效标成绩,测验预测,失败（）成功（+）,成功（+）,（A）,失误,（B）,命中,失败（）,（,C）,命中,（D）,失误,命中率计算,总命中率(P,CT,)=命中(命中+失误)=(B+C)(A+B+C+D),正命中率(P,CP,)=测验与效标皆成功人数测验成功人数,=B(A+B),举例：,上例测验成绩以6分为界，工作成绩以4分为界。,A=22，B=38，C=33，D=7,总命中率(P,CT,)=(38+33)(22+38+33+7)=71%,正命中率(P,CP,)=38(22+38)=63%,86,(三）效度的功能,预测误差,决定性系数,效度系数的实际意义常常以决定性系数来表示，即相关系数的平方，它表示测验正确预测或解释的效标的方差占总方差的比例。,举例：,高考英语成绩与入大学后第1学年英语课考试成绩的相关为0.6。,估计的标准误（Sest）：,指预测效度分数时预测误差大小的估计值。,Sest=SD,y,1r,2,xy,SD,y,效标成绩的标准差,r,2,xy,效度系数的平方，即决定性系数,预测误差的判断,与信度一样，当r,2,xy,=1.0时，效度完美，估计标准误也为0，测验分数可完全代表效标。,当r,2,xy,=0时，测验分数完全不能代表效标。,87,预测效标分数的可信区间,估计标准误可用于估计真正效标分数的可信区间。,公式：,Y,T,=YZSest,Y 为某人的具体得分,Z 置信区间的概率水平,Sest 估计标准误,举例：,某脑外伤病人在WAIS-RC中的事前智力（全量表）为105，该计算（回归）方法的效度系数为0.625，问该病人病前全量表智商的95可信区间是多少？,计算估计标准误（Sest）,Sest=SDy1r,2,xy,计算病前智力的可信区间,88,预测效标分数,如果,X与Y,两变量呈直线相关，只要确定出二者的回归方程，就可以从一个变量推估出另一个变量。,一般常从测验分数来预测效标成绩,公式（回归方程）,：,为预测的效标分数,A 为纵轴的截距，用来纠正平均数的差异,B,yx,为斜率，Y向X回归的系数,X 为测验分数,计算b,yx,和a的公式,b,yx,=r,xy,S,y,S,x,r,xy,为测验分数与效标分数的相关,S,y,和S,x,为效标分数与测验分数的标准差,a=Y b,yx,X,Y为效标分数的平均值，X为测验分数的平均值,89,举例,（前例）：用能力倾向测验预测工作绩效，该组平均测验分数为5.35分，标准差1.80分；平均绩效分数为4.28分，标准差1.89分；测验分与绩效分的相关系数为0.68，计算其回归方程？,计算b,yx,=r,xy,S,y,S,x,已知r,xy,=0.68,S,y,=1.89,S,x,=1.80,b,yx,=0.681.891.80=0.714,计算a=Y b,yx,X,已知Y=4.28,X=5.35,a=4.280.7145.35=0.46,回归方程：,应用举例：某人能力倾向测验得分为6分，求绩效分？,90,预测效率指数,前面公式-25中的称作无关系数，以K表示。,K值大小表明预测源分数与效标分数无关的程度,无关系数公式：,预测效率指数（E）=100(1K),E值的大小表明使用测验比盲目猜测能减少多少误差,举例：一个测验的效度系数为0.80，其预测效率指数为多少？,说明使用测验比盲目猜测减少40的误差,也说明测验预测误差仅为随机误差的60,91,信度和效度的关系,信度和效度的差别在于所涉及的误差不同,信度考虑的是随机误差的影响,效度则还包括测验稳定的测量误差（系统误差）,信度是效度的必要条件而非充分条件,（见图）,一个高效度的测验，其信度必然也高；,一个高信度的测验，其效度不一定高。,效度受信度的制约,效度与信度的关系,式：,r,xy,r,xx,r,xy,效度系数,r,xx,信度系数,92,效度分析的注意事项,要求内容效度的测验，不一定要求测验为同质的。,测量单一心理特质的测验要求测验条目有高度的同质性,测量一组不同心理特质的成套量表，不要求各分测验之间具有同质性。,不同类型的测验对表面效度的要求是不同的,表面效度是指测验使用者或被试在主观认识上觉得有效,需要被试者在测验中尽最大努力的测验要求较高的表面效度,需要被试这尽可能按自己实际情况回答的测验要求较低的表面效度,93,构想效度的建立,先从某一理论出发，设计相应的分测验和条目，然后要验证测验结果与假设的符合程度。,构想效度常用相关和因素分析方法来验证,以人格测验为例：,人格包括几个特质，内容是什么？,人格特质是相对稳定的,儿童时期的遭遇对人格的形成有着巨大的影响,检验效标效度的难点在于找到合适的效标,效标能够最有效地反映测验的目标,效标具有较高的信度，稳定可靠,效标可以被客观地测量,效标测量的方法简单、实用。,94,（四）影响测验效度的因素,1、测验本身的因素：,测验取材必须具有代表性,设计题目时尽量避免容易引起误差的题型（如是非题）,题目难度适中，具有较高的区分度；,测验长度恰当，具有一定的题量；,测题的排列按先易后难的次序。,2、测验实施中的干扰因素：,主试者的影响,受测者的影响,3、样本团体的性质：,样本团体的异质性,干涉变量,4、想表的性质：,小标测量的信度不可靠，与测验分数间的关系也失去了可靠性,使用积差相关评估效度时，应注意测验分数与效标之间是否为线性关系。,95,五、项目分析,测验的项目分析定性分析和定量分析,定性分析：,测验的内容效度、题目编写的恰当性和有效性,定量分析,：对题目的难度和区分度进行分析,项目分析的目的是：,通过选择和修改测验题目，提高测验的信度和效度。,96,项目的难度分析,难度（difficulty）,，指项目的难易程度，能力测验中一个重要的指标。,在人格测验中，类似的指标是,“,通俗性”,。即取自相同总体样本中，能在答案方向上回答该题的人数。,两种指标的计算方法是相同的,97,难度的计算,二分法记分的项目（1、0记分）,公式（通过率）：P=RN100%,P 指项目的难度（通过率）,R 答对或通过该项目的人数,N 全体被试人数,举例（前例4）,：,第一题10名被试中8人答对，其难度为：,P,1,=810100%,=80%,98,样本例数较大时的计算方法,根据测验总成绩将被试分为三组,高分组（N,H,）：分数最高的27,中间组：分数居中的46,低分组（N,L,）：分数最低的27,计算高分和低分组的通过率,计算两组平均通过率作为难度指标,公式：P=(P,H,+P,L,)2,P 指难度（通过率）,P,H,指高分组通过率,P,L,指低分组通过率,举例：,某测验条目高分组通过率为85，中间组通过率为52，低分组通过率为35，问平均通过率是多少？,99,吉尔福特的难度校正公式,因为选择题易受到猜测的影响，备选答案越少，机遇的作用越大，越不能反映真实难度，吉尔福特的校正公式用于对此进行校正。,公式：,CP 校正后通过率,P 校正前通过率,K 备选答案数目,举例：,上题若为5选1的题型，请计算校正后的通过率？,100,非二分记分项目的难度计算,公式：,X 指全体被试在该题上的平均得分,X,max,为该题的满分,举例,（前例5）：计算难度（通过率）,第一题平均得分1.8分，最高分2分，通过率：,P,1,=1.82.0100%=90,101,难度水平的确定,进行难度分析的目的是为了筛选条目，项目难度多高合适，取决于测验的目的、性质及项目的形式。,一般而言，难度（通过率）在0.5时，区别力最高，对信度和效度影响最好。,在能力测验中，为了使尽可能少的人在测验中得0分或得满分，因此必须安排很容易的项目和很难的项目，但测验的平均通过率最好控制在0.5水平。,102,测验的难度,测验的难度取决于组成测验项目的难度,通过观察测验分数的分布，可以进行直观检验。,如果测验难度适中，分数的分布应当接近常态分布；,如果测验偏难，分布呈正偏态（图5-4，A）,如果测验偏容易，分布呈负偏态（图5-4，B）,测验偏难或便容易时，可以通过增加或减少不同难易程度的条目来

展开阅读全文

心理测验技能(咨询师)

最新文档