心理测量_装配图网

资源描述

心理测量PsychologicalMeasurement陈毅文E-mail:电话：64861897第一章绪论第一节心理测量的历史一、国外心理测量的历史（一）测量产生于实际社会的需要l法国医生沈干（Seguin）训练智力落后儿童（1837年）l法国医生艾斯克罗尔（Esqurol）对智力落后和精神病人的区分（一个人驾驭语言的能力，是他智力水平的最可靠的标志）；（二）冯特的实验心理学l冯特建立第一个心理学实验室（1879年）；l观察的个体差异（三）高尔顿的遗传理论测量达尔文的表兄弟，皮尔逊（Pearson）的老师，遗传的天才，人类测量实验室，高尔顿棒，高尔顿笛高尔顿发现，白痴对于热、冷、痛鉴别能力较低。他还说：感觉辨别力“基本上是心智能力中最高的能力。”（四）卡特尔的个别差异研究冯特的学生，高尔顿的朋友。首次提出“心理测验”（mentaltest）这一术语；心理测验与测量（五）比纳和比纳-西蒙智力量表的产生第一个智力测验量表比内-西蒙量表（1905年量表）1908年量表1911年量表美国心理学家Pintner说：“在心理学史上，假使我们称冯特为实验心理学的鼻祖，我们不得不称比奈为心理智力测量的鼻祖。”波林说：“19世纪80年代是高尔顿的10年，90年代是卡特尔的10年，20世纪头10年则是比内的10年。”（六）心理测量的蓬勃发展与应用q 智力测验的发展比内-西蒙量表斯坦福-比内量表（比率智商）叶克斯（Yerkes）：陆军甲种测验、陆军乙种测验（19171919）20年代智力测验运动的狂热斯皮尔曼的因素分析法和“二因素理论”瑞文推理测验（30年代）韦氏智力量表（40年代60年代）（离差智商）q 能力倾向测验的发展特殊能力测验（音乐、文书、机械、美术）q 成就测验的发展桑代克编制了第一个标准化的教育成就测验，因此被认为是教育测验的鼻祖。（20世纪初）斯坦福成就测验（1923）ETS（EducationalTestingService）教育测验服务中心q 人格测验的发展最早进行人格测量克雷培林（Kraepelin）用自由联想法诊断精神病人。最早的人格问卷武德沃斯的“个人资料调查表”（诊断士兵神经症）“卡特尔16种人格问卷”（16PF）“艾森克人格问卷”(EPQ)“明尼苏达多项人格调查表”（MMPI）罗夏墨迹测验主题统觉测验（TAT）美国心理测验的三个发展期l19041915，Thorndike出版精神与社会测验学导论：“凡是存在的东西都有数量；凡是有数量的东西都可测量”（数量化，客观化和标准化）。l19151930，学历测验，智力测验（IQ），和人格测验大量出现。l19301940，从单纯测验法向心理评估和教育评价过渡（综合应用评定法；问卷法；交谈法；轶事记录法等）q心理测量的历史发展趋势1先是以解剖生理特征为根据，而后转向对心智活动的测量；2由测量简单的感知能力，发展到测量复杂的认知能力；3由笼统的单一量数转变为以多个量数来评定个别差异，4心理测量与实验心理学由合到分，又到合。q心理测量的当代趋势信息加工测验的产生；计算机化测验的产生；项目反应理论和概化理论的兴起。二、我国心理测量发展的历史（一）我国古代的心理测量q能力测量孔子：中上之人、中人、中下之人董仲舒：一手画方，一手画圆（分心测验）刘邵：12种人才类型七巧板、九连环q人格测量孔子：狂者、狷者、中行刘邵：12种性格类型q教育测量西周：小成，大成汉代：太学考试（口试、策试、射策）隋朝：科举考试q对测验理论的最初探索刘邵：九征，八观，五视“居，视其所安；达，视其所举；富，视其所与；穷，视其所为；贫，视其所取。”中国古代心理测量思想的特点：l描述性l分类式l注重整体评价，和人的道德品质联系起来l实用性（二）中国心理测验简史（解放前）l1914年，Creighton比较中美儿童智力差异（广州，500人）l1917年，樊炳清介绍“比内-西蒙智力量表”l1918年，Walcott用推孟修正量表施测（清华）l1918年，俞子夷编制“小学生毛笔书法量表”l1920年，廖世承、陈鹤琴在南京开设测验课l1921年，廖世承、陈鹤琴合作出版心理测验法一书l1921年，费培杰将比内智力测验翻成中文l1922年，张耀翔在北京将心理测验列为入学考试科目l1924年，陆志伟发表订正比内西蒙智力测验说明书；l1931年6月，在南京成立中国测验学会l1932年，测验杂志创刊。l1935年，沈有乾用“朋洛德人格问卷”测量中国学生。l1936年，陆志伟和吴天敏进行第二次修订比内西蒙智力测验。l1937年，周先庚使用“塞斯顿情绪稳定性测验”l1943年，林传鼎试用“普莱西X-O测验”l1948年，刘范试用“罗夏克墨迹测验”。（三）中国心理测验简史（解放后）l1979年，林传鼎，吴天敏，张厚粲在武汉举办全国测验培训班；l1979年，龚耀先主持修订“韦克斯勒成人智力量表”；l1979年，林传鼎、张厚粲编制“少年儿童学习能力测验”；l1980年，林传鼎、张厚粲主持修订“韦克斯勒儿童智力量表”；l1980年，北师大开设心理测验课；l1980年，张厚粲开始对高考试卷做系统分析；l1981年，刘绍衣修订“卡特尔16种人格因素问卷”；l1982年，吴天敏第三次修订中国比内测验；l1982年，宋维真修订“明尼苏达多相人格调查表”；l1983年，龚耀先、陈仲庚修订“艾森克问卷”l1984年，中国心理学会成立心理测量专业委员会；l1984年，我国正式加入“国际教育成就评价协会”；l1985年，张厚粲主持修订“瑞文标准推理测验”；l1986年，龚耀先主持修订“韦克斯勒幼儿智力量表”；l1987年，张明园修订“生活事件量表”；l1989年，李丹修订“瑞文测验（联合型）”；l1990年，中国加入国际测验委员会（ITC）；l1990年，吴文源修订“症状自评量表（SCL-90）”；l1992年，戴忠恒修订“一般能力倾向测验”；l1992年，宋维真编制“心理健康调查表”；l1992年，沙毓英等编制“学生性格量表”；l1993年，宋维真等编制“中国人个性测量表”（CPAI）；l80年代，编制超常、弱智儿童筛查量表；03（6）岁儿童发育、发展量表；CPM领导行为评价量表MMPI-2第二节心理测量的性质一、测量的基本概念（一）测量的定义测量就是依据一定的法则，使用量具对事物的特征进行定量描述的过程。l一一定定的的法法则则:测量要建立在科学规则和科学原理上，并通过科学方法和程序完成测量过程。l事物的特征事物的特征：特定属性l量具量具l定量描述：定量描述：对事物特征量的确定测量精确度的影响因素测量精确度的影响因素：测量对象的性质：确定型、随机型、模糊型测量工具的精密性测量的类型：物理测量、生理测量、社会测量、心理测量（二）测量的基本要素1参照点绝对参照点（绝对零点）相对参照点2测量单位好的单位须符合两个条件：确定的意义，即同一单位对所有人来说意义相同。相等的价值，即第一单位与第二单位之间的距离等于第二单位与第三单位之间的距离。（三）测量的量表使事物的特征数量化的数字的连续体就是量表（scale）。Stevens将量表从低到高分为4个等级。1命名量表(NominalScale)用数字来代表事物或对事物进行分类。代号类别数字只是一种名称的替代物。不同的个体用不同的数字标志。如球员的号码，各种分类标志（男或女；正常或异常，等）2顺序量表(OrderScale)给个体赋值，使数值的大小次序与个体在所测量的心理特性上的多少、大小、高低等的次序相符合。次序量表在心理和教育中十分常见（如竞赛成绩排名等）3等距量表（IntervalScale）给个体赋值，使数值间的差不仅能够反映出对应个体在所测量心理特性上的排序，而且能够反映出对应个体在该特性上的差异程度。（如温度计，偏爱程度等）但建构间距量表不是容易的事，常常只能做到次序量表。4比率量表(RatioScale)给个体赋值，使数值间的比率能够反映对应个体在测量心理特性上比率。（如身高、体重、速度等）。但在心理学中是极少见的。心理测量通常都是次序量表，为方便比较，通常把次序量表转换为等距量表。测量量表的等级（功用）l命名量表：识别、区别个体；l次序量表：识别、区别个体；按特性排序个体；l间距量表：识别、区别个体；按特性排序个体；指出个体特性的差异；l比率量表：识别、区别个体；按特性排序个体；指出个体特性间的差异；指出个体特性间的比率。量表绝对零点加减运算乘除运算统计分析命名量表无否否次数、众数、百分比、2次序量表无否否中位数、百分位数、等级相关间距量表无可以否平均数、标准差、积差相关、t检验、F检验比率量表有可以可以几何平均数、调和平均数二、心理测量的基本概念（一）心理测量的理论基础l孟子说“权，然后知轻重；度，然后知长短；物皆然，心为甚。”lThorndike：“凡客观存在的事物都有其数量。”lMcCall：“凡有数量的东西都可以测量。”心理测量的准确性、可靠性、精确度还有待提高，但测量不准不等于不能测量，现在测量不准也不意味着将来永远测不准。（二）心理测量的定义心理特质具有内隐性，只能通过人的外显行为来推断。qAnastasi：“心理测验实质上是对行为样本的客观的和标准化的测量。”qBrown：测验是“测量一个行为样本的系统程序。”q书本：依据一定的心理学理论，使用测验对人的心理特质进行定量描述的过程。q郑日昌：心理测验就是通过观察人的少数有代表性的行为，对于贯穿在人的全部行为活动中的心理特点作出推论和数量化分析的一种科学手段。1行为样本从总体行为中抽取出来的、能够反映个人特定心理特质的一组行为，作为直接的测量对象。l取样研究的有效与否，关键在于样本的代表性，即不是任何部分都可代表全体。l构成样本的行为应当是系统的，有理论思考的；l不可能包括所有可用来测量或定义某种心理特性的具体行为；l因此，心理测验质量的高低很大程度上决定于行为样本的代表性。l只有在全部了解行为样本的意义以后，才能正确使用心理测验。心理测量的最终目标不是对行为样本的测量，而是通过行为样本的测量来预测被试以后将会出现的行为。行为样本与所要预测的行为并不一定相似，可以相似，也可以完全不同。如投射测验和能力倾向测验，其测查的行为与将来要预测的行为有很大的差异，但两者之间有必然的联系（相关）。2标准化测验内容的标准化施测条件的标准化测验情境、指导语、测验时限评分规则的标准化测验常模的标准化3难度或通俗性4信度和效度（三）心理测量的性质1心理测验的间接性通过测量外显行为来推断内隐的心理特质2心理测验的相对性没有绝对的标准3心理测验的客观性标准化第三节心理测验的种类和功能一、心理测验的种类（一）按测量的功能分类1能力测验智力测验、特殊能力测验、能力倾向测验2学绩测验已获得的学业成就3人格测验兴趣、态度、动机、气质、性格（二）按测量的对象分类1个别测验优点：获得的信息多；容易建立融洽的合作关系；特殊被试（幼儿、盲人）缺点：费时、复杂、对主试要求高。2团体测验优点：节省时间、短期内可收集大量的数据缺点：被试的行为不易有效控制，容易产生测量误差。（三）按测验材料分类1文字（纸笔）测验2非文字（操作）测验“文化公平”测验：不受或少受文化背景的影响。（四）按测验的目的分类1.描述测验2.诊断测验3.预示性测验（五）按测验的难度和时限分类1难度测验2与速度测验（六）按测验的要求分类1最高行为测验2典型行为测验（七）按测验的性质分类1构造性测验2投射性测验（八）按测验的应用分类1教育测验2职业测验3临床测验（九）按评价所参照的标准分类1常模参照测验2标准参照测验内容参照测验结果参照测验二、心理测验的功能双刃剑（一）理论研究功能1收集研究资料2建立和检验理论假设3实验分组（二）实际应用功能1选拔人才2人员安置3心理诊断4描述评价5心理咨询第四节心理测量工作者的素质要求及道德准则一、心理测量工作者的素质要求（一）心理测量工作的知识结构基础知识：专业知识：（二）对心理测验的科学态度错误观念：万能论无用论心理测验就是智力测验（心理测验=智力测验=智商=遗传决定论）对待测验的正确态度：心理测验是研究心理学的重要方法之一，是决策的辅助工具；心理测验作为研究方法和测量工具尚不完善；防止乱编和滥用心理测验。二、心理测量工作者的道德准则（一）测验的保密和控制使用测验信息和样题的公布有助于消除公众对心理测验的神秘感及误解有关测验的技术程序以及信度、效度和其他测验属性应向所有人公开让受测者熟悉测验，以消除焦虑，保证测验结果的准确性对测验结果的反馈（二）测验中个人隐私的保护第二章心理测验的编制第一节编制心理测验的基本程序一、确定测验目的（一）明确测量对象年龄、性别、职业、受教育程度、经济状况、民族、文化背景等。（二）明确测量目标心理变量或行为特征。必须有操作定义，目标要非常具体。（三）明确测量用途用于描述、还是诊断，或用于预测？二、制定编题计划通常是一张双向细目表，指出测验所包含的内容和要测定的各种技能，以及对每一个内容和技能的相对重视程度。例：小学自然常识测验编题计划知识理解应用分析综合评价合计生物世界35632120资源利用23311010动力与机械23420112物质与能量56832125气象24322013宇宙25410012地球2221108合计1828301388100三、编辑测验项目（一）收集测验资料（1）资料要丰富（2）资料要有普遍性（3）资料要有趣味性（二）选择项目形式纸笔测验还是操作测验？是客观题还是主观题？概念和原理的记忆简答题辨别和判断选择题综合运用论文题幼儿口头测验文盲、半文盲、聋哑操作测验人多、经费有限团体测验人少个体测验（三）编写测验项目题目范围要与双向细目表一致；题目数量要比最终所需要的数量多，以便筛选或编制复本；题目的难度应有一定的分布范围；用词力求清楚明白。四、试测与项目分析q试测取样施测过程与施测情景时限可稍宽一些记录被试的各种反应。q项目分析质的分析：内容取样、题目的思想性、表达是否清楚量的分析：难度、区分度、备选项分析五、合成测验（一）测验项目的选择指标有三：要选择那些能够测量所要测量的东西的项目；难度区分度（二）测验项目的编排并列直进式混合螺旋式（三）编制复本各份复本必须等值。等值要符合下列条件：各份测验测量的是同一种心理特性。各份测验具有相同的内容和形式。各份测验的题目不应重复。各份测验题目数量相等，难度和区分度大体相同。各份测验的分数分布（平均数和标准差）大致相等。复本编好后，应再测一次，以确保各份测验的等值。六、测验标准化测验的标准化是指测验的编制、实施、评分以及分数解释都有统一的标准，以减少无关因素对测验的影响。（一）测验内容指测验内容对所有被试都一样。（二）施测过程测验情景指导语时限（三）测验评分为使评分尽可能客观，有三点要求：对被试反应的及时和清楚的记录。特别是对口试和操作测验。要有一张标准答案或正确反应的表格，即计分键。将被试的反应和计分键比较，对反应进行分类。（四）测验分数的解释常模参照标准参照：内容参照，结果参照七、鉴定测验（一）信度（二）效度（三）测验量表与常模八、编写测验说明书测验的目的和功用；编制测验的理论背景以及选择题目的根据和测验的构成；测验的实施方法、时限及注意事项；测验的标准答案和评分方法；测验的信度和效度资料；常模资料。第二节测验题目的编制技术一、命题的一般原则1.试题要符合测验的目的。2.内容取样要有代表性。3.题目格式不要使被试产生误解。4.文句要简明扼要，既排除与解题无关的因素，又不可遗漏解题所依据的必要条件。要避免使用艰深的字词。5.应有不致引起争论的确定答案（创造力测验、人格测验除外）。6.各个题目必须彼此独立，不可互相牵连，不要使一个题目的回答影响另一个题目的回答。7.题目中不可含有暗示本题或其他题正确答案的线索。8.题目内容不要超出受测团体的知识和能力。9.所提问题应避免涉及社会禁忌与个人隐私。10.施测与评分省时。二、测题的种类及编制固定应答型题目，即客观题，包括：选择题、是非题、匹配题等。自由应答型题目，即主观题，包括：填充题、简答题、应用题、论文题、联想题、操作题等。（一）选择题题干+选项（正确选项与诱答选项）多项条件选择题：例如：已知小明的心理年龄是8岁4个月，实际年龄是9岁，其智商是多少？(a)85(b)90(c)92(d)92.6(e)100类别选择题例如：艾森克是著名的_心理学家。(a)儿童 (b)工程 (c)管理 (d)人格 (e)社会异类选择题例如：下面哪位与其他人不属于同一类人？(a)小布什 (b)普京(c)胡锦涛 (d)希拉克 (e)科尔多项是非选择题例如：下面两个陈述哪一个正确？（1）2008年奥运会在北京举行。（2）美国首都是费城。(a)1和2都对 (b)1对2错 (c)1错2对 (d)都错因果条件选择题例如：如果测验的真方差增加，但误差方差不变，结果是：(a)测验信度增加 (b)测验信度下降(c)测验总方差减小(d)测验的信度和总方差不变选择题的优点：适用范围广；计分客观；题意明确。缺点：编制诱答选项较难；答案固定，测量范围有限。编写选择题的原则：题干所提的问题必须明确选项要简短，必要的叙述或相同的修饰语应放在题干中；每个选项的性质要一致；选项最好按逻辑顺序排列；选项之间不应有重叠；诱答选项的错误不要太明显；不要把选项夹在题干中间；每题只能围绕一个中心，不能有歧义。（二）是非题每题只包含一个概念，避免两个以上的概念在同一题中出现，造成题目似是而非，或半对半错。避免使用具有暗示性的特殊词语，如“绝对”、“完全”、“有时”、“可能”等。尽量采用正面肯定的叙述，避免反面陈述或双重否定的句子。如“生物没有不是由细胞组成的。”“是”与“非”的题数应大致相等，且随机排列。（三）论文题对答题有时间限制；不要有任选的题目，因为两题很难做到等值；客观、统一的评分细则。第三章测验的项目分析项目分析包括定性分析和定量分析。定性分析包括考虑内容效度、题目编写的恰当性和有效性等；定量分析主要是指题目难度和区分度的测量。对项目进行筛选和修订，可以提高测验的信度和效度。第一节测验的难度一、难度（difficulty）的意义难度，指项目的难易程度。在测验中能够正确或确切回答某项目的人数。二、难度的计算（一）二分法记分项目的难度1通过率P=R/N2极端分组法（上下27%）P=（PH+PL）/2（二）非二分法记分项目的难度P=X/XmaxX为所有被试在该项目上的平均得分，Xmax为该项目的满分。三、测验难度水平的确定效标参照测验、掌握测验：不考虑难度；选拔测验：难度=录取率；对于选择题来说，难度一般应大于猜测概率；无论是速度测验，还是难度测验，一般都应防止被试得满分，因为满分的意义是不明确的。大体而言，难度为0.50时最理想，此时项目具有最大的鉴别力。但在实际操作中，让所有项目难度都到达0.50困难很大，而且也不必要，一般只需使项目的平均难度接近0.50，而各个项目的难度在0.500.20之间变化。四、难度的等距变换根据正态分布表，将难度P作为正态曲线下的面积，转换成相应的Z分数，这就是等距量表。PY0ZZYP.00.39894.00000.50.35207.191461.00.24197.341341.50.12952.433191.96.05844.475002.00.05399.477252.50.01753.493792.58.01431.495063.00.00443.498653.50.00087.499773.99.00014.49997美国教育服务中心以作为难度指标：=13+4ZP=.0013Z=+3=25P=.16Z=+1=17P=.50Z=0=13P=.84Z=-1=9P=.9987Z=-3=1五、难度对测验的影响（一）测验难度影响测验分数的分布形态难度大，正偏态难度低，负偏态（二）测验难度影响测验分数的离散程度测验过难或过易，分数全距缩小，信度降低。P=0.50时最佳第二节测验的区分度一、区分度的意义区分度（discrimination）是指测验项目对被试心理品质水平差异的区分能力或鉴别能力。项目的区分度是测验是否有效的“指示器”。二、区分度的计算（一）项目鉴别指数法1鉴别指数（indexofdiscrimination，D）的计算D=PH-PL取值范围：-1+1鉴别指数题目评价0.40以上很好0.300.39良好，修改会更好0.200.29尚可，仍需修改0.19以下差，必须淘汰2极端组的划分27%规则一般情况下，取上下25%33%均可。样本少时，可以取50%注意：由于计算机的方便使用，可以上下50%作为划分高低组的标准，或者多分几组，对区分度和难度作详细分析。因为只取上下两端，只利用了一部分资料，浪费了很多信息，有可能得出错误结论。（二）相关法（项目-总分相关）1点二列相关Xp-Xqrpb=pqSt2二列相关Xp-XqpqXp-Xtprb=或rb=StySty3相关ad-bcr=(a+b)(c+d)(a+c)(b+d)4四分相关5.项目和总分相关重叠的校正当测验项目超过20个项目时，校正法通常毫无意义。rtpStSprpq=St2+Sp22rtpStSp（三）项目特征曲线（itemcharacteristiccurve,ICC）项目特征曲线描述了效标分数不同的被试在该项目上的通过率。曲线坡度越陡，鉴别力越好，预测的误差越小。率概的目项答回确正1.000.000.50低中高能力鉴别力较好低中高能力率概的目项答回确正1.000.000.50低中高能力率概的目项答回确正1.000.000.50鉴别力为负鉴别力较低率概的目项答回确正1.000.000.50低中高能力ABC难度不同的3个项目的ICC多项选择中每个选项的ICC概率的目项答回确正1.000.000.50低中高能力ABCD三、区分度与难度的关系难度（）区分度（）1.0000.900.200.800.400.700.600.600.800.5010.400.800.300.600.200.400.100.200.000难度和区分度都是针对一定团体而言的。一般来说，较难的项目对高水平被试区分度高，较易的项目对低水平被试的区分度高。四、区分度的相对性（一）不同的计算方法，所得区分值不同区分度有几种计算方法？（二）样本容量大小影响相关法区分度值的大小样本越大，区分度越（三）分组标准影响鉴别指数分组越极端，区分度越（四）被试样本的同质性程度影响区分度值的大小样本越同质，区分度越第三节项目分析的特殊问题一、多重选择题的项目分析（诱答分析）对于多重选择题，除了分析难度和区分度外，还要对每个选项进行分析。下列哪一个最有可能是偏执型精神分裂症患者的次级症状：A幻听B瘫痪C记忆丧失D厌食如果所有被试都选择某一正确的选项，说明该选项如果没有一个被试选择某个错误选项，说明该选项如果所有被试都选择某个错误选项，说明该选项如果高分组被试的选择集中在两个选项上，说明该选项如果高分组和低分组对正确选项的选择没有区别，说明该选项如果所有被试都未回答某个题目，说明该题如果选择各个选项的人数几乎相等，说明该题二、速度测验的项目分析对前面部分的测验项目，难度和区分度都对后面部分的测验项目，难度和区分度都三、标准参照测验的项目分析在标准参照测验中，无须考虑项目的难度和区分度，只要项目的内容很重要就行。也可以通过比较教学或训练的前测和后测结果来进行项目分析，用来说明教学或训练的效果以及项目编制是否适当。四、项目-团体的相互作用具有不同性质（性别、种族、职业等）的团体，在测验得分上也存在差异，即同样的项目可能有不同的难度。如果测验要求对所有个体都相对“公平”，那么，就应该排除那些有利于或不利于不同性质的亚团体的项目；如果测验的目的就是为了考察不同亚团体的差异，那么，就应选择使团体差异尽可能大的题目。五、有效性与可靠性的矛盾同质性信度要求项目之间有高相关，各项目的难度均等；对于预测效度来说，因为效标的变异范围较大，如果项目越同质，那么效标关联效度则低；因此，效标关联效度要求各项目之间要有一定的差异，即项目之间相关低，这样才能保证测验得分与效标之间有高相关，即高的效标关联效度。因此，对于多数心理测验来说，项目之间中等程度的相关，可使二者调和，获得较为满意的（同质性）信度和（效标关联）效度。第四章经典测验理论的基本假设第一节心理特质及其可测性假设一、心理特质的含义心理特质就是表现在一个人身上所特有的相对稳定的行为方式。l一组内部相关的行为的概括，如善良、聪明；l比较稳定，对不同的刺激做相同的反应；l通过特质可以对人的行为作出预测；l特质可以分为多个层次，如智力可以分语言和操作，语言可以分为词汇和文法。二、心理特质的可测性lThorndike“凡客观存在的事物都有其数量。”lMcCall“凡有数量的东西都可以测量。”第二节测量误差及其来源一、测量误差的含义测测量量值值与与实实际际值值的的差差异异。是在测量过程中由哪些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应。二、测量误差的种类系统误差：测量工具本身引起的误差（稳定）；随机误差：由不稳定因素引起的误差（不稳定）。三、测量误差的来源（一）测量工具（测验内部）引起的误差1题目取样2指导语3难度4时限5测验复本不等值（二）由测量对象引起的误差1测验的经验2练习因素3应试动机4测验焦虑5反应定势6生理因素（三）由施测过程引起的误差1物理环境2主试者方面3意外干扰4评分计分第三节真分数及其有关的假设一、真分数的含义真分数（TrueScore）：一个测量工具在没有测量误差时，所得到的纯正值。操作定义：经过无数次测量所得到的平均值。观察分数（ObservedScore）：二、数学模型及其假设X=T+E测量误差的假设：（X）=T或（E）=0（T，E）=0（E1，E2）=0SX2=ST2+SE2ST2=SV2+SI2SX2=SV2+SI2+SE2SV2SI2SE2SX2ST2第五章测量的信度第一节信度概述一、什么是信度？信度（reliability）是指测量结果的稳定性程度，也叫测量的可靠性。操作定义：rxx=ST2/SX2rXX=TX2rXX=XX注意：（1）信度指的是一组测验分数或一系列测量的特性，而不是个人分数的特性；（2）真分数的变异数是不能直接测量的，因此信度是一个理论上构想的概念，只能根据一组实得分数作出估计。二、信度系数与信度指数信度指数：相关系数信度系数：相关系数的平方注意：（1）信度系数有多种。（2）同一种信度系数也会因样本、测查时间不同而有多个。（3）信度系数只是对测量分数一致性的估计，但并没有指出不一致的原因。（4）获得较高的信度只是测验有效的必要条件。三、信度的作用信度是测量过程中所存在的随机误差大小的反映1信度可以用来解释个人测验分数的意义SE=SX1-rXX真分数的置信区间（95%）=X1.96SE2信度可以帮助进行不同测验分数的比较第二节信度的估计方法一、重测信度1含义和计算重测信度（test-retestreliability）是指用同一量表对同一组被试施测两次所得结果的一致性程度。皮尔逊积差相关系数误差来源：测量时间不同所带来的随机误差2使用的前提条件所测量的心理特质必须是稳定的；练习和遗忘的效果基本上相互抵消；在两次施测的间隔时期内，被试在所要测查的心理特质方面没有获得更多的学习和训练。二、复本信度1含义和计算复本信度（Alternate-formreliability）是指两个平行的测验测量同一批被试所得结果的一致性程度。皮尔逊积差相关系数等值性系数：两个复本测验是同时连续施测的稳定等值系数（重测复本信度）：两个复本测验是相距一段时间分两次施测的。2使用的前提条件l两测验真正平行；l被试要有条件接受两个测验。三、分半信度1含义和计算分半信度（split-halfreliability）是指将一个测验分成对等的两半后，所有被试在这两半上所得分数的一致性程度。校正后的皮尔逊积差相关系数校正公式：斯皮尔曼-布朗公式（要求两半测验分数的方差相等）rxx=2rhh/（1+rhh）常见的分半方法是按测题序号奇偶分半：测验题目按某种顺序（如难度）排列；如果是随机排列的题目，则必须是所有题目是平等的（要么难度相等，要么性质一致，是测同一个心理特质的）；如果测验有多个分量表，应在分量表内部排好顺序，再把各分量表的两半组合起来求相关。弗朗那根公式：rxx=21-（Sa2+Sb2）/Sx2卢仑公式：rxx=1-Sd2/Sx22使用的前提条件一个测验可以分为对等的两半时四、同质性信度1含义同质性信度（homogeneityreliability），也叫内部一致性系数，是指测验内部所有题目间的一致性程度。2计算及适用范围rxx=K/rij1+（K-1）rijq KR20公式：rxx=K/（K-1）1-（piqi）/Sx2pi为答对第i题的人数的比例；qi为答错第i题的人数的比例。K为题目数，Sx2为测验总分的变异。（适用于适用于0，1记分的测验）记分的测验）q KR21公式（适用于（适用于0 0，1 1记分且所有题目的难度接近时）记分且所有题目的难度接近时）rxx=K/（K-1）1-（Kpq）/Sx2q 克龙巴赫系数：（0 0，1 1记分，测量数据都可以，它是测量信度的下界的一个估计值）记分，测量数据都可以，它是测量信度的下界的一个估计值）=K/（K-1）1-（Si2）/Sx2q 菏伊特信度：rxx=1-MS人题/MS人q因素分析一般用于预测的测验或学绩测验可不考虑同质性。而验证理论构想时必须考虑同质性。因此，同质性不但与信度有关，还与效度有关。五、评分者信度1含义和计算评分者信度（scorerreliability）是指多个评分者给同一批人的答卷进行评分的一致性程度。2人时：相关系数多人时：肯德尔和谐系数W=12Ri2-（Ri）2/N/K2（N3-N）（评分者人数K=320；被评者人数N=37时，查W表检验）RI为第i个被试被评的水平等级之和若N7，用2检验。2=K（N-1）W，df=N-1若评分中有相同等级时，需校正：W=12Ri2-（Ri）2/N/K2（N2-N）-K（n3-n）/12信度误差变异来源重测信度时间取样复本信度（连续施测）内容取样复本信度（间隔施测）时间与内容取样分半信度内容取样同质性信度内容取样和内容的异质性评分者信度评分者间的差异各种信度系数相应误差变异的来源第三节提高测量信度的方法一、影响测量信度的主要因素（一）被试方面被试团体同质性越高（个体差异越小），所得相关系数（信度）就越低。被试团体异质性越高（个体差异越大），所得相关系数（信度）就越高。（二）主试方面指导语、态度、期望、评分主观等（三）施测情境（四）测量工具测验长度：测验越长，信度越高。测验难度：过难或过易都会使个体间得分差异减小，降低信度。测验内容：试题取样不当，内部一致性低，题意模糊，信度则低。（五）两次施测的间隔时间间隔时间越短，信度越高；间隔时间越长，信度越低。二、提高测量信度的常用方法1.适当增加测验的长度2.使测验中所有试题的难度接近正态分布，并控制在中等水平3.努力提高测验试题的区分度4.选取恰当的被试团体，提高测验在各同质性较强的亚团体上的信度5.主试者严格执行施测规程，评分者严格按照标准给分，施测场地按测验手册的要求进行布置，减少无关因素的干扰第四节信度的特殊问题一、速度测验的信度问题因为速度测验的题目难度都很低，所以不能用奇偶分半求分半信度；可以将测验分两半来施测。因为几乎不可能把题目做完，所以同质性信度不适用。可以用重测信度和复本信度。二、标准参照测验的信度问题总体越同质，相关系数越低。所以，用通常的方法来算标准参照测验的信度是不适当的。可以用复本，通过人数的百分比差别越小，信度越高。三、分测验的信度除整个测验的信度外，各个分测验也应有信度，否则，从分测验得分来做推论就会出问题。四、差异的信度比较两门课成绩的差异，若两门课的信度都不可靠时，二者的差别更不可靠。五、行为改变（变迁）的测量行为改变：要求测验对分数的差异越敏感越好信度：二者的矛盾难以调和q信度好坏的判断标准标准化能力或学绩测验：0.90人格测验：0.80教师自编学绩测验：0.60q测验使用时的信度标准一般来说，当信度0.70，测验不能用于对个人作出评价与预测，而且不能作团体间比较；当0.70信度2.087961.5712891.0617770.5520600417400.5312231.027111.5144 2.04 离差智商(deviationIQ)IQ=100+15Z5 CEEB分数（CollegeEntranceExaminationBoard）美国大学入学考试委员会分数CEEB分数=500+100Z6 EPT分数EPT分数=90+20Zq 标准分数变式的评价优点：转换成等距量表，使进一步统计分析成为可能。都可以转换成百分等级，使得不同分数之间可以进行比较。缺点：外行难以理解；如果非正态分布，不同变式的分数之间无法比较与求和。q、几种导出分数间的相互关系三、呈现常模资料的方法（一）转化表转化表的3个基本要素：原始分、导出分、常模团体的特征描述。1简单转化表2复杂转化表（二）剖析图（三）常态百分位图表分数以百分等级来表示，而分数轴的距离以标准分数为单位。把百分等级与标准分结合起来使用，具有双重优点。语文推理 27 70 *数字能力 23 70*语文+数字50 70 *抽象推理 40 85 *文书速度与正确29 15 *机械推理 45 45*空间关系 30 65*拼写62 60*语言应用 26 55*原始百分百分位分数位15102025304050607075809095991510202530405060707580909599百分位常态百分位图表示例第二节标准参照的分数解释一、内容参照分数（contentreferencedsocre）内容参照又叫范围参照，是看被试对指定范围中的内容和技能掌握得如何。1 掌握分数（masteryscore）要想知道被试对一些基本的知识和技能是否掌握，需要制定一个最低的掌握标准，这个标准就是掌握分数。如果一个人达到了这个分数，就说明他已经掌握了这种知识和技能。一般以80%90%的正确回答作为最低标准。掌握测验只分掌握（通过）和未掌握（未通过），没有具体的得分。2 正确百分数如果需要了解被试对知识和技能的掌握程度，就需要报告被试在测验中的正确百分数。正确百分数=100（答对题目数/总题目数）3 等级评定量表有些知识和技能是无法通过回答问题来确定其水平，需要主试对被试的知识或技能进行等级评定。如书法、绘画、体育等。二、结果参照分数(outcomereferencedscore)也叫效标参照分数，即用效标行为的水准来表示的分数，用来对被试未来行为的预测。1 期望结果的概率通过原始分或标准分来推测将来成功或失败的概率。期望表期望图原始分数效标行为等级HGFEDCBA757910010067707410010082366569100945033116064100854822455591008863314505410094834512545491008761245404410096724020435391008546153034100期望表0102030405060708090100用测验选拔飞行员的淘汰率（期望图）标准九人数失败百分比9214748%81944417%73212925%63939835%53497548%42369956%31120967%2213977%190486%2 预期的效标分数回归方程：GPA=0.11ACT-0.35ACT合成分数预期的GPA323.17313.06302.95292.84282.73272.62262.51252.40242.29232.18222.07211.96201.85第三节被试测验分数的具体解释q测验分数解释的类型：描述的解释溯因的解释预测的解释评价的解释q 分数解释的基本原则1.主试应充分了解测验的性质与功能。2.对导致测验结果的原因（遗传、经验、测验情景）的解释要慎重，谨防片面极端。3.必须充分估计测验的常模和效度的局限性。4.解释分数应参考其它有关资料（受教育经历、文化背景、面谈内容、习惯、态度、兴趣、动机、健康、言语能力以及其他测验资料）。5.对测验分数应以“一段分数”来解释，而不应以“特定的数值”来解释。6.对来自不同测验的分数不能直接加以比较。q 如何向受测者报告测验分数1.使用当事人所理解的语言。2.要保证当事人知道这个测验测量或预测什么，但并不需要作详细的技术性解释。3.如果分数是以常模为参照的，就要使当事人知道他是和什么团体在进行比较。4.要使当事人认识到分数只是一个估计。5.要使当事人知道如何运用他的分数。6.要考虑测验分数将给受测者带来什么影响。7.测验结果应向无关的人员保密。8.对低分者的解释应谨慎小心。9.报告测验分数时应设法了解当事人的心理感受，并采取适当的措施加以引导。第八章学绩测验第一节学绩测验概述一、学绩测验的性质最高作为测验最高作为测验可以分为：学绩测验、能力测验、能力倾向测验。学绩，指经过一定的教学或训练后所学到的东西，是在一个比较明确的、相对限定的范围内的学习结果。能力倾向指学习的能力，是在给予适当的机会时获得某种知识或技能的能力。能力介于学绩和能力倾向之间，指的是当前的知识或技能的水平，既有正式学习的，也有非正式学习的结果，既包括学术技能，又包括非学术技能。学绩测验用来描述现状，指明一个人已经学会了什么和能做什么。二、学绩测验的基本假设1学绩测验所测量的知识和技术的范围能明确界定。2测验所测量的是研究者认为重要的东西，而不是与测量目的无关的东西。3被试有同样的机会学习测验所包含的材料。三、学绩测验的分类（一）按测验的编制方法分教师自编课堂测验，标准化学绩测验（二）按测验内容分单科测验，多科测验单元测验，总测验（三）按测验的用途分考察性测验，诊断性测验，准备性测验，选拔与安置测验，职业水平测验，用于研究的测验（四）按测验评分的参照系分常模参照性测验，目标参照性测验（五）按测验的题型分客观测验，论文式测验四、学绩测验的应用1反馈功能2诊断功能3辅助教学管理4研究工具5人才选拔与安置第二节标准化学绩测验一、标准化学绩测验的基本要求1命题组卷标准化测验目标，试题的措辞、难度、区分度，题型比例、题量2施测标准化环境、时间、指导语、主试3评分标准化标准答案、评分细则、评分者人数4测验分数解释标准化是常模参照还是目标参照二、标准化学绩测验的编制由学科专家与测验编制专家共同完成，其步骤与一般心理测验的编制程序相同。（一）确定测验目的，选定测验编制的方法考察还是诊断，常模参照还是目标参照（二）分析测量目标，拟订测验编制计划双向细目表，题型，题量（三）编题征题与选题组卷编题征题试测组卷（四）调查测验质量参数，编制测验常模难度、区分度、信度、效度、常模（五）编写测验指导书，正式出版发行三、国外常用标准化学绩测验简介（一）斯坦福成就测验综合性学绩测验适用范围：19年级内容：词汇、阅读理解、拼字、听理解、词汇学习技能、语言、数学概念、数学计算、数学应用、社会科学常识、自然科学常识斯坦福早期学校成就测验（适用于幼儿园和小学一年级）斯坦福学业技能测验（适用于812年级）导出分数：百分等级、标准九、年级当量、量表分数、正态曲线当量分测验信度均在0.80以上。（二）关键数学算术诊断测验适用范围：学前儿童小学六年级q测验内容：内容块：数学、分数、几何、符号运算块：加法、减法、乘法、除法、心算、数字推理应用块：文字题、补充、金钱、测量、时间q诊断：总体水平诊断分块水平诊断分测验水平诊断项目水平诊断四、标准化学绩测验的题库建设一个高质量的题库应具有的性质：有一种科学的测量理论；贮备一定数量的试题，所有试题品质优良，技术参数完备；题库内部结构层次清楚、分类严谨，试题检索方便；题库管理方便，可控性强，易于维护更新；保密性强。五、我国高考的标准化试验第三节教师自编课堂测验一、教师自编课堂测验的特点测验形式灵活多变，与测验目的完全一致测验内容与教材内容完全一致测验难度切合学生的实际水平测验编制简易快速二、教师自编课堂测验的步骤与方法审查测验目的制定测验编制计划命题与组卷三、教师自编课堂测验应注意的问题教师要深入研究教材，深入研究学生要维护准确稳定的合格标准要客观评价自己的命题技术，合理使用各种题型要注意总结命题经验，提高命题技术要尽量控制评分误差，防止简单粗糙要做一些定量分析研究第九章能力测验（上）第一节智力测验的理论基础（一）什么是智力？Spearman（1904，1923）：智力是一种普遍的能力，它主要涉及联系的引出（eduction）和相关的引出。Binet&Simon（1905）：智力是正确进行理解、判断和推理的能力。Terman（1916）：智力是形成概念，并且抓住其重要性的能力。Thorndike（1921）：智力是从真理或事实角度产生良好反应的能力。Thurstone（1921）：智力是抑制本能反应，灵活地想象不同反应，并且把修改后的本能反应转换为外显行为的能力。Wechsler（1939）：智力是个体有目的地行动，理性地思考以及有效地应付环境的总体能力。Piaget（1972）：智力是总括性的术语，指用来适应物理和社会环境的认知结构的组织和平衡的高级形式。Sternberg（1985）：智力是指自动信息加工和产生适合于新情况的行为的心理能量，它包括元成分、操作成分和知识获得成分。Eysenck（1986）：智力是将信息无错地传递过皮层的能力。Gardner（1986）：智力是解决问题，制造在某些文化范围内有价值的产品的能力或技术。共同点：w智力是适应环境的能力w智力是通过经验进行学习的能力智力是人们在获得知识和运用知识解决实际问题时所必须具备的心理条件或特征。Boring(1923):智力就是智力测验所测量的东西。Sternberg等（1981）的研究专家认为：语词能力、问题解决能力语词能力、问题解决能力和实际智能最重要外行认为：实际问题解决能力、语词能力实际问题解决能力、语词能力和社会能力最重要（二）智力的理论Galton和感觉敏锐度1二因素论Spearman的一般因素（G）和特殊因素（S）2多因素论Thurstone的群因素（语文理解、言语流畅性、推理、空间想象、数字、记忆、知觉速度）内容视觉听觉符号语义行为3.Guilford的智力结构模型（内容操作结果=150）产品单元类别关系体系转换蕴涵评价聚合思维发散思维记忆认知操作4.智力层次理论VernonG因素言语和教育操作和机械数学语文空间知觉机械能力5.二维结构模型希莱辛格和古特曼（1966）第一维：言语能力、数学能力、图形和空间能力第二维：规则应用能力、规则归类的能力、学术成就6Cattell的流体智力与晶体智力7.Gardner的多元智力理论言语、逻辑-数学、空间、音乐、身体运动、社交、自知8智力的生物学理论（反应时）作出反应9智力的认知心理学理论Sternberg智力成分：元成分、操作成分、知识获得成分智力情境：适应环境、塑造环境、选择新环境智力经验：处理新任务、自动化加工10其他：情绪智力（EQ）、成功智力、实践性智力（practicalintelligence）第二节个体智力测验一、比内量表（一）比内-西蒙量表11905年量表世界上第一个智力量表；内容：30道题（记忆、言语、理解、手工操作）。题目排列方式：从易到难。指标：通过项目数。如白痴最多只能通过6项，低能的成人可通过715项。1.眼睛是否随动的物体移动。2.用触觉刺激唤起抓握反应。3.用视觉刺激唤起抓握反应。4.辨认食物。5.搜寻食物。6.执行简单的命令和模仿简单的手势。7.认识物体。8.认识图片。9.列举图片中的人物和物体。10.比较两条线的长短。11.复述两个数字。12.比较两个重量。13.暗示。14.解说物体与人物的名称。15.复述句子。16.说出二物的不同点。17.记忆图片中的物体。18.靠记忆重画图片。19.复述数字。20.说出二物的相同点。21.比较线的长短。22.比较重量。23.重量记忆。24.说出同韵字。25.填词。26.用三个词造句。27.对答问句。28.交换长短针的位置。29.剪纸。30.抽象名词的定义。21908年量表内容：增至59道题。方式：把测验项目按年龄分组。每一岁一组。每个年龄组项目数量不等，最多8项，最少3项。年龄范围：313岁。指标：智力年龄。例：一个4岁儿童心理年龄的计算年龄水平通过的测验数目每项测验得到的月数全部得分年月3岁6（起始年龄）3 3岁半51 54岁31 34岁半21 25岁21 26岁12 27岁0（最高年龄）2 0总分 3 14心理年龄（MA）：4岁2个月31911年量表题目：删旧补新，但总数仍为59题。增设一个成年组。除4岁组仅有4个项目外，其他每个年龄组一律为5项，便于计算。q 对比内-西蒙量表的评价成就：（1）比西量表是第一个采用复杂任务来测量高级心理过程的测验。以前的测验主要测量感知觉、运动等低级心理过程。（2）比西量表首次采用年龄作为智力的标准，这样可以对测验作出通俗易懂的解释。（3）比西量表首次从整体上测量智力，也就是测量智力的普通因素，而以往心理学家把感觉辨别力、记忆力、注意力等割裂开来测量。不足：（1）施测和记分没有标准化。（2）常模团体的代表性不够，因而有些项目的安排位置不当。（3）测验项目过少。（二）斯坦福-比内量表1斯坦福-比内量表的发展（1）1916年量表在修改基础上增设39个新项目，达到90个项目。最早对施测和记分提供了详细的指导语。引入了智力商数的概念（比率智商）。适用年龄：313岁。样本：1000名儿童和400名成人。（2）1937年量表由 L 和 M 两个等值型量表构成年龄范围扩大：1.518岁样本：3184名1.518岁儿童，但仅限城市白人（3）1960年量表合并了L和M两型中最好的项目，改为单一量表。年龄：2成人离差智商 4498名1.518岁儿童（1937年量表的施测对象）。（4）1972年量表测验内容未变；取样范围扩大（地区、社会阶层、经济状况、民族）。共2100名被试，其中25.5岁每半岁选100名，618岁每一岁选100名。2斯比量表的信度和效度（1）信度复本信度：L和M相关在0.830.95之间。再测信度：高于0.90。（2）效度内容效度：测验内容属于公认的智力范畴。效标关联效度：与学业成绩、受教育年限的相关在0.40.75之间。结构效度：假设智力发展随年龄增长，先快后慢（证据：随年龄增长，再测稳定性逐步提高）；存在G因素（证据：各项目与测验总分的平均相关为0.66）（三）中国比内测验陆志伟和吴天敏1924年、1936年、1982年三次修订内容：51题指标：离差智商年龄范围：2岁18岁生活常识知觉速度及观察力空间知觉力和想象力记忆力语言能力判断推理能力二、韦克斯勒（Wechsler）智力测验生平：1896年出生于罗马尼亚，6岁迁居美国。一战期间从事心理测验工作，用陆军甲、乙种测验、斯比量表来甄选新兵，积累了丰富的经验。1919年去伦敦大学，师从Spearman和Pearson，接受G因素理论。19201922年在巴黎与西蒙有过接触。1925年，在哥伦比亚大学获博士学位，论文情绪反应的测量。19321967年，任纽约贝尔韦精神病院的主任心理学家。二、韦克斯勒（Wechsler）智力测验编制背景：寻找一种测量成人智力的有效方式当时的智力测验存在下列问题：测验项目引不起成人的兴趣；过多的项目涉及语词的操作；指导语过分强调速度，牺牲了准确性；计算心理年龄，不适合成人测验要求。测验者的实际测验分数IQ=这一年龄测验者的平均测验分数韦氏智力测验家族：1939年，韦克斯勒-贝利弗测验1946年，韦克斯勒-贝利弗测验1949年，韦克斯勒儿童智力量表（WISC）1955年，韦克斯勒成人智力量表（WAIS）1967年，韦克斯勒学前和小学儿童智力量表（WPPSI）1974年，韦克斯勒儿童智力量表修订版（WISC-R）1981年，韦克斯勒成人智力量表修订版（WAIS-R）1989年，韦克斯勒学前和小学儿童智力量表（WPPS

展开阅读全文

心理测量

最新文档