心理测量学笔记——备考北师大.doc

资源描述

心理测量学第一章心理测量的理论基础第一节心理测量的理论基础1. 心理测量的基本概念（1）心理测量的定义依据一定的法则，用数字对人的行为加以确定。测量就是依据一定的法则，使用工具对事物的特征进行定量描述的过程。（2）测量的基本要素参照点：在测量工作中，必须有一个量的起点，这个起点就叫做测量的参照点。两种：绝对参照点，即以绝对的零点作为测量的参照点。划分“有无”的界限。相对参照点，即以认为确定的零点为测量的起点。人为主观规定的标准。注：心理测量一般为相对零点；物理测量一般为绝对零点。物理测量也有相对零点的情况，如温度、时间、海拔等。单位：应具备两个条件：有确定的意义；有相等的价值。（一般以标准差为单位）（3）测量的量表命名量表：最低水平的测量量表，只是用数字代表事物或用数字对事物进行分类。名称量表：用数字指代个别事物。类别量表：用数字指代事物的种类。统计方法：百分比、次数、众数、X2检验。顺序量表：次低水平的测量量表，不仅能够指代事物类别，而且能够表明不同事物类别的大小、等级或事物具有某种特征的程度。既没有相等的单位，也没有绝对的零点。不能进行代数运算。心理测量量表一般是在顺序量表上进行的。统计方法：中位数、百分位数、等级相关系数、肯德尔和谐系数。等距量表：较高水平的测量量表，不仅能够指代事物的类别、等级，而且具有相等的单位，可以进行加减运算。没有绝对的零点，是假定的相对零点。统计方法：平均数、标准差、积差相关系数、t检验、f检验。比率量表：最高水平的测量量表，不仅可以知道测量对象之间的相差程度，而且可以知道它们之间的比例。除了具有类别、等级、等距的特征外，还具有绝对的零点，可以进行加减乘除运算。统计方法：平均数、标准差、积差相关系数、t检验、f检验、几何平均数、变异系数。2. 心理测量的特征与分类（1）心理测量的特征间接性：只能通过一个人对测验项目的反应来推论出他的心理特质。相对性：测量就是看每个人处在这个序列的什么位置上，由此测得一个人智力的高低、兴趣的大小等，都是与所在团体的大多数人的行为或某种人为确定的标准相比较而言的。客观性：是对一切测量的基本要求，实际上就是测量的标准化问题。（2）心理测验的分类按功能（测量对象）分：能力测验、成就测验（学绩测验）、人格测验按对象分：个别测验、团体测验按形式分：纸笔测验、操作测验、口头测验、电脑测验按目的分：描述性测验（调查性测验）、诊断性测验、预示性测验按要求分：最高作为测验、典型作为测验按速度和难度分：速度测验、难度测验按性质分：构造性测验、投射性测验按解释分：常模参照测验、标准参照测验按应用分：教育测验、职业测验、临床测验补充：1）能力测验：能力可分为实际能力和潜在能力。实际能力指个人当前“所能为者”，代表个人已有的知识经验与技能。潜在能力指个人将来“可能为者”，是可能达到的水平。测量潜在能力的测验称为能力倾向测验。能力测验又可以分为普通能力测验（通常说的智力）和特殊能力测验（音乐、美术、体育等特殊方面）。2）纸笔测验（文字、图形材料）；操作测验（不宜团体实施）3）速度测验测反应速度；难度测验测最高能力。4）最高作为测验：有正确答案，分数越高越好；（能力测验、成就测验）典型作为测验：没有正确答案，通常的习惯方式；（人格测验）5）构造性测验：刺激和被试的任务是明确的投射性测验：刺激、问题模糊，被试任务不明确；能投射出更真实的结果3. 经典测量理论及其模型（1）心理特质：表现在一个人身上所特有的相对稳定的行为方式。特质是一组具有内部相关的行为的概括，具有一定的抽象性。特质是“一种一般的神经心理系统，可以综合不同刺激，使人对这些刺激做出相同反应”。特质是一个人身上比较稳定的特点。一个人的精神面貌是由多种特质分多个层次有机组合而成的。特质可以决定一个人对特定刺激的反应倾向，可以对人的行为进行预测。（2）经典测量理论（CTT）的模型观察分数：实测分数，记作X。真分数：反映被试某种心理特质真正水平的数值。操作定义：多次测量结果得到的平均数，记作T。（理论上构想出来的抽象概念）误差分数：这里只是指测量产生的随机误差，记作E。（E是个服从均值为0的正态分布的随机变量）X=T+E 这就是CTT的数学模型。（引申3个假设公理）观察分数的变异等于真分数的变异与误差分数的变异之和。（3）基本假设观察分数的平均值接近于真分数。即（X）=T或者（E）=0真分数与误差分数的相关为零。即（T，E）=0各平行测验的误差分数的相关为零。即（E1，E2）=0平行测验：如果两个题目不同的测验测的是同一特质，并且题目形式、数量、难度、区分度以及测查等值团体后所得分数的分布（均值和标准差）都是一致的，则这两个测验被称作是彼此平行的测验。第二节测量的信度与效度1. 测验的信度受随机误差的影响（1）信度一致性、稳定性信度是测量结果的可靠性，等于一组测量分数中真分数的变异与总变异之比。信度指的是测量结果的稳定性程度；若能用同一测量工具反复测量某人的同一种心理特质，则其多次测量结果间的一致性程度就叫信度。定义1：信度乃是一个被测团体的真分数的变异数与实得分数的变异数之比。定义2：信度乃是一个被试团体的真分数与实得分数的相关系数的平方。定义3：信度乃是一个测验X（A卷）与它的任意一个平行测验X（B卷）的相关系数。信度的作用：信度是测量过程中所存在的随机误差大小的反映。信度可以用来解释个人测验分数的意义。测量的标准误计算公式信度可以帮助进行不同测验分数的比较。（2）信度的估计方法重测信度：用同一个测验，对同一组被试前后两次施测，两次测验分数所得的相关系数为再测信度。皮尔逊积差相关系数注：重测信度具有跨时间上的稳定性。使用的前提条件：1）所测量的心理特性必须是稳定的。2）遗忘和练习的效果基本上相互抵消。（适度的时间间隔，几分钟、几小时甚至几年）3）在两次施测间隔期内，被试没有获得更多的学习和训练。复本信度：根据一组被试在两个平行（等值）测验上的得分计算的相关系数即为复本信度。皮尔逊积差相关系数注：1）同时连续施测等值性系数相距一段时间分两次施测稳定性与等值性系数（此种复本信度最小）2）稳定性与等值性系数是对信度最严格的检验，其值最低。3）为抵消顺序效应，可以一半被试A卷 B卷，另一半被试B卷 A卷使用的前提条件：1）要构造出两份或两份以上真正平行的测验（即A、B卷）。真正平行：复本测验之间必须在题目内容、数量、形式、难度、区分度、指导语、时限以及所用的例题、公式和测验等其他方面都相同或相似。2）被试要有条件接受两个测验。分半信度：按正常的程序实施测验，然后将全部项目分为相等的两半，根据个人在这两半测验的分数计算其相关系数。有时也被称作内部一致性系数。斯皮尔曼布朗公式等价：弗朗那根公式、卢仑公式注：一般使用奇偶分半法；相关系数需要校正。使用的前提条件：1）分半信度通常是在只能施测一次或没有复本的情况下使用。2）分半方法很多（如按题号的奇偶性分半、按题目的难度分半、按题目的内容分半等），同一个测验通常会有多个分半信度值。同质性信度：也称内部一致性系数，指的是测验内部所有题目间的一致性程度。*一致性：测的是同一种心理特质；所有题目得分之间都具有较高的正相关。*当一个测验具有较高的同质性信度时，说明测验主要测的是某一单个心理特质，实测结果就是该特质水平的反映；若同质性信度不高，说明测验结果可能是几种心理特质的综合反映。*测量单一特性是同质性高的必要而非充分条件，同质性高是测得单一特质的充分条件。库德理查逊信度系数克龙巴赫a系数1）KR20公式适用于（0、1）记分的测验【客观试题】2）KR21公式适用于（0、1）记分的测验【客观试题】3）克龙巴赫a系数适用于（0、1）记分的测验【客观试题】和【主观试题】*KR20、KR21只是a的特例4）荷伊特信度用方差分析的方法来计算信度评分者信度：随机抽取部分试卷，由两个或多个评分者独立按评分标准打分，然后求其间的相关。当评分者人数为2时积差相关系数、等级相关系数当评分者人数多于2时肯德尔和谐系数（3）信度的影响因素1、被试方面就单个被试而言，被试的身心健康状况、应试动机、注意力、耐心、求胜心、作答态度（猜测）等会影响测量误差。就被试团体而言，整个团体内部水平的离散程度以及团体的平均水平都会影响测量信度。2、主试者方面就施测者而言，若不按指导手册中的规定施测，或故意制造紧张气氛，或给以暗示、协助等，则测量信度会大大降低。就评分者而言，若评分标准掌握不一，或前紧后松，甚至随心所欲，则也会降低测量信度。3、施测情境方面考场是否安静、光线和通风情况是否良好、所需设备是否齐全、桌面是否合乎要求、空间阔窄是否恰当等都可能影响测量信度。4、测量工具方面测量工具是否性能稳定是测量工作成败的关键。一般的，试题的取样、试题之间的同质性程度、试题的难度等都是影响测验稳定性的主要因素。5、两次施测的间隔时间计算重测信度和稳定性与等值性系数时，两次测验相隔时间越短，其信度值越大；间隔时间越长，信度值就可能越小。斯皮尔曼布朗公式（计算测验项目数量变化对信度的影响）（4）信度的改进方法1）适当增加测验的长度。（测验越长信度越高）【新增项目必须与试卷中原有项目同质；新增项目的数量必须适度】2）使测验中所有试题的难度接近正态分布，并控制在中等水平。3）努力提高测验试题的区分度。4）选取恰当的被试团体，提高测验在各同质性较强的亚团体上的信度。5）主试者严格执行施测规程，评分者严格按标准给分，实测场地按测验手册的要求进行布置，减少无关因素的干扰。6）间隔时间要适当。2. 测验的效度受随机误差、系统误差的影响（1）效度的含义有效性、准确性效度是指一个测验或量表实际能测出其所要测的心理特质的程度，等于一组测量分数中与测量目的有关的变异与实得变异之比。注：1）效度是一个相对的概念（相对于测量目的而言；只能通过行为进行推测）。 2）效度是测量的随机误差和系统误差的综合反映。 3）判断测量是否有效要从多方面搜集证据。（2）效度的估计方法内容效度：指项目对欲测的内容或行为范围取样的适当程度。指一个测验实际测到的内容与所要测量的内容之间的吻合程度，它通常包括欲测的知识范围，以及该范围内各知识点所要求掌握的程度。【内容范围；题目代表性】注：内容效度应用于成就测验和职业测验；不适合用于能力倾向测验和人格测验。表面效度不能算是一种效度。内容效度的确定方法a专家判断法（逻辑分析法）题量适当、题目的代表性、题目覆盖范围广b复本法（统计分析方法）平行测验的复本信度c再测法前测、后测d经验法效标效度：考察测验分数与效标的关系，看测验对我们感兴趣的行为预测的如何。效标效度（效标关联效度）也叫实证效度，是指一个测验对处于特定情境中的个体的行为进行估计的有效性。也就是说，一个测验是否有效，应该以实践的效果来作为检验标准。*效标效度可以分为同时效度（用于诊断现状）预测效度（用于预测某个个体将来的行为）效标存在于测量之外；可以独立进行测量；能够量化。1）被估计的行为是检验测验效度的标准，简称为效标。效标就是衡量一个测验是否有效的外在标准，它是独立于测验并可以从实践中直接获得我们所感兴趣的行为（观念效标）。观念效标具有多样性、复杂性、特殊性和时间性。2）常用效标有学业成就、等级评定、临床诊断、专门的训练成绩、实际工作表现等。例如：考察“高考”的效度，用“大学学习成绩”作为效标。效标效度的确定方法a相关法计算测验分数与效标测量的相关系数【积差相关法、等级相关法、二列相关法、四分相关法】b区分法（分组法）能够把好坏两组人有效地区分开来差异越大，说明测验越有效思路：被试接受测验后，让他们工作一段时间，再根据工作成绩（效标测量）的好坏分为两组，回过来分析这两组被试原先接受测验的分数差异。c命中率用于选拔性测验，影响因素：录取率、基础率正命中率的比率越高，测验越有效总命中率：根据测验选出的人当中工作合格的人数，以及根据测验淘汰的人当中工作不合格的人数之和与总人数之比。正命中率：用测验选出的人中合格者所占的比例。d预期表法e功利率法构想效度：指测验对理论上的构想或特质的测量程度。又称结构效度，是指一个测验实际测到所要测量的理论结构和特质的程度，或者说它是指测验分数能够说明心理学理论的某种结构或特质的程度。构想或结构指心理学理论所涉及到的抽象而属假设性的概念或特质，如智力、焦虑、动机等。注：构想效度主要用于智力测验和人格测验。构想效度的确定方法a测验内法（测验内部寻找证据法）确定测验的内容效度内容效度高实质上也就说明结构效度高分析被试对项目做反应的答题过程考察测验的同质性信度测验同质只是必要条件b测验间法（测验之间寻找证据法）相容效度考察新编测验与某个已知的能有效测量相同特质的旧测验间的相关区分效度考察新编测验与某个已知的能有效测量不同特质的旧测验间的相关因素效度（因素分析）对一组测验进行因素分析，找出影响测验的共同因素补充：1）相容效度与区分效度必要非充分条件相容效度：和测量相同特质的旧测验有高相关区分效度：和测量不同特质的旧测验有低相关2）因素分析：每个测验在共同因素上的负荷量（即测验与各因素的相关）就是测验的因素效度。c效标关联法（实证效度法）两种：根据效标把人分成两类，考察其得分的差异根据测验得分把人分成高分组、低分组，考察两组人在所测特质方面是否确有差异。d多种特质多种方法矩阵法相容效度和区分效度的综合运用原理：用多种极不相同的方法测量同一种特质相关很高（用极为相似的方法测量不同特质相关很低），说明测量效度较高。e实验操作法（3）效度的影响因素【只要影响信度就一定影响效度】测验本身：项目质量；项目数量测验的实施被试：身心状态；样本特点主试因素所用效标*凡是与测量目的无关的、稳定的和不稳定的变异来源都会影响测量的效度。测验的构成当试题样本没有较好的代表欲测内容或结构时，或题目语意不清、指导语不明、题目太难或太易、题目太少或安排不当时，都会降低测量效度。&测验长度与效度的公式测验的实施过程在测验实施过程中，如不遵从指导语的要求，或出现意外干扰，或评分、计分出现差错等，都会降低测量效度。接受测验的被试就单个被试而言，被试的应试动机、情绪、态度、身体状态等，都会造成较大的随机误差，进而影响测量效度。就被试团体而言，如果缺乏必要的同质性（年龄、性别、文化程度、职业等），则很可能会得到不恰当的效度资料。所选效标的性质由于同一个测验可以有不同的效标，同一个观念效标也可以有不同的效标测量，因此在评价测量效度时，所选效标的性质是很重要的考虑因素。【在考虑效标与分数的相关时，必须注意：测验分数与效标之间是否符合线性关系】测量的信度（4）效度的改进方法通过标准化全面减少各种测量误差。精心编制测验量表，避免出现较大的系统误差。妥善组织测验，控制随机误差。创设标准的应试情境，让每个被试都能发挥正常的水平。选好正确的效标，定好恰当的效标测量，正确地使用有关公式。（5）信度与效度的关系信度高是效度高的必要非充分条件。一个测验效度高，其信度也必然高；但一个测验信度高，其效度不一定高。测验的效度受它的信度制约。效度等于测验信度系数与效标信度系数乘积的开方。统计推导公式第三节心理测量的误差1. 误差的种类与控制（1）随机误差的来源及控制：测验本身、施测情境、主试因素、被试因素（2）系统误差的来源及控制：测验本身、主试因素、被试因素控制：标准化施测、严格控制测验条件、取样要有代表性2. 测量误差的估计测量的标准误差异的标准误*误差分数分布的标准差称为标准误。1）测量误差的定义测量误差是指在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应。它的含义包括：测量误差是由那些与测量目的无关的变因所致；测量误差表现为不准确或不一致两种方式。心理测量的误差可分为两类：随机误差和系统误差。随机误差是由与测量目的无关的、偶然因素引起的，而又不易控制的误差。它使多次测量产生不一致的结果，其方向和大小的变化完全是随机的，只符合某种统计学规律。系统误差是由与测量目的无关的变因引起的一种恒定而有规律的效应。这种误差稳定的存在于每一次测量中，尽管多次测量结果非常一致，但实测结果仍与真实数字有所差异。系统误差：按规律变动，成比例恒定误差：固定数值不变*系统误差只影响准确性，不影响稳定性；随机误差既影响稳定性又影响准确性。2）测量误差的来源及控制心理测量的误差主要来自三个方面，即测量工具、测量对象和施测过程。在测量工具方面，心理测量与物理测量有所不同。心理测量工具通常是以一套测验（问卷）为核心的刺激反应系统（通常称作量表）。当量表在测查人的某种心理特质时，若项目所测的东西与我们欲测的目的之间出现偏差，则测量会出现误差。测量工具信度不好、效度不高是造成误差的两种主要原因。在测量对象方面，造成测量误差的主要原因是受测者真正水平是否得到正常发挥。一般的，受测者的某种心理特质水平是相对稳定的，但是他在接受测量时的生理和心理状态会影响其水平的正常发挥。此外，受测者应试动机的强弱、受训时间的长短、受训内容的多少、答题反应的快慢等都会产生测量误差。在施测过程方面，产生测量误差的原因主要是一些偶然因素，包括施测物理环境，主试的某些属性，评分记分环节出现的疏漏，以及意外干扰等。知道了误差的来源，就可以根据来源的不同，采取针对性的措施减少误差。3）测量误差的估计经典测量理论假定：X=T+E，X为实得分数或观测分数，T为假设的真分数（一种测量工具在测量没有误差时得到的纯正值，其操作定义是：无数次测量所得结果的平均值），E为测量误差。其他关于误差的假设：如果对一个人测量无数次，其误差之和为0，平均误差为0，即E=0。误差与真分数相互独立；其中的误差是指随机误差，只与偶然因素有关，而与真分数大小无关，即真分数与误差分数的相关系数为0。一个团体的平均真分数T等于该团体中所有被试实得分数的平均值X。在一个团体中，由于每个人的误差都是随机的且方向不同，只要团体足够大，其误差就会相互抵消。因此，其误差和为0。真分数的变异可以分为两部分：与测验目的有关的变异（有效的变异数）和与测验目的无关的变异（无效的变异数），公式为。则总体的关系式为。第四节测验的项目分析要求：心理测验的项目分析难度；区分度；项目的综合分析和筛选（讲义p249）。项目分析包括定性分析及定量分析。定性分析包括考虑内容效度、题目编写的恰当性和有效性等，重点在于分析测题的内容和形式；定量分析主要是采用统计方法来分析试题的品质。1.难度（1）难度的含义难度是指测验项目的难易程度。（2）难度的计算二分法记分项目的难度（客观题）通过率法：主要利用项目的通过率作为衡量难度的指标，即以答对或通过该项目的人数的百分比P来表示。P值越大，题目越容易。极端分组法：当被试的人数较多时，可以先将被试分为三组，取最高的27%被试和最低的27%被试作为高分组和低分组，并分别计算通过率，最后求两个通过率的平均值作为该项目的难度。非二分法记分项目的难度（主观题）计算公式*在对两个非二分法记分的项目进行难度比较时，要对它们分别进行校正，排除由于猜测而答对某些题目致使通过率增大的可能性。校正公式为（3）难度水平的确定项目难度水平的确定取决于测验的目的和性质。对于效标参照测验和掌握测验，可不考虑难度。对于选拔测验，应将测验的项目难度控制在录取率左右。对于选择题，难度应该大于猜测概率。无论何种测验，一般都应防止被试得满分，因为满分的意义是不明确的。（4）难度的等距变换（教材p75）以项目的通过率来表示项目的难度，这类难度指标属于顺序变量，不具有相等的单位，所指出的仅仅是项目的相对难度。于是需要把顺序量表转换成等距量表（仅有名次不能计算，必须要有具体测验分数才可以）。当样本容量很大时，测验分数将接近正态分布。根据正态分布曲线表，将试题的难度P作为正态曲线下的面积，转换成具有相等单位的等距量数，即Z分数。标准分数（Z分数）具有相等的单位，属于等距量表。较难的项目难度为正值，较易的项目难度为负值，P为0.5时难度为0。（5）难度对测验的影响项目难度普遍较大的测验，分数分布将呈现为正偏态；项目难度普遍较小的测验，分数分布将呈现为负偏态。一般能力测验和成就测验的平均难度在0.5左右为宜，正偏态分布适合于筛选性测验。过难或过易的测验会使测验分数相对的集中在低分端或高分端，从而使分数的全距缩小。项目的难度以集中在0.5左右为最佳，以集中在两端最差。2.区分度（1）区分度的含义区分度是指测验项目对被试心理品质水平差异的区分能力或鉴别能力。区分度被用作评价项目质量，筛选项目的主要指标和依据。具有良好区分度的项目，能将不同水平的被试区分开来。即在该项目上水平高的被试得高分，水平低的被试得低分。把试题的区分度称为测验是否具有效度的“指示器”。区分度（D）的取值范围介于-1.00至+1.00之间。通常D为正值，称作积极区分；D为负值，称作消极区分；D为0称作无区分作用。具有积极区分作用的项目，其D值越大，区分的效果越好。*评价测验项目区分度高低依赖于对被试水平的准确测量，通常称作为效标分数。测验项目区分度的效标分数多用测验总分，称为内部效标。（2）区分度的计算项目鉴别指数法二分法记分当效标成绩是连续变量时，可以从分数的两端各选择27%的被试，分别计算出每道题目上各自的通过率，二者之差便是鉴别指数（D）。D值越高项目越有效。计算公式为。当D=1.00时，高分组被试全部通过，低分组被试全部失败；如果低分组被试全部通过，高分组被试全部失败，则D=-1.00；如果两组的通过率相等，则D=0。项目鉴别指数法只利用了一部分信息，浪费了很多信息，统计结果准确性差一些。而且当项目与效标之间并非为直线关系时，甚至会得出错误的结论。相关法大规模或标准化测验以项目分数与效标分数或测验总分的相关作为项目区分度的指标。相关越高，项目区分度越高。a.点二列相关项目是（0，1）记分或二分变量，效标或测验总分是连续变量b.二列相关连续的测量变量，其中一个变量被人为分成两类c.相关两个变量是二点分配，即两个变量都是二分名义变量d.积差相关论文式测验题目，得分具有连续性（被试团体较大时，可以认为项目分数服从正态分布）方差法被试在某一项目上的得分越分散，则该试题鉴别力越大。（3）区分度的相对性不同计算方法，所得区分值不同。一个测验的各项目要采用同一种区分度指标。样本容量大小影响相关法区分度值的大小。样本容量越小，其统计值越不可靠。分组标准影响鉴别指数。分组越极端，其D值越大。被试样本的同质性程度影响区分度值的大小。被试团体越同质，即个体之间水平越接近，其测题的区分度值越小。（4）区分度与难度的关系测验项目的难度对测验项目的鉴别力有一定的影响，难度与区分度有着密切的联系。难度越接近0.5时，项目潜在的区分度越大，而难度越接近1.00或0时，项目潜在的区分度越小。为了使项目具有较高区分能力，应使所有项目都保持在0.5的难度最为理想。在利用项目分析选择试题时，应使项目的难度分布广一些，梯度大一些，使整个测验的难度分布呈正态分布，且平均水平保持在0.5左右。这样才能把各种水平的人都区分开来，并且分的比较细。*难度既影响信度又影响效度；难度影响区分度。3.选项分析选项分析就是对选择题后面提供的几个答案的分析。主要的异常情况有：正确答案无人选择，或少于其他选项的人数；错误答案选的人太多；正确选项上的高分组选择人数少于低分组；错误选项上的高分组选择人数多于低分组；某个选项无人选择；未答的人数较多。*标准：正确选项准确唯一；错误选项具有干扰性、迷惑性。第五节心理测验的编制1. 测验编制的基本程序（1）确定测验目的（2）制定编题计划（3）编写测验题目（4）题目试测与分析（5）合成测验及复本（6）测验使用标准化（7）信度与效度分析（8）编写测验说明书一、确定测验目的1.明确测量对象测量哪些个人或团体2.明确测量目标测量什么心理功能 *目标具体化3.明确测量用途描述？诊断？选拔？验证？二、制定编题计划要明确的信息：一是全面而具代表性的测验内容，不致使测题偏离了应测的范围；二是对各个内容点的相对重视程度，通常用百分比来标明。用途：指明编题方向；确定记分标准。三、编写测验题目1.收集测验资料原则：1）资料要丰富；【临床观察的资料、已有的测题】2）资料要有普遍性；3）资料要有趣味性。 2.选择项目形式原则：1）使受测者容易明了测验方法2）使受测者在完成测验时不会因测验项目的形式不当而做错。3）测验过程省时4）计分省时省力5）经济 3.编写测验项目注意：1）测验项目的取样对欲测心理品质具有代表性； 2）测验项目的取材范围要同编题计划所列项目范围相一致； 3）测验项目的难度应有一定的分布范围； 4）用语要力求精炼简短，浅显明了 5）初编题目的数量要多于最终所需要的数量，以便筛选或编制复本； 6）测验项目的说明必须简明。四、题目试测与分析1.预测目的：获得被试对测验项目做何反应的资料，包括质的信息与量的指标。质：题目思想性、逻辑错误、印刷、装订量：难度、区分度、项目分析注意：1）预测对象应取自将来正式测验时准备施用的群体，人数不必太多，但要具有代表性； 2）预测的情境应力求同正式测验的情境一致； 3）预测的时限可以适当延长，以便每一个受测者都能将题目做完； 4）施测者应对受测者的反应加以记录。2. 项目分析对预测结果进行统计分析，确定项目的难度和区分度。五、合成测验及复本合成测验就是把经过预测以后证明有价值的项目排成有组织的测验。1. 测验项目的选择指标（3个）：测验的性质；项目的难度；项目的区分度2. 测验项目的编排总的编排原则：由易到难两种常见编排方式：1）并列直进式：依其难度由易到难排列。2）混合螺旋式：依难度分成若干不同的层次，再将不同性质的测验项目予以组合，作交叉式的排列，其难度则渐次升进。3.编制复本（A、B卷等值性）等值需要符合的条件：1）各份测验测量的是同一种心理特质；2）各份测验具有相同的内容和形式；3）各份测验不应有重复的项目；4）各份测验项目数量相等，并且有大体相同的难度和区分度。*ABBA的顺序平衡难度六、测验使用标准化标准化是指测验的编制、施测、评分以及解释测验分数的程度的一致性。1. 测验内容：相同的或等值的题目2. 施测过程：相同的测验情境；相同的指导语；相同的测验时限3. 测验评分：1）对反应要及时清楚的记录； 2）要有标准答案或正确反应的表格，即记分键； 3）将受测者的反应与记分键比较，确定受测者反应应得的分数。4. 测验分数的解释七、鉴定测验（信度与效度分析）1.信度测验的可靠性；即用同一测验多次测量同一团体，所得测验结果之间具有一致性。2.效度测验的有效性；即一个测验在多大程度上能够测得所要测得的东西。3.测验量表与常模按照统计学的原理，把某一标准化样本的测验分数转化为具有一定参照点、等值单位的导出分数，这就是所谓的测量量表。常见：百分等级量表、标准分数量表、T量表、发展量表、智力商数量表等。如果将标准化样本的测验分数与相应的某一个或某几个测验量表分数一起用表格的形式呈现出来，就是该测验的常模表。八、编写测验说明书1）本测验的目的与功用；2）本测验的理论依据；3）测验内容及实施测验的方法；4）测验的标准答案和评分方法；5）关于测验的信度、效度资料的说明；6）常模表，即如何依据常模解释测验结果。2.测验目标与双向细目表（讲义p250）3.题目编制技术（讲义p250-p251）第六节心理测验的实施测验的使用主要涉及两个问题：1）如何实施测验才能保证测验分数尽可能少受施测过程的影响；2）如何解释测验分数才能保证受测者的心理不受负面影响。一、测验的实施过程通过观测受测者在测验情境中的行为样本，可以推断他平日一般的行为特征。1. 施测前的准备工作（1）准备好测验材料（2）熟练掌握施测手续训练的内容包括：熟悉测验内容；掌握施测步骤；掌握记分方法；掌握解释分数的技术。（3）熟记测验指导语并能用口语清楚而流利地说出来。2. 指导语指导语通常包括对测验目的的说明和对题目反应方式的解释。注意：一般要求测验的主持者和指导语都应保持和表述中立的态度，不倾向于答案中的任何一种方向。*一般的能力测验和成就测验都要求有标准严格的时间限制；而人格测验和态度测验一般不要求有时间限制。3. 测验情境包括测验场地（通风、光线、噪声）、座位、答案纸型等。4. 测验焦虑测验焦虑是指被试因接受测验而产生的一种忧虑和紧张情绪，它会影响测验结果的真实性。主试有时可以利用保证测验结果绝对保密或鼓励被试等方法来消除测验焦虑。5. 与受测者建立良好的协调关系良好的协调关系指的是施测者设法努力引起受测者对测验的兴趣，取得他的合作，以保证他能按照标准测验指导语行事。6. 评分技术二、测验分数的解释主要涉及两个问题：一是如何看待测验分数的意义；二是如何将测验分数的意义告诉受测者。1. 如何看待测验分数的意义高德曼的三个维度的解释模型三个维度分别是解释测验分数的类型、资料处理的方法、资料的来源解释测验分数的4种类型：叙述的解释、溯因的解释、预测的解释、评价的解释资料处理的2种方法：机械的处理、非机械的处理资料的2种来源：测验资料、非测验资料三个维度加以组合：4*2*2=16种不同的解释方式。基本原则：1）主试应充分了解测验的性质与功能。2）对导致测验结果的原因的解释应慎重，谨防片面极端。3）必须充分估计测验的常模和效度的局限性。4）解释分数应参考其他有关资料。5）对测验分数应以“一段分数”来解释，而不应以“特定的数值”来解释。6）对来自不同测验的分数不能直接加以比较。2. 如何将测验分数的意义告诉受测者（教材p131-p132）补充：讲义p252第七节测验常模1、常模与常模团体1）常模：用于比较和解释测验结果的标准化样本的分数分布。常模是根据标准化样本的测验分数经过统计处理而建立起来的具有参照点和单位的测验量表。编制常模需要三步：确定有关的比较团体；获得该团体成员的测验分数；把原始分数转化成量表分数。2）常模团体常模团体是作为比较标准的具有某些共同特征的人组成的群体或该群体的样本。3）确定常模团体的注意事项群体构成的界限必须明确；常模团体必须是所测群体的一个代表性样本；（遵循随机化原则）e.g.分层抽样取样的过程必须明确且有详尽的描述；样本大小要适当；（取样误差与样本大小成反比；其他条件相同时样本越大越好）常模团体必须是近时的；即减低抽样误差，就必须加大样本容量注意一般常模与特殊常模的结合。2、分数转换与合成分数的转换：按某种规则将原始分数转化为导出分数的过程。1）原始分数：从测验中直接获得的分数；被试在接受测验后，根据测验的记分标准，对照被试的反应所计算出的测验分数。原始分数反映了被试答对题目的个数或作答正确的程度；不能直接反映出被试之间的差异状况、被试相互比较后所处的地位、被试在其他等值测验上应获得什么样的分值。2）导出分数：在原始分数转换的基础上，按照一定的规则，经过统计处理后获得的具有一定参考点和单位，且可以相互比较的分数。常用的导出分数有百分等级、标准分数、T分数。分数的合成：将几个分数或几个预测源组合起来，以获得一个合成分数或做总的预测。有3种类型：1）项目的组合； 2）分测验或量表的组合； 3）测验或预测源的组合。分数合成中的问题：1）采用什么方法来合成分数？取决于组成测验分数的目的与要做何种决定。2）什么形式是最适当的分数组合？可用效标效度来评价合成分数。3）需要多少及何种测验分数作最适当的组合分数？可用合成体效度来评价。分数合成的方法：1）临床判断2）推理方法：单位加权，等量加权，差异加权3）多重分段：连续栅栏，综合分段4）多重回归：基本方程，预测误差，渐进效度，合成体效度5）特殊方法：完形记分，轮廓分析1 临床诊断直觉合成根据经验做出诊断；这种根据直觉的经验，主观地将各种因素加权，而获得结论或预测的方法叫做临床诊断。优点：具有高度的综合性；具有灵活的针对性。缺点：主观加权易受决策者的偏见影响，不够客观；缺乏精确的数量分析，没有精确的数量指标。2 加权求和合成推理方法：单位加权，等量加权，差异加权单位加权：将各个测验分数直接相加而获得合成分数。公式为：等量加权：将所有测验分数转换为标准分数，然后采用下式加权组合。（适用于各测验对预测效标具有同等重要性的场合）公式为：差异加权：通常情况下，各个变数对预测效标的作用是不同的。因此需要根据各个变数与效标之间的经验关系作差异加权。公式为： e.g.分数离散程度大的课程，具有较强区分度，在录取时起的作用大。3 多重划分多重分段：连续栅栏，综合分段多重划分就是在各个特质上都确定一个标准，从而把成绩划分为合格与不合格两类。只有每个测验都合格时，总要求才算合格。（同时考察）连续栅栏就是在整个测验实施时，是把所有组成这一测验的分测验按一定顺序排列起来逐一实施，只有通过了前一次测验，才能继续实施后一个测验。4 多重回归：基本方程，预测误差，渐进效度，合成体效度多重回归就是研究一种事物或现象与其他多种事物或现象在数量上相互联系和相互制约的统计方法。基本方程式为：通过对预测源作适当加权，使这些加权的测验分数的合成能以最小的误差来预测效标分数。注意：最佳预测源：选出与效标相关最高的变量，然后加入另一预测源组合起来以使R的数值增至最大，下一个要加入的预测源应该是与前两个预测源组合起来能使R值增加最多的，依次类推，当加入额外的预测源不再显著的使相关系数R值增加时，则终止分析。和Y相关尽可能高，和X1相关尽可能低5 特殊方法：完形记分，轮廓分析呈现常模的方法：转化表，剖析图转化表的构成要素有：原始分数、相应的导出分数、对常模团体的具体描述。剖析图是把一套测验中几个分测验分数同图表（图形）表示出来。3、几种常模分数发展量表1）年龄量表所测量的特质随年龄作有系统的改变2）年级当量商数1）智力商数2）教育商数3）成就商数百分等级一个原始分数的百分等级，是指在一个群体的测验分数中，得分低于这个分数的人数的百分比。百分等级取值越大，说明成绩越优秀。百分等级分数的计算（1）未分组分数资料e.g.成绩为80分的百分等级为83，就是说比80分低的原始分数占全体得分的83%，比其高的只占17%。（2）分组分数资料四舍五入对百分等级的评价百分等级是一种相对位置量数，具有可比性，且易于计算，解释方便；但它是一种顺序量数，不具有可加性。两个缺点：单位不等，尤其在分配的两个极端；只具有顺序性，无法说明不同被试之间分数差异的数量。*百分等级是相对于特定的被试团体而言的，解释时不能离开特定的参照团体。标准分数标准分数是一种具有相等单位的量数，又称作Z分数，以Z表示。标准分数的计算公式为：（线性转化）对Z分数的评估Z分数是以平均数为参照点，以标准差为单位的等距量表。具有可比性、可加性；由符号与绝对值两部分构成：正负符号表示原始分数在平均数之上或之下，绝对值表示原始分数与平均数的距离。1）线性转化（如上）2）常态化（T分数、标准九、标准十、离差智商）常态化就是正态化，是指使用非线性变换，将非正态分布的分数强制性的扭转成正态分布。T分数：麦柯尔提出，公式为： T在0,100之间。平均数为50，标准差为10；T分数避免了小数与负号。标准九：以0.5个标准差为单位，将正态曲线下的横轴分为九段，最高一端为9分，最低一端为1分，中间一段为5分，除两端外，每段均有半个标准差宽。标准十：卡特尔16PF离差智商：韦氏智力测验采用平均数为100，标准差为15。第八节标准参照测验1. 标准参照测验的含义与作用标准参照测验是根据某一明确界定的内容范围而缜密编制的测验。当一个测验是以某一明确界定的内容范围为基础编制而成，并且其分数是参考该内容范围所要求的绝对标准进行解释时，称这一测验为标准参照测验。通过标准参照测验，可以了解个体在所规定测量内容上的行为水平，其出发点是个体本身的绝对水平。2. 标准参照测验的题目分析*测验项目的难度分析：与常模参照测验相同，一般以通过率表示。*测验项目的区分度分析：当采用掌握组-未掌握组的预测方法时，可以使用鉴别系数（D）当采用前测-后测方法，可获得在前测中错误回答某项目而在后测中能够正确回答的被试人数比例，此即该项目的个人获得指数。3. 标准参照测验的信度与效度1）标准参照测验的信度及其估计分类一致性信度计算两次都被分到一类中的被试占总被试人数的比例。方差分析方法荷伊特信度2）标准参照测验的效度及其估计内容效度效标关联效度4. 标准参照测验的分数解释（1）专家判定法Nedelsky法Angoff法（2）效标组预测法临界组法对照组法详见讲义p256-p258第九节心理测验理论的新发展一、经典测量理论的局限1. 统计指标依赖于被试样本；（难度、区分度、信度、效度）2. 分数解释依赖于测验难度；（难度不同，解释不同）3. 同一测验相同分数其含义不同；（做对的题目其难度不同）4. 信度估计不精确；（没有更精确的总体估计）5. 测验结果不能概化到非标准化情境；（标准化测验不能推广）6. 被试做同样题目无法照顾个别差异。（被试水平不同，相对难易程度不同）二、项目反应理论1. 基本假设潜在特质空间的单维性假设；局部独立性假设；（各项目之间不相关，不影响）正确反应概率与特质水平间函数关系假设；非速度测验假设。（对时间没有限制）2. 项目反应的参数及模型：单参数、二参数、三参数单参数：区分度二参数：难度、区分度三参数：难度、区分度、猜测率3. 项目特征曲线及信息函数项目特征曲线（教材p292）信息函数：作为信度的指标4. 项目反应理论的应用（题目分析、题库、自适应测验）题目分析：可根据图形直接判断曲线越陡峭，区分度越高；曲线越往右侧靠，难度越大。自适应测验：根据不同被试的水平给予不同难度的测验；避免天花板、地板效应。5. 项目反应理论的优点及局限局限：对于现今的测验，单维假设不成立，二分法记分不适用。三、概化理论概化理论是经典测量理论与方差分析结合的产物，其核心是从特定条件下的测量结果来推断更广泛的条件下可能得到的测量结果。1. 基本概念题目、被试、主试等各种影响因素测量目标：所要测量的心理特质；测量侧面：影响测量过程和结果的各种内在外在因素（每个影响因素都是一个侧面）；测量情境：由测量目标和测量侧面构成，即测什么和怎么测的结合。2. 基本假设替代信度可靠性与随机平行测验假设用观察全域中随机抽取的一个样例来推断全域的可靠性作为信度指标。3. 概化理论的优点与局限用随机平行测验取代严格平行测验，操作方便；用方差分析技术能全面估计各种误差成分的相对大小；（能整合起来）在方法和应用上都有待完善。四、测验等值1. 含义：将不同测验版本分数统一在一个量表上的过程；使其具有可比性。2. 特性：等价性、可逆性、组间一致性3. 种类：测验分数等值、项目参数等值、横向等值、纵向等值（难度、区分度）（测验间）（时间）4. 方法：平均数等值：A测验平均分80与B测验平均分70等值百分位等值：A测验80分为75百分等级，B测验70分为75百分等级，80与70等值线性等值：用标准差计算代数公式项目反应理论等值：参数等值5. 设计：单组设计两个测验对同一组人测试等组设计随机抽取两个组，假设为等组等组交叉设计前两种方法结合，一组先A卷后B卷，另一组先B卷后A卷共同被试设计有一部分共同的人做中介，既参加A卷又参加B卷铆测验设计用共同的题目作为铆来进行测验混合设计以上设计混合

展开阅读全文

心理测量学笔记——备考北师大.doc

最新文档