测验编制步骤_装配图网

资源描述

测验编制步骤：8步1、目的、对象2、确定结构、确定测验结构，根据理论、智力测验有几个因素；人格特质，一个特质是一个维度。因子分析，大致有个设想，初步构思，先是探索，验证，样本不一样，好的测验要做几次。首先检查共同度，低于0.5或0.3的题目去除，与其他项目之间的共同成分。认知能力有两种，斯皮尔曼理论。G因素和S因素，好的0.5以上。碎石图拐点因素负荷，各因子负荷分数，能区分、旋转后也不能把负荷集中，去掉。如两个因子上都是0.4，结构不明确，某一题目属于谁不确定。题目多时做验证性因素分析A、首先做单维检验，一个维度属于一个，如12道题，B、 4个一加，4个一加，原始分相加，变成三个指标，指标太少，验证性因素分析做不出来。项目超过100个，旋转不出来，探索性因素分析旋转不出来。分配权重：30分常识 60分词汇满分相差很大，通过转换成量表分，变成Z分，转换成量表10分制。麦卡锡幼儿量表分多的1/2 少的1.5 每个维度转换成30分左右。有的分测验重要的，权重较大。3、记分方法4、常模：用到什么地方，抽样如何抽A、一种看成是正态分布，知道S和就可以。转化为Z分。B、非正态数据，根据常模样本频数分布确定，累积百分数，你的分数一边是分数，以下是百分之多少。累积百分比算出来了，某一分数对应P，累积百分率多少。根据常模样本确定每一点的累积百分数。常模样本分数分布，例如：艾森克一般T 2080分最多90分，一般做到80分艾森克远远超出80分，偏态。5、设计项目：数据与资料，与测验相关理论、相关测验。 A、很多测验相互参考，很多人格测验用MMPI题目，有些是参考，有些是搬过来，16PF没有效度量表，187道题，有些被试在人才招聘时都选好的答案，用其它测验效度量表加进去，MMPI或艾森克测谎量表，20个题目，分散开，统计时是单独一个量表。题目量要大，准备用50道，编100道，最好多一倍，有的是1：1.5，至少要多1/2的题目，便于淘汰。B、试测：试测样本一般100200个大样本就行。目的：* 题目表述学生有无问题，语言方面，可以访谈一下，理解有无困难，定性的，有些项目是否意义有不同理解删掉 * 定量分析，难度，每个选项选的频率，5个选项，1或2个选项几乎是零，项目不合格，不低于5%，最理想的选项分布是正态的，能力测验，正确答案多、其他错的少一些，但有一选项无人选，删掉。 * 难度：0.5的高些，两边少些，都有，总体难度平均0.5左右，有适当难度，0.050.95都可以，如果是能力测验，鉴别能力高的被试容易、鉴别能力低的被试能力测验题目难度的分布范围可以两个极端都有；但是人格测验题目难度不能大于0 .95，不能太低、太高。有的淘汰项目只用项目分析。共同度0.5 如果样本大，可以用因素分析淘汰二个因子共同度相差不多不集中在某个因子上的题目但小样本与大样本因素分析不同。 MMPI 500多道题目精神病人分几天做有些题目删掉，有些修改。试测要有100200人，统计分析有意义。C、合成题目：通过淘汰题目后，换一个样本再检验一下。6、标准化：指导语，如：能力测量，时间、手势、评分详细规定。7、收集信、效度资料：事先做了因素分析，本身为信、效度准备。能力测验信度要求高，0.9或0.8以上，重测信度。人格测验信度要求低，0.6或0.7以上。复本信度要在0.80.9以上，说明等值性好。同质性信度0.6以上可以，重测相差两个星期，试卷有名字或编号、学号等，复本信度也一样。8、常模样本：对总体有代表性，能力测验包括各种人群，尤其两端，天花板尽量高，地板尽量深。 A、发展常模： * 智力年，某一年智力平均数做为智力指标、绝对指标，与常模对照，与哪一年相符确定智龄。 * 某一年级，年级当量，成绩、标准化考试，考的是学科知识。 B、组内常模：心理测验、智商、T分数都是组内常模，跟样本同样年龄人比，在人群中的位置，智商100，在50%位置；110在80%位置；有点象常模参照，目标参照，有点类似，但不一样。组内常模，水涨船高，总体样本水平高，标准高。有的维度8道题、7个维度，网络成瘾 8岁和10岁同样智商100，实际水平不同，常模参照。发展量表分数一样，水平大致相等，智龄9岁相等。组内只能在组内比较。9、编手册目的、功用、依据，材料来源、题目施行方法、记分、注意事项、标准答案、评分方法、难度、区分度、效度、信度、常模表、如何解释、如何运用测验结果的解释。实际：学习能力、归因、.几个维度，先给好的。测评公司、编一个学习能力问卷，5个维度。先前按1：1.5以上试测，141个样本，每道题通俗度、区分度分析，去除区分度低的。正题、反题，反题按照 6-反题原始得分，在compute中做，转换数据是转换的，再分析难度、区分度、实际维度自己编 a是学习能力、b是团队合作删除题目后再找样本做，求信、效度数据原来150116题，去掉题目，按区分度、难度、题目也看一下、难度看每个维度难度、平均通俗度编制时在0.40.6，在0.5左右，调整题目，增减不同难度题目，看单个维度、去掉较少、区分度低于0.3删掉，但考虑题目数量，个别考虑平衡，个别保留区分度0.28的题目，主要根据区分度删除题目，区分度每个维度，每个题目得分与维度总分求相关。第九章心理测验的编制心理测验的标准化水平与测验编制的程序和方法有密切关系。为提高心理测验的质量，必须规范心理测验编制的程序。本章将介绍心理测验编制的一般程序，举例说明人格测验、智力测验和学绩测验编制的方法，供测验编制者参考。第一节心理测验编制的一般程序不同性质的心理测验，其编制方法有所不同。学绩测验的编制与能力测验的编制应有所不同，能力测验的编制与人格测验的编制也会有所差异。但不管编制测验的具体技术和方法有多大差异，其基本程序一致，这正如工厂里生产某种技术产品，通常会按照既定的工艺流程来进行。总的来说，编制一个可供使用的标准化的心理测验，一般要经过以下几个步骤：确定测验目的制定编题计划编辑测验项目预测与分析合成测验测验标准化鉴定测验编写测验说明书一、确定测验目的测验目的是编制测验的依据和出发点。这一步主要解决三个问题，“为什么测”、“测谁”、“测什么”，即明确测验的用途、测量对象和测量目标。（一）明确测量用途明确测量用途，也就是明确编制的测验干什么用。这一步骤包含两方面的涵义，一方面，是明确测验有什么心理功能，要确定测验是用于测量哪种心理特征。是测智力还是人格？是测注意力还是创造力？是测职业兴趣还是测学业成绩？如果是测量能力，具体又是测哪方面的能力？只有先确定了目标，并把目标具体化，才能进一步确定测验的结构和内容。另一方面，要明确测验将应用在哪一领域，是用于描述被试的心理特质？还是用于诊断心理是否异常？是用于选拔人员？还是用于验证某个理论假设？用途不同，编制测验时的具体要求、取材范围以及测题的难度也不尽相同。（二）明确测量对象明确测量对象,也就是明确量表将应用于哪些个人或团体。通常以年龄、性别、职业、受教育程度、民族、文化背景等指标来区分测量对象。应用于不同年龄阶段和不同教育水平被试的测验，在材料的选择和项目的内容上也不一样。如，编制一份用于测试儿童智力的量表，需要选用他们能理解的材料，项目也应设置为他们可以回答的方式。施用于不同对象的测验应该有其不同的特征，而不应千篇一律。文化背景的差异往往会导致心理结构的取向有所不同。Rogoff & Morelli于1989年做过这样一个实验：他们要求来自非洲土著部族的被试将二十种物品按照他们认为最聪明的方式进行分类，结果被试将桔子和小刀分为一类、把土豆和锄头归为一组等等。实验完毕，主试又问：“愚笨的人会怎样分类？”被试便迅速地将物品分为两类：食物和工具。而后一种分法却是实验者认为理所当然的。所以，编制心理测验时，必须重视测验实施对象的文化立场和背景。（三）明确测量目标明确测量目标，也就是明确测验是用于测量哪种心理特质，并对该心理特质的定义和结构进行分析，据此编制相应的量表。心理特质结构的确定一般依据一定的理论，或根据因素分析的结果，或根据实践经验。以编制智力量表为例，不同的心理学家对智力有不同的看法，他们根据自己对智力的理解来编制智力测验量表，如韦克斯勒就是按照他自己的整体智力理论把智力分成语言和操作两方面，所以他的智力量表就是由言语测验和操作测验组成。而塞斯顿认为人的全部智力可以分为七种基本能力：空间知觉能力、计数能力、言语理解能力、词汇流畅性、记忆能力、推理与归纳能力、知觉速度，于是，他以这种智力的群因素理论为依据，编制了基本心理能力测验。又如人格测验中，爱德华个人偏好测验就是依据哈佛大学莫瑞教授的人类十五种基本需求理论编制而成；而卡特尔十六种人格因素测验则是依据因素分析的结果确定其结构的；明尼苏达多相人格测验则是编制者根据长期的临床经验来确定其结构的。二、制定编题计划编制心理测验犹如建筑房屋，需要事先设计周详的蓝图，以作为命题的依据。编题计划就是这一蓝图，是编制测验的总体构思。这样，测题的内容才具有适当的代表性，从而发挥测量的功能，实现测量的目标。在制定编题计划过程中，一方面，要根据已经确定的测量目标结构，把内容分解为具体的指标，便于操作，使测验内容全面而具有代表性，不致使测题偏离了应测的范围；另一方面，也要明确各个测验指标在整个测验中所占的比重，即确定对各个内容点的相对重视程度，这一比重通常用百分比来标明。编题计划主要有两个用途：其一，编题计划确定了指标体系，指明了应该编哪些方面的测验项目以及编多少项目，因此，测题编制结束后，可比照计划核对测验项目是否反映了所要测量的内容。其二，在记分时可按计划中百分比确定每类测验项目的分数。三、编辑测验项目测验的计划拟定之后，就要开始编辑测验项目了，这是编制测验量表过程中较为核心的一个步骤。在编制测验项目这一步中需要解决下面的三个问题：（一）收集测验材料一个测验是否有效，取决于该测验是否能够测得研究者所要测到的东西，而一个测验是否能测到目标特质与测验材料的选择是否适当有着密切的关系。为此，编制项目之初要做的就是收集适当的测验材料。尽管不同性质的测验所依据的材料内容各异，但都必须遵循下面几个共同的原则：1. 材料要丰富无论是能力特征还是人格特征，均是十分复杂的复合性心理结构，不能仅凭一两种简单的材料或少量几个项目去推断一个人的智力或人格特征。因此，一个心理测验必须包含多种不同类型的材料，材料收集得越齐全，编题工作就会越顺利。2. 材料要有普遍性测验所使用的材料，应该是大多数被试都能理解的。编制智力类测验时，所收集的材料对于不同文化背景、不同经济地位、不同地区的个人或团体应当是公平的，应尽可能避免特殊知识经验对测验结果的影响。如“青稞”这一粮食作物，高原地区的人可能会认识，但大部分居住在平原地带的人都不熟悉，这样的材料就不具备普遍性，不宜纳入测验之中。编制人格测验时，所收集的材料也应当能够全面反映某一文化背景中的团体的基本人格特征。 3. 材料要有趣味性测验的材料如果具有趣味性，能够引起被试的兴趣，就可以减少被试由于缺乏足够的动机或注意力分散而导致的测量误差。4. 材料要有鉴别力心理测验的使用总是具有一定目的的，通常是为了鉴别被试在某一特质上的差异，围绕这一根本目的，测验的材料也应该具备鉴别力。智力测验的材料要能区分高智商者与低智商者；人格测验的材料要能分别特质倾向不同的被试；学绩测验的材料要能区别优等生与成绩差的学生。（二）选择项目形式在心理测量中，必须将测验项目以某种形式呈现给被试，而测验项目呈现的形式又取决于被试的年龄、人数的多少、测量的目的、测验项目的性质等因素。因此，在选择测验项目形式时，应当注意将这些因素考虑进去。例如，在学绩测验中，如果要考察对概念和原理的记忆，宜用简答题；要考察综合运用知识的能力则宜用论文题。对于测验项目的确定，我国心理学家廖世承、陈鹤琴早在几十年前曾提出过几条原则，现在仍可供参考：使被试容易明了测验方法；使被试在完成测验时不会因测验项目的形式不当而作错；测验过程省时；计分省时省力、经济。根据内容选题，如哪些问题可以反映记忆能力，哪些问题可以反映一个人的个性的内外向特征等。选题还要注意题目的普遍性和代表性，注意题目的难易程度。测验中题目形式多种多样，大致有以下几种：1. 是非题是非题又称正误题，通常是提供许多陈述句或疑问句，要求被试在“对”、“错”或“是”、“否”两种选项中选择一种答案，以判断命题是否正确。如：珠穆朗玛峰是世界最高的山峰对错北京是我国的首都吗？是否2. 选择题选择题在结构上包含两个部分：一是题干，由不完全的陈述句组成，提供一个问题的情境或刺激源；二是选项，包含一个正确答案和若干错误答案（即迷惑选项）。如：历史上“郑和下西洋”中的“西洋”是指：A、大西洋 B、太平洋 C、印度洋 D、北冰洋选择题的优点在于适应范围广，能运用于各种不同性质的材料，而且评分客观省力，因此在标准化测验中运用较多。3. 匹配题匹配题是由选择题变化而来的一种题目形式，适用于测量概念与事实之间的关系。这类题在结构上包括两个部分，一是一组问句项目，另一组为反应项目。要求在问句项目与适当的反应项目之间用线相连。如：问句项目反应项目国家首都美国莫斯科中国华盛顿日本北京俄罗斯东京4. 填空题填空题就是在一个句子里面缺少几个关键词或字，让被试填写。如：世界上最长的河流是_。发明电话的人是_。世界上最大的洲是_。5. 简答题简答题的形式是提出一个问题，要求被试用简短的文字来完成测题。如：地球自转向着什么方向？6.操作题这类题目通常是让被试按照一定的要求完成某些操作任务。如：韦氏儿童智力量表中的积木图案，要求被试用积木拼成一定的图案。（三）编写测验项目编写测验项目是一个反复的过程。在这个过程中，测验项目编制者需要对测验项目进行反复修改，其中包括订正意思不明确的词语，删改一些重复和不适当的项目，增加有用的题目等等。在编写测验项目时要注意：（1）测验项目的取样应当具有代表性。只有测验项目真实反映测量对象的特征时，才能保证测验结果的有效性。（2）测验项目的取材范围要同编制计划所列项目范围相一致，且要根据被试的情况而定。（3）测验项目的难度应有一定的分布范围。如果是能力测验或学业成就测验，就应当包括各种不同难度的测验项目，以鉴别各种不同能力或不同知识水平的被试；如果是人格测验，就应当选编那些在不同方向的备选答案上都有一定人数分布的项目，以鉴别具有不同人格特征的被试。（4）编写测验项目的用语要力求精炼简短，浅显明了，但不能遗漏必要的条件。（5）初编题目的数量要多于最终所需要的项目数量，以便筛选。如果题目较多，还可以编制复本。（6）测验项目的说明必须简洁明了。四、预测与项目分析初编的测验项目是否具有较好的性能，必须通过预测收集数据，进行测验项目分析，以便进一步修改。（一）预测测题初步确定后，需要在小样本被试内进行一下试测。这一试测起两个方面的作用：一方面，可以获得测题性能优劣的客观性资料；另一方面，为进一步筛选项目提供客观依据。预测的目的在于获得被试对测验项目做何种反应的资料。它既能提供那些题目意义不清、容易引起误解等质的信息，又能提供测验项目优劣的量的指标。预测应注意下面一些问题：（1）预测对象应取自将来正式测验时准备施用的群体，虽然人数不必太多，但要具有代表性。例如，如果编制一份儿童智力量表，适用对象是716岁的儿童，那么试测的对象也必须从716岁的儿童中抽取，且要求按年龄分层抽样。（2）预测的时限可以适当延长，以便每一被试都能将题目做完。这样做的目的是为了收集到充分的反应资料，使分析结果更加可靠。（3）预测的情境应力求同正式测验的情境一致。（4）施测者应对被试的反应加以记录。如，在同一时限内被试所完成的题数、被试对哪些项目产生误解、长时间的停顿、被试反映的题意不清之处等，以便修改项目时参考。（二）项目分析测验项目分析就是对预测结果进行统计分析。项目分析主要涉及到项目的难度和区分度两项指标。由于预测的被试样本小可能会存在取样误差，由此获得的项目分析结果未必完全可靠。所以，需要对来自同一总体的两个样本施测,然后分别进行测验项目分析，看对两个样本的分析结果是否一致。有关项目难度与区分度的问题，本书有专门的章节进行阐述，这里只做简要介绍。1项目难度项目难度是指题目的难易程度，它是衡量测验题目质量的一个重要指标，它和区分度共同影响心理测验的质量。当题目0，1评分时，项目难度的计算公式为：PR/NP代表题目的难度系数，R代表题目的答对人数，N代表被试人数。当题目多级评分时，项目难度的计算公式为： 9-1为第i个被试的得分，F为题目的满分。N为做该题的被试人数，为该题的平均得分。当题目设定的最低分不是0时，项目难度的计算公式改为： 9-2其中L为该题目设定的最低分，其它符号与前面相同。项目难度系数越高，表示题目越容易；项目难度系数越低，则表示题目越难。一般认为，题目的难度系数在0.30.7之间比较合适，整个量表的平均难度系数最好掌握在0.5左右，高于0.7和低于0.3的题目不能太多。 2项目区分度项目区分度是反映测验项目区分被试不同特质水平的功能高低的指标。题目区分度高，说明题目可以有效区分不同水平被试，使高水平者得高分，低水平者得低分；而区分度低则题目不能区分不同水平的被试。题目的区分度与题目的难度直接相关，通常来说，中等难度的题目区分度较大。另外，题目的区分度也与被试的水平密切相关，题目难度只有等于或略低于被试的实际能力，其区分性能才能充分显现出来。项目区分度最简单的计算公式如下：DPHPLD代表区分度指数，PH代表高分组答对题的人数比例，PL代表低分组答对题的人数比例。项目区分度比较精确的计算公式常用点二列相关或二列相关等方法。点二列相关适用一个变量为二分变量，另一个变量为连续变量的数据。其计算公式为： 9-3其中，为点二列相关系数，为答对该题的被试测验总分的平均分，为答错该题的被试测验总分的平均分。St为测验总分的标准差，p为得对该题的人数比例，q为答错该题的人数比例。当两个变量都是连续变量，但其中一个变量因为某种原因被人为地分为两类，这种数据适用二列相关。二列相关公式为： 9-4其中，rb为二列相关系数，Y为正态分布下p与q分割点正态曲线高度。衡量区分度高低没有统一标准，但一般认为，区分度高于0.3，题目便可以被接受。五、合成测验合成测验是把经过预测以后证明有价值的项目排成有组织的测验。它需要解决的问题是两个：一是测验项目的选择；二是测验项目的编排。如要编制复本，还须懂得怎样编制复本。（一）测验项目的选择选择测验项目的标准有三：一是测验的性质，即要选择那些能够测量所要目标特质的项目。假若要测量的是语言推理能力，就不能选择测量阅读能力或运算能力的项目。二是项目的难度。选择多大难度的项目并无固定的标准，选拔性测验要求难度大些，考察性测验要求难度不可太高，人格测验则不要求难度。三是项目的区分度。一般来说，项目的区分度越高越好，对于选拔性测验尤为如此，但有时也可以保留若干区分度不高的项目，这要视项目的重要性而定。（二）测验项目的编排测验项目选出之后，需要加以合理安排。在测验开头应该有一、两个较容易的项目，以使被试熟悉作答程序，解除紧张情绪，建立信心，较快进入测量情境。对测验项目的总的编排原则是要由易到难，这样可以避免被试在难题上耽搁时间过多，而影响对后面问题的解答。在测验最后可有少数难度较大的题目，以测出被试的最高水平。下面是几种常见的测验项目的排列方式：（1）并列直进式：此种方式是将整个测验按测验项目材料的性质归为若干分测验，对于同一分测验的测验项目，则依其难度由易到难排列。如韦克斯勒智力测验就是这样编排的。（2）螺旋式：此种方式是先将各类测验项目依难度分成若干不同的层次，再将不同性质的测验项目予以组合，作交叉的排列，其难度则逐步提高。此种排列的优点是被试对各类测验项目循序作答，从而维持做答的兴趣。如比奈西蒙智力量表就是这样排列的。（3）混合式：这种方式是将所有的测题根据难度排列，不管测题的性质。一般会避免同一性质的项目编排在一起。人格、态度、心理健康等量表多采用此法编排。（三）编制复本为增加实际的效用，一种测验至少要有等值的两份，份数越多，使用起来越便利。所谓等值需要符合下列条件：其一，各份测验测量的是同一种心理特质；其二，各份测验具有相同的内容和形式；其三，各份测验不应有重复的项目；其四，各份测验项目数量相等，并且有大体相同的难度和区分度。一般来说，只要有足够数量的测验项目，编制复本的手续是很简单的，先将所有可用的项目按难度排列,其次序为1、2、3、4、5、6如果要分成两个等值的测验题本，可采用下面的分法：甲本：1、4、5、8、9、12、13、16、17、20乙本：2、3、6、7、10、11、14、15、18、19如果要分成3个等值的测验题本，可采用下面的分法：甲本：1、6、7、12、13、18、19、24乙本：2、5、8、11、14、17、20、23丙本：3、4、9、10、15、16、21、22采用上面的分法可使各复本之间在难度上基本相等，从而获得大体相同的分数分布。复本编好后，应该再测验一次，以确定各份测验究竟是否等值。六、测验标准化测验项目经过预测、分析、选择、修订、编排后集合成一个测验，至此，根据测验的定义，我们只能说有了一组好的测题，还不能说有了一个好的测验。一个测验的好坏，还取决于对该测验的标准化水平。所谓标准化是指测验的编制、施测、评分以及解释测验分数的程度具有一致性。具体地说，测验标准化包括下列内容：（一）测验内容标准化的首要前提，是对所有被试施测相同的或等值的题目，这样才能对被试的行为和反应进行比较，测验内容如果不同，所测得的结果则无法比较。另外，测验题目要对测验内容域有较好的代表性。（二）施测过程标准化的第二个条件是所有被试必须在相同的条件下施测。其中包括：（1）相同的测验情境：如采光条件、场所布置、设备材料等要尽量统一，尽量接近标准化的情境要求。（2）相同的指导语：指导语一般包括两部分，一是向被试说明测验的目的，以便解除被试的顾虑；二是向被试说明如何对测验项目反应。指导语必须事先拟好，印在测验项目的前面，并且力求清晰、简单、明了，不致引起误解。对被试不熟悉的测题类型，应当有一至二个例题。（3）相同的测验时限：测验的时间限制是测验程序中的重要方面。不过，不同的测验对时限要求不相同。一般来说，人格测验对时限的要求不太严格，甚至不要求时间限制；但能力测验和学绩测验必须考虑时限问题。确定时限一般采用尝试法，即通过预测来决定。通常的时限定为大约90%的被试在预定的时间完成全部测验项目即可。（三）测验评分评分的客观性是标准化测验的第三个条件，评分的客观性意味着两个或两个以上的评分者对同一份测验试卷的评定是一致的。只有当评分是客观的时候才能将分数的差异归于被试本身的差异。但要作到完全客观（一致）的评分是较困难的。一般来说,不同评分者之间的一致性达到90%以上,便可认为评分是客观的。客观性评分要求：（1）对反应要及时清楚地记录，以免由于记忆丧失造成混乱，尤其是在口头测验和操作测验中更应如此。（2）要有一张标准答案或正确反应的表格，即记分键。选择题测验的记分键包括每一测验项目正确反应的号码或字母；问答题的记分键包括一系列的正确答案和允许变化的范围；论文题的记分键包括一致可接受答案的要点；人格测验没有正确答案，记分键上指明的是各种可能反应的记分标准。（3）将被试的反应与记分键比较，确定被试反应应得的分数。（四）测验分数的解释一个标准化的测验，不仅指测验内容、施测过程和评分程序的标准化，而且指对测验结果的解释的标准化。如果对同一测验结果（分数）可做出不同的解释，那么测验便失去了客观性。某一测验分数只有与一定的参照标准相比较，才能显现出它所代表的意义。在许多心理测验中,建立参照标准的过程也就是建立常模的过程。七、鉴定测验测验编好后,必须对其可靠性和有效性进行鉴定，以便确定该测验是否可用。对测验的鉴定，主要是确定其信度系数和效度系数。有关信效度的估计方法与技术本书已有专门章节讲述，这里只是简单介绍一下相关概念。（一）信度信度指的是测验的可靠性，又称测验结果的一致性程度。一致的程度越高，稳定性越大，就意味着测验结果越可靠。如果用某套测验对同一被试先后进行两次测试，结果第一次得80分，第二次得50分，结果的可靠性就值得怀疑了。一般而言，测验都会有一定的误差，误差越小，信度就越高。信度可用重测信度、复本信度和同质信度等方法来进行评估。重测信度是指将同一测验在相同的条件下对同一组被试先后实施两次，两次测验结果的相关系数。复本信度是指用两份或几份在构想、内容、难度、题型和题量等方面都平行的测验对同一组被试测验结果之间的相关系数。同质信度是指测验内部各题之间得分的一致性。通常用分半信度、库德-理查逊公式或系数来表示。信度是衡量测验质量的最基本的指标之一，因而测验编好后首先鉴定该测验的信度。（二）效度效度是指测验的有效性，表明一个测验对它所要测量的行为特征测量的准确程度。看一个测量工具是否有效，要看它所测量的东西是不是它所要测的目标特质。效度是一个相对概念，而不是一个绝对概念，它总是针对特定测量目标而言；另外，效度只有高低之别，而没有完全有效和完全无效之分。效度从种类上一般可分为内容效度、构想效度、效标效度。一个新编测验应该对其构想效度、效标效度进行估计，报告相应的结果。而内容效度可作一定的论证或说明。效度也是衡量测验质量的最基本的指标，测验编好后，必须检验该测验的效度。（三）测验量表与常模任何测量都是以数量化的形式来表达测量结果的。心理测量是以心理测验为测量工具的，它必须采用一定的量表作为标准化的记分制度，来实现测验结果的数量化。所以，测验编制者为了说明和解释测验结果，必须根据测验的性质、用途以及所要达到的测量量表的水平，按照统计学的原理，把某一标准化样本的测验分数转化为具有一定参照点、等值单位的导出分数，这就是所谓的测量量表。在心理测验中，常见的测验量表有百分等级量表、标准分数量表、年龄量表、年级量表等。如果将标准化样本的测验分数与相应的某一或几个测验量表分数一起用表格的形式呈现出来，就是该测验的常模表。标准化的心理测验都在测验手册中提供可供解释测验分数的常模表。八、编写测验说明书心理测验编制的最后一个步骤是编写测验说明书。测验说明书，又称测验指导手册，其应该包括下列内容：（1）本测验的目的与功用。即测验是测量哪种心理特质的，可用于什么对象，具有什么功能。如选拔功能或安置功能；诊断功能或预测功能等等。（2）本测验的理论依据以及测验材料的来源和依据。（3）测验内容及实施测验的方法。具体包括测验的时限、内容分几部分、每部分有多少测验项目、如何作答、注意事项等等。（4）测验的标准答案和评分方法。（5）关于测验的信度、效度等资料的说明。（6）常模表，即如何依据常模解释测验结果。（7）关于如何应用测验结果的指示。第二节心理测验的编制实例在这一节里，我们将通过介绍两个心理测验量表的编制程序来说明标准化心理测验的编制过程。其一是中国人人格量表（Qingnian Zhongguo Personality Scale, 简称QZPS）的编制；其二为瑞文标准推理测验中国版的修订过程。一、中国人人格量表的编制中国人人格量表是北京大学的王登峰教授等研究者在其关于中国人人格结构理论和实证研究的基础上，完全根据中国人的人格结构和行为特点编制的综合性的人格测量工具。（一）测验编制的目的编制心理测验的第一步是明确测验的目的，包括所编制的测验将应用于哪些个人或团体？测验将测量哪种心理特质?为什么要编制该测验？对于编制中国人人格量表，研究者的初衷是编制一种适合中国人的人格测量工具。人格理论及其测量工具是心理学研究的重要基础，也是心理学走向应用的主要领域之一。随着心理学应用的日益广泛、深入，对人格结构的研究和相应的人格测量工具的要求也会越来越高。但在过去的几十年中，中国的人格心理学一直采用西方的有关理论和概念，并通过修订西方学者所编制的人格问卷，直接应用于有关的研究和教育咨询、临床诊断、就业指导以及人员安置等方面。事实上，不仅仅是人格心理学，心理学的其他领域也不同程度地存在类似问题。由于文化和遗传方面的差异，中西方人格结构存在明显的差异。有关研究表明，中国人在描述人格特点时有自己独特的角度。不仅如此，许多国家的研究都肯定：人格模型在不同文化和地区会有或多或少的差异性。而且经验，西方人格测验的项目反映的是西方人日常生活的内涵与与中国人日常生活的实际情况会有很大的出入，即使经过修订，这些项目也难以有效而贴切地涵盖中国人特有的生活内涵与经验。目前国内使用的人格量表大致上可以分为两类：一类是直接修订国外成熟的量表。这些量表所依据的人格理论和量表的整体结构并未根据中国人的特点进行相应的调整，只是对个别题目的措辞和内容进行了一定的修改，虽然可以在一定程度上反映中国人的特点，在心理学研究中有一定的应用价值，但由于原始量表的建立和完善都是在西方文化背景下进行的，因而其在中国的应用范围和价值存在明显局限。另一类是结合中国人的特点编制的量表，这类量表从中国人的实际生活和典型特点入手确定构想，并据此编写测验的项目，能够在一定程度上反映中国人的特点，因而有着重要的理论价值和实用价值。但量表结构的确定大多缺乏现实的研究依据，影响到量表的全面性和客观性。另外，还有一些量表是由中国学者根据西方人的理论框架，按照中国人的实际情况编写项目组成的，尽管在编写项目时充分考虑到了中国人和中国文化的特点，但由于所依据的理论框架的局限，量表并不一定能全面反映中国人的真实情况。因此，研究者希望通过研究中国人的人格情况，编制一种有理论支持、有实用价值的人格量表。（二）编题计划与量表的内容编题计划的主要内容是确定量表的内容，即量表的各项指标（或分测验）以及各指标所占的比重。在中国人人格量表的编制过程中，研究者首先通过研究建立了中国人人格结构理论，在此理论成果的基础上，通过因素分析得出了中国人格结构的7个维度及其所包含的小因素，并以此为依据，确定了中国人人格量表的结构，即测验由7个分测验组成，这7个分测验所测量的指标分别是7个人格维度及相应的小因素。从理论上看，建立适合中国人的人格量表需要遵循两个重要的原则：（1）建立关于中国人人格结构的理论；（2）依据中国人的人格结构和具体生活经验编写测验项目，以反映中国人人格结构的全貌和中国人日常生活的经验和内涵。杨国枢和王登峰教授按照人格研究的词汇学假设，从词典和日常用语中收集到的中文人格特质形容词，按照形容词的属性分层随机抽取出410个形容词，作为中国人描述自己及他人的代表性样本。由大陆和台湾被试就每个词能够描写自己及他人的程度进行评定。通过因素分析得出了中国人格结构的7个维度及其所包含的小因素，基本上确定了中国人的人格结构。下面所显示的是中国人的人格结构及其所包含的18个小因素，是编制中国人人格量表（QZPS）的基础。根据这一理论框架，中国人人格量表的编制主要在于能够写出反映这一人格结构、而且反映中国人的日常生活特点的测验项目。根据研究者论文所载，这7个维度与18个小因素具体如下：(1) 外向性。反映人际情境中活跃、主动、积极和易沟通、轻松、温和的特点，以及乐观和积极的心态，是外在表现与内在特点的结合。包括活跃、合群、乐观三个小因素。活跃：人际交往中的主动性和人际技巧特点。高分反映与人交往中主动、积极、活跃、王登峰、崔红.中国人人格量表（QZPS）的编制过程与初步结果.心理学报，2003,35（1）127136.自然和擅长组织协调的特点。合群：人际交往中的亲和力特点。高分反映待人亲切、温和、易于沟通和受人欢迎的特点；低分反映不易亲近和不受欢迎的特点。乐观：个体积极乐观的特点。高分反映积极、乐天和精力充沛的特点；低分反映情绪消极和低落的特点。（2）善良。反映中国文化中“好人”的总体特点，包括对人真诚、宽容、关心他人、以及诚信、正直和重视感情生活等内在品质。包括利他、诚信和重感情三个小因素。利他：个体友好和关注他人的特点。高分反映对人宽容、友好和顾及他人；低分反映容易迁怒、自私和为达目的的不择手段。诚信：人际交往中的信用特点。高分反映个体诚实、言行一致和表里如一；低分反映人际交往中虚假、欺骗。重感情：对情感联系或利益关系的看重程度。高分反映重感情、情感丰富和正直，低分反映注重目的和利益为重。（3）行事风格。反映个体的行事方式和态度。包括严谨、自制和沉稳三个小因素。严谨：工作态度和自我克制的特点。高分反映做事认真、踏实和严谨；低分反映做事马虎、不切实际、缺乏合作和难缠等。自制：安份、合作的特点。高分反映自我克制、安份、合作和淡泊名利；低分反映做事不按常规、别出心裁和与众不同。沉稳：做事谨慎沉着的特点。高分反映凡事小心谨慎和深思熟虑；低分反映粗心和冲动。（4）才干。反映个体的能力和对待工作任务的态度。包括决断、坚韧和机敏三个小因素。决断：决断能力。高分反映敢作敢为、敢于决断、思路敏捷和个性鲜明；低分反映遇事犹豫不决、紧张焦虑和无主见。坚韧：做事的毅力特点。高分反映做事目标明确、坚持原则、有始有终且持之以恒；低分反映做事难以坚持、容易松懈。机敏：自信、敏锐的特点。高分反映工作投入、热情敢为和积极灵活；低分反映回避困难、遇事退缩。（5）情绪性。情绪稳定性特点。包括耐性和爽直两个小因素。耐性：情绪控制能力和情绪表现特点。高分反映情绪稳定、平和，能够控制自己的情绪；低分反映情绪急躁、冲动、冒失、容易发脾气和难以控制情绪。爽直：情绪表达的特点。高分反映心直口快、急性子和对情绪不加掩饰，低分反映情绪表达委婉、含蓄。（6）人际关系。对待人际关系的基本态度。包括宽和与热情两个小因素。宽和：人际交入的基本态度。高分反映待人温和、友好、宽厚和知足；低分反映计较、暴躁易怒、冷漠和自我中心。热情：人际沟通特点。高分反映沟通积极主动、活跃，及行事成熟、坚定；低分反映被动、拖沓和盲目。（7）处世态度。对人生和事业的基本态度。包括自信和淡泊两个小因素。自信：反映对理想、事业的追求。高分反映对生活和未来坚定而充满信心，工作积极进取；低分反映无所追求、懒散和不喜欢动脑筋。淡泊：对成就和成功的态度。高分反映无所期求、安于现状、退缩平庸；低分反映永不满足、不断追求卓越和渴望成功。研究者们根据中文人格特质形容词确定了中国人人格结构的“大七”因素模型，也就是确定了量表的结构与内容。（三）项目的编写与测验的合成量表的结构确定后，接下来的工作便是编写具体的测验项目。这一步要注意的是，在编制项目的过程中需参照中国人的生活习惯与经验。研究者根据中国人人格结构的结果，首先，把属于各个人格维度及其小因素的形容词分离出来，将同义词进行合并后，共得到336个词；其次，研究者依据每一个形容词所代表的人格特质的含义，编写3至8个句子，以反映该形容词所代表的人格特质的行为表现、内心体验、欲求水平以及具备（或不具备）该特质的程度；然后，以小因素为单位，汇总有关的项目，依据该小因素的含义逐个修改项目，直到其中的每一个项目都能测量该小因素的某一特点，最后，根据每个人格维度的特点，再对有关项目进行修改，使每个项目都能反映该维度的某种含义。经过这些步骤，确定的中国人人格量表的项目达1635个。将第一个维度所含的445个项目（量表）、第二个维度所含的310个项目（量表）、第三和第四2个维度所含的402个项目（量表）以及第五、六、七3个维度所含的478个项目（量表）分别装订成4个量表。每一量表的指导语都一样，即：请仔细阅读下面列出的每一个题目，按照以下的原则圈选出一个最能代表您同意或不同意程度的数字。答案并无对错之分。请尽量诚实地描述并正确地表达您的意见。请回答每一题，不要漏答。如果该题所说内容明显错误或您很不同意，请圈选1如果该题所说内容多半错误或您不同意，请圈选2如果该题所说内容一半正确一半错误或您难以决定，或介于中立，请圈选3如果该题所说内容多半正确或您同意，请圈选4如果该题所说内容很正确或您很同意，请圈选5也就是说，测验项目的形式为选择题。每个项目由题干和选择项所构成，题干为一个描述某一人格特征的情景或行为，选项有五个，从明显错误或很不同意到很正确或很同意，要求被试从5个选项中选出最能代表自己情况的一个选项。（四）试测与项目分析量表的项目编制工作完成后，下一步就需要对测验进行初测，收集数据与资料，并完成对数据资料的整理、统计与分析，对测验和项目进行分析，一边根据分析结果进一步修改完善项目与测验。中国人人格量表初测时，被试的选取共有2种途径：请北京大学的学生在寒假回家时带回问卷，请他们的亲朋好友（非学生）作答；大学生被试则由任课教师要求班上的同学作答。每一个被试只完成一份量表。4个量表施测的被试情况如下：量表I：671名，包括314名成人（分布在北京、安徽、福建、吉林等全国26个省区）和257名大学生。其中男性268人，女性301人，102人未注明性别。职业包括工人、农民、公务员、军人等60余种。完成量表、的被试其地区、年龄和职业分布与上述情况相似。量表：545名，包括301名成人和244名大学生。其中男性265人，女性277人，3人未注明性别。量表：520名，包括305名成人和215名大学生。其中男性253人，女性258人，9人未注明性别。量表：544名，包括340名成人和204名大学生。其中男性278人，女性246人，20人未注明性别。数据收集回来后，研究者对其进行了统计，分别以各个维度的每一个小因素为单位进行了主成分因素分析和最大变异正交旋转，并计算项目的共通度，对项目进行初步的筛选。删除共通性小于0.25的项目，每个小因素根据其共通性和载荷量选取最佳的30个项目，不足30个项目的小因素则保留全部项目。经过以上程序，依据336个人格特质形容词的含义所编写的1635个项目被缩减为718个。再经进一步的化简，最终得到由7个大因素、409个项目组成的QZPS的初步版本。（五）测验鉴定测验鉴定的主要内容就是对测验的信度和效度进行分析，看测验的信度与效度指标是否达到心理测量学对量表的要求。在编制中国人人格量表的过程中，收集信度和效度资料时，完成量表的正常被试为5010名。其中性别涵盖男、女；民族涵盖汉族、少数民族；年龄从16岁到55岁；职业包括政府、企业中的教育、卫生、管理、经营、技术、财会人员，大、中学生，工人、农民等；被试来自全国30个省、市、自治区的农村和城市。另有精神分裂症患者、吸毒者和在押罪犯共974人也作为被试参加了测验。研究者通过因素分析等方法对数据进行了分析，证明了原先的研究构想，并证明量表有较好的构想效度与内容效度。7大因素之间的低相关、大因素与相应小因素之间的高相关表明量表有较好的会聚效度与区分效度。另外，研究者还以周围人的评价为效标对测验的效标效度估计，发现测验效标效度较理想。对特殊群体（精神分裂症患者、吸毒者和在押罪犯）的效度分析也得到较好的结果。信度采用的是内部一致性系数（系数）和重测信度。分析结果发现，各大因素的系数均在0.8以上，小因素的系数也在0.8左右。重测信度也都达到了心理测量的要求。（六）常模的制作与测验手册的编写测验经过信效度鉴定后，需制作出常模和指导手册，才可以使用。常模是在将来使用测验的全体对象中选择有代表性的一部分人，这部分人称为标准化样本，对这些人进行测验，将所得分数进行统计处理，得出标准化样本的平均数与标准差等统计指标，形成该测验的常模。测验常模将原始分数转化为导出分数，人格测验常用T分为导出分数，转换公式如下： 9-5其中，X是某被试的原始分，是样本平均数，S是样本标准差。由于测验常模要按性别与年龄分别制作常模，所以要分别计算男、女与不同年龄组的平均数与标准差。将不同性别与年龄组的原始分、平均数与标准差原始分公式9-5，就可转化为T分，并制作不同性别与年龄组的常模表。测验编制的最后一道工序是编写测验指导手册，把与测验相关的一些资料汇集编订成册，即为测验指导手册。指导手册通常包括以下内容：本测验的目的与功用；本测验的理论依据；测验内容及实施测验的方法；测验的标准答案和评分方法；关于测验的信效度资料的说明；常模表，即如何依据常模解释测验结果。二、瑞文推理测验中国修订版的编制瑞文标准推理测验是英国心理学家瑞文(J.C.Raven)于1938年设计的非文字智力测验，并分别于1947年和1956年进行过小规模的修订。此测验的优点在于适用的年龄范围广，由于采用图形测验的形式，测验对象不受种族、文化与语言的限制，还可以用于一些生理缺陷者。测验既可个别施测，也可以团体施测，具有使用方便和省时省力的特点。许多国家引进了瑞文测验，并进行本土化的修订，直至今日，仍在广泛使用。1985年，在张厚粲教授的主持下，我国修订了瑞文标准推理测验，形成了中国城市修订版。这一修订过程基本上就是一个标准化心理测验的编制过程，当然，由于是修订测验，与编制原创性的心理测验在程序上虽基本一致，但会在某些细节上有差别。不过，为了便于结合我国的实际情况进行理解，我们仍以介绍测验的修订过程为主。（一）测验编制的目的瑞文测验的编制在理论上是根据斯皮尔曼的智力二因素论而进行的。该理论认为智力主要由两个因素构成，其一是一般因素，又称“G”因素，它可以渗入所有的智力活动中，每个人都具有这种能力，但水平上有差异；另一因素是特殊因素，又称“S”因素，这类因素种类很多，与特定的任务有高度相关。瑞文测验的主要目的是测量智力活动中的“G”因素，即一般因素。人们认为瑞文测验是测量“G”因素的有效工具，尤其与测量人的问题解决能力、清晰知觉和思维能力、发现和利用自己所需信息的能力、有效地适应社会生活的能力有关。（二）量表的内容由于瑞文标准推理测验均为图形题目，没有过多文化差异的影响，修订者全部沿用原题。瑞文标准推理测验一共由5组题目组成，分别是A、B、C、D、E，每组12道题，共计60题。A、B、C、D、E这5组的题目难度逐步增加。每组内部的题目也是由易到难排列。每组题目所用解题思路基本一致，而各组之间则有差异。直观上看，A组题主要测知觉辨别力、图形比较以及图形想象等能力；B组题主要测类同、比较、图形组合等能力；C组题主要测比较、推理、图形组合等能力；D组题主要测系列关系、图形套合等能力；E组题主要测套合、互换等抽象推理能力。当然，在实际进行测试的过程中，解决各组问题都有各种能力的协同作用，不能截然划分。一般来说，完成前面的题目对解决后面题目有帮助，完成先前一组题目也对后面各组题目的解答有学习效应。这也正是题目排列的用意所在。测验题的构成是每个题目都有一定的主题图，但是每张大的主题图都缺少一部分，主题图下有68张小图片，其中有一张小图片若填补在主题图的缺失部分，可以使整个图案合理与完整。进行测试的任务就是从每题下面所给的小图片中找出适合于填补大图片的那一张，并把该小图片的序号填入答卷纸内相应题目号下面。各题的标号是A1、A2、A3、A4、A5、A6、A7、A8、A9、A10、A11、A12，以及B1至B12，C1至C12，D1至D12，E1至E12。例图（三）测验的记分与解释方法测验的记分方式是0，1记分，每答对一题记1分。测验A、B、C、D、E各部分先分别记分，满分各为12。然后将五部分得分相加即得到测验总分，满分为60。被试所得分数即是他答对题目的总数。由于被试所得总分为原始分，即绝对分数。原始分无法了解被试在他所属年龄组中的相对水平，所以，还必须把原始分数转换为标准分数后才能解释。瑞文标准推理测验标准分采用百分等级，其涵义是被试在他所属年龄组群体

展开阅读全文

测验编制步骤

最新文档