心理与教育测量第六章ppt课件

资源描述

第六章测验的项目分析测验项目的难度测验项目的区分度分析猜测问题与猜测率多重选择题的项目分析第六章测验的项目分析测验项目的难度第一节测验项目的难度难度的意义项目难度的计算测验难度水平的确定难度的等距变换难度对测验的影响第一节测验项目的难度难度的意义一、难度的意义难度分类项目难度和测验难度。本章主要讲项目难度。难度定义难度是测验项目的难易程度。通常用“P”来表示。一个测验项目，如果大部分被试都能答对，则该项目的难度就小；反之亦然。CTT下的难度特征难度是测验项目性质与被试水平共同作用的结果。如果测验项目需要较复杂的心理操作，那么被试水平高时，得到的难度值就小；反之得到的难度值就大。一、难度的意义难度分类二、项目难度的计算得分率法通式（所有项目都适用）：为全体被试在项目上的平均得分，F为项目满分值。特式（针对二分法记分项目）：其中P代表项目难度；N为全体被试数；R为答对通过该项目的人数。二、项目难度的计算得分率法高低分组法通式：其中、分别为总分排名在前27%的高分组和后27%低分组被试在要计算难度的项目上的平均分。F为满分值。特式：=(RH/NH+RL/NL)/2其中和分别代表高分组与低分组的通过率。RH和RL分别代表高低分组答对人数，NH和NL分别代表高低分组总人数。高低分组法举例：请分别用通过率法和高低分组法计算下列两题难度举例：请分别用通过率法和高低分组法计算下列两题难度二、测验难度水平确定取决于测验的目的目标参照性测验可以不过多考虑项目难度，只要客观标准要求掌握的内容均应适用。常模参照测验应使项目平均难度为0.5，项目难度范围为0.50.2。选拔性考试应将项目难度控制在录取率附近分布，或使对选拔点附近的被试有0.5的难度，或难度为录取率。取决于测验的性质速度测验难度不宜太高，项目难度值基本相等。难度测验要求难度值在0.5左右。无论速度还是难度测验，都要防止被试得满分。二、测验难度水平确定取决于测验的目的四、难度的等距变换难度转换的目的难度为通过率，属于等级量表水平，需要转换为等距量表水平才能进一步进行加减运算。难度到Z分数的转换。以通过率P在标准正态分布表中查得对应的Z分数。由于Z分数存在负数和小数点，需要将Z分数作进一步的线性变换。ETS常采用下列换算公式：=4*Z+13。越大，难度越大。四、难度的等距变换难度转换的目的五、难度对测验的影响测验难度影响到测验分数的分布形态。测验难度太大，测验分数将呈正偏态分布。测验难度太小，测验分数将呈负偏态分布。测验难度中等，测验分数将呈正态分布。测验项目的难度分布影响到测验分数的离散程度，进而影响到信度。Ebel的实验。如下一幻灯片所示。Ebel的研究结论：项目的难度集中在0.5左右为最佳。测验项目的难度会影响到项目的区分度。（区分度这节再讲）五、难度对测验的影响测验难度影响到测验分数的分布形态。心理与教育测量第六章ppt课件第二节测验项目的区分度项目区分度的意义区分度的计算区分度与难度的关系区分度的相对性第二节测验项目的区分度项目区分度的意义一、项目区分度的意义定义：区分度指测验项目对被试心理特质水平差异的区分能力。通常用D表示。区分度价值：将优劣被试准确区分是测验项目的职能，区分度是对项目这项职能高低的评价指标，是评价项目质量，选择优秀项目的依据。区分度标准：本来应找客观外界标准，也即类似于效标的测量，但因比较困难，故转而在测验内部找，实际以测验总分为标准，称其为内部效标。一、项目区分度的意义定义：区分度的实质：项目得分与总分的一致性程度。区分度取值范围：-1，1，D为0无区分作用，D值为正，表示积极区分，越大区分效果越好，D0表示消极区分。区分度的实质：二、区分度的计算高低分组法（也称鉴别指数法）适用范围：二分法记分的测验项目。计算公式：评价标准：Ebel的研究结果D评价0.40以上0.300.390.200.290.20以下优良良好，修改更好合格，必须修改差，淘汰二、区分度的计算高低分组法（也称鉴别指数法）D14相关系数法点二列相关二列相关相关积差相关相关系数法（一）点二列相关适用范围用于总分是连续变量，题分是二分变量情况。显著性检验可用积差相关检验。计算公式其中p、q为答对和答错的人数比率。与对应于答对和答错该项目的被试的总分平均数，为所有被试总分的标准差。（一）点二列相关适用范围举例：请计算该题区分度举例：请计算该题区分度（二）二列相关适用范围题分和总为均为连续变量，但人为地将其中一个变量（既可以是总分，也可以是题分）区分为二分变量（例如，将总分为及格和不及格两类）。计算公式y是标准正态曲线下 p与q交界处的Y轴高度（曲线高），要查正态分布表。（二）二列相关适用范围二列相关的显著性检验二列相关的显著性检验心理与教育测量第六章ppt课件（三）相关适用范围总分区分为高分组和低分组，项目得分区分为通过和未通过。即两个变量均为二分变量时。资料整理成四格表（注意：格式中的符号表示该格的人数）高分低分通过ab未通过cd（三）相关适用范围高分低分通过ab未通过cd21计算公式：其中a、b、c、d为四个格子的人数。为相关系数。相关的显著性检验使用检验，其中自由度df=1。检验公式为：计算公式：举例：请计算该题的区分度举例：请计算该题的区分度（四）积差相关例子：请用积差相关法计算下列论述题的区分度。（四）积差相关例子：请用积差相关法计算下列论述题的区分度。三、区分度与难度的关系D的最大值与项目难度的关系（理论上）三、区分度与难度的关系D的最大值与项目难度的关系（理论上）25题目的综合分析和筛选整个测验的平均难度应保持在0.5左右。测验中各项目之间有一定相关，为了使成绩分布均匀，项目难度的应广一些，梯度大一些，最好成正态分布。每项题目理想的区分度都应在0.3以上，至少是0.2。题目的综合分析和筛选四、影响区分度的因素效标不同，区分度不同。应选择较好的效标。不同的计算方法，所得区分度不同在分析同一个测验时，各个项目的区分度值要采用同一种指标。样本容量大小影响相关法区分度值的大小样本容量越小，区分度的计算值越不可靠。采用相关法计算的区分度要进行显著性检验和计算统计检验力。四、影响区分度的因素效标不同，区分度不同。分组标准影响鉴别指数值一般情况下，取25%33%，习惯上取27%。当效标分数较正态分布平坦时，比值应略高于27%。当样本团体人数过少（例如样本容量n100）时，可按50%的规则选取高低分组被试。被试样本的同质性程度影响区分度值大小同质性高，区分度小。区分度高低受被试样本团体特质水平影响。因此不能将区分度作为筛选试题的绝对标准。分组标准影响鉴别指数值五、提高题目区分度方法(1)控制好题目难度。将题目难度在0.5左右时，区分能力理论上会比较高。(2)保证题目所测心理特质与全卷所测心理品质的一致性。(3)题干及答案无歧义。(4)语言准确规范。(5)借助选项分析提供的信息对不良选项进行修改，以提高题目区分能力。五、提高题目区分度方法(1)控制好题目难度。将题目难度在0综合练习一试卷施测于十一名被试，结果如附表。综合练习一试卷施测于十一名被试，结果如附表。请求取：（1）第二、第五两题的难度。（2）第三题的区分度（点二列相关）。（3）第六题的区分度（高低分组法）。（4）全卷信度系数。（5）试卷实证效度。请求取：第三节猜测问题与猜测率客观测验题中的猜测问题与猜测率项目难度受猜测影响的校正第三节猜测问题与猜测率客观测验题中的猜测问题与猜测率一、客观测验题中的猜测问题与猜测率客观测验题中的猜测问题测验分数确实反映了被试的真实特质水平还是因为猜测而获得成功？猜测误差的来源猜相对于不猜引起的误差是否猜得对引起的误差猜测率是指被试全凭随机猜测而答对题目的概率。猜测行为主要出现在客观题（如选择题、是非判断题、配对题等）一、客观测验题中的猜测问题与猜测率客观测验题中的猜测问题二、项目难度受猜测影响的校正猜测校正公式（前提：猜测是随机猜测）因猜测对项目难度的校正其中CP为校正后难度，K为备选答案数，P为实际难度。因猜测对个体得分的校正其中R为原答项目数，W为错答数，K为为选项数。二、项目难度受猜测影响的校正猜测校正公式（前提：猜测是随机猜举例有A、B两个测题，项目A为四重选择题，通过率为0.58；项目B为五重选择题，通过率为0.56，试比较两题校正后的难度。某被试参加由100道四重选择题组成的测验，每题1分，测验结果是82分，请问其校正后的分数是多少？举例有A、B两个测题，项目A为四重选择题，通过率为0.58；猜测校正的争议赞成猜测校正的理由通过猜测校正可避免降低测验的信度。校正后的得分可以反映被试的真正水平的能力。在教育测验中，可培养被试诚实的美德。比较公平。不同试题间的难度比较分析需要校正。猜测校正的争议不赞成猜测校正的理由公式的基本假设不成立。只要被试能答完全部试题，猜测校正就无实质作用。不采用猜测校正对信度并无重大影响。有时会出现无法解释的现象。合理猜测是值得培养的好习惯。综合观点：如果答题时间充裕，选择题的备选答案数目在四个或四个以上，则没有必要校正记分。不赞成猜测校正的理由第四节多重选择题的项目分析多重选择题项目分析的作用与内容项目能否测到要测的心理特质；项目难度是否恰当；项目的区分度能否达到要求；正答选项选答率是否恰当；正答选项在高低分组上选答率是否正差？差距是否足够大？诱答选项选答率是否恰当；诱答选项在高低分组上选答率是否是负差？差距是否足够大？第四节多重选择题的项目分析多重选择题项目分析的作用与内容具体分析步骤：1、根据被试的测验总分，对被试进行排序2、确定高分组和低分组被试3、分别登记高分组被试和低分组被试在每个备选项的人数及未作答人数（也可以是人数百分比），最终整理成类似下表中的数据资料具体分析步骤：4、根据第3步整理好的数据资料，进行具体分析4、根据第3步整理好的数据资料，进行具体分析40选项分析的方法及选项修改原则 1、首先分析两组平均选答率正确答案的平均选答率（即难度）最佳值为：选项分析的方法及选项修改原则每个干扰项应该平均分剩余的选答率。如果正确答案的选答率过高或过低，这都不利于区分高分组和低分组被试。如果某干扰项选答率特低，则说明该干扰项错的过于明显应加以淘汰；若某干扰项选答率特高，则要考虑该题正确答案是否错误或有两个正确答案。2、对于正确答案主要考察高分组和低分组被试在正确答案上的选答率是否是正差，及这一差距是否足够大。只有当高分组和低分组被试在正确答案上的选答率是正差，且这一差距足够大时，这时题目质量较佳。每个干扰项应该平均分剩余的选答率。3、对于干扰项考察高分组和低分组被试在干扰项上的选答率是否是负差，及这一差距是否足够大。只有当高分组和低分组被试在正确答案上的选答率是负差，且这一距差足够大时，这时干扰项的设置比较合理，否则干扰项设置不合理，应对干扰项进行删除或修改。4、其它如果高分组被试的选答集中在两个答案上，且人数又相近，说明此题可能有两个正确答案，或者在某种意义上另一个选择项也有一定道理。应考虑题目本身是否存有歧义或有两个正确答案。3、对于干扰项如果高分组对正确答案的选答率与低分组相等或低于后者，说明该题所考察东西与被试水平无关，即不具有鉴别力，此题应作大修改或删除。如果一个题目被试未作答的人数较多（速度测验除外），或选择各个备选项答案的人数相等，说明该题目过难或题意不清，被试无法作答或全凭猜测。应修改或删除本题。如果高分组对正确答案的选答率与低分组相等或低于后者，说明该举例下表为一个由370人参加的英语测验中四道选择题的统计结果，试分析每题难度、区分度是如何计算出来的？并对这四题的选项质量进行评价。举例下表为一个由370人参加的英语测验中四道选择题的统计结果心理与教育测量第六章ppt课件心理与教育测量第六章ppt课件选项分析：第1题，正确答案和干扰项的两组平均选答率都基本正常，在正确答案上高分组的被试选择人数要多于低分组被试，且在非正确选项上，高分组的被试选择人数要少于低分组被试，这符合实际情况，四个选项的设置均较合理；选项分析：第2题，正确答案和干扰项B的两两组平均选答率基本一致，且正确答案上高分组的被试选择人数要少于低分组被试，而在非正确选项B、D上，高分组的被试选择人数要多于低分组被试，这均不符合实际情况，且高分组被试中选择人数最多的为选项B，则要考虑该是否有2个正确选项，因此该题选项设置较差，因此整题质量较差。第2题，正确答案和干扰项B的两两组平均选答率基本一致，且正确第3题，选项A、B、D两组平均选答率都基本正常、设置均较合理，但选项C需修改；第4题，选项A、D设置合理，选项C设置不合理需修改，不论高分还是低分组被试均无人选择B，该选项无任何迷惑作用，可删除该选项，并换其它具有迷惑性的选项。第3题，选项A、B、D两组平均选答率都基本正常、设置均较合理练习练习补充：题目功能差异与测量偏差控制题目功能差异、测量偏差定义及其侦查方法题目功能差异及测量偏差定义“某年的高考实验试卷有一道关于鱼头和鱼尾作文题：第一幅是母亲把鱼中段夹给年幼的儿子，自己吃鱼头鱼尾；第二幅漫画是儿子长大了，把鱼头鱼尾留给母亲吃，自己吃鱼中段。要求被试就此发表议论，写一篇作文。”补充：题目功能差异与测量偏差控制题目功能差异、测量偏差定义题目功能差异（differential item function，DIF）是指不同群体对同一题目的答对概率（或得分率）不同，即不同群体在同一题目上得分存在差异。造成题目功能差异的原因可能是群体间本身水平存在差异，也可能是群体本身水平不存在差异而由于其它原因（如风俗习惯、性别、种族、地域）所致。题目功能差异（differential item funct若题目功能差异是由前者引起，则称为良性题目功能差异；若是由后者引起，则称为不良题目功能差异，即存在测量偏差。题目功能差异主要是针对不同群体而言，目前测量学领域关注较多群体差异主要有性别差异、地区差异、种族差异、跨文化差异等。因此有DIF的题目不一定存在测量偏差，良性DIF不存在测量偏差，不良DIF才存在测量偏差；但有测量偏差的题目一定存在DIF。若题目功能差异是由前者引起，则称为良性题目功能差异；若是由后在题目功能差异研究中还有一对重要概念:一致性DIF和不一致性DIF。一致性DIF是指被试的能力水平与其组别之间不存在交互作用，即在所有的能力水平上，一组被试回答某一项目的正确率都大于另一组。当被试的能力水平与其组别之间存在交互作用时，则表现为非一致性DIF。题目功能差异及测量偏差侦查方法要侦查题目是否存在测量偏差，首先应侦查题目是否存在DIF，若不存在DIF，则不存在测量偏差，若存在DIF，还应分析是良性DIF还是不良DIF，只有不良DIF才会造成测量偏差。在题目功能差异研究中还有一对重要概念:一致性DIF和不一致性1、DIF及测验偏差侦查的一般步骤（1）被试群体的确定及数据资料的准备根据测验特征，确定哪两类被试群体可能会存在DIF。然后再随机抽取这两类被试群体的测验反应数据。所抽取的被试总量应足够多（一般不少于1000人）。（2）目标组和参照组的确定根据题目特征，确定题目对以上确定的哪类群体有利，若第（1）步确定为男生和女生两个群体，且认为题目可能对男生有利，那么一般把男生样本作为参照组，女生样本作为对照组。1、DIF及测验偏差侦查的一般步骤（3）匹配变量的确定一般以测验总分作为匹配变量，将两个群体中相同测验总分的被试一一匹配，采用适当的DIF侦查方法进行分析，找出并剔除存在DIF的题目，从而组成一个不含DIF的子测验。然后再以该子测验的总分作为匹配变量，再对子测验进行DIF分析，找出并剔除存在DIF的题目，如此反复，直到找到一个不含DIF题目的子测验，并以被试在该子测验上的得分作为最终的匹配变量。（3）匹配变量的确定（4）DIF的探索性分析根据第步确定的最终的匹配变量对测验所有项目进行正式的DIF分析。（5）DIF成因分析成立专家小组对题目产生DIF的原因进行分析，并确定哪些题目是真正存在偏差，即存在不良DIF。这需要学科专家、所测特质研究专家、测量学专家多方面人员共同参与完成。（4）DIF的探索性分析2、DIF侦查的常用方法在DIF侦查的一般步骤的第（3）和第（4）步都涉及DIF的侦查方法，MH法是目前常用的基于经典测量理论下的。2、DIF侦查的常用方法

展开阅读全文

心理与教育测量第六章ppt课件

最新文档