IRT分析程序ANOTE与MULTILOG、PARSCALE参数估计性能比较

资源描述

IRT分析程序ANOTE与MULTILOG、PARSCALE参数估计性能比较漆书青为表达方便，我们用An表示ANOTE程序，Mu表示MULIILOG程序，用P“表示PARSCALE程序，下戴海琦2丁树良3罗照盛4董圣鸿5周骏6（1.漆书青，教授；2.戴海琦，硕士，教授；3.丁树良，硕士，教授；4.罗照盛，博士，副教授；5.董圣鸿，硕士，讲师；6.周骏，硕士，讲师；江西师范大学教育与心理统计测量研究开发中心，江西南昌330027）摘要：考察了自主开发的“现代教育与心理测量通用分析程序（ANOTE）”的IRT参数估计质量，与MULTILO旨日PARSCAL哩行了比较，大量MonteCarlo模拟研究表明：对难度等级为9以下时，三程序估计精度相近；难度级别10-14时，MULTILOG能处理，ANOTEWPARSCAL昭计精度各有千秋；难度级别在15以上时，只有ANOTE能处理当遇到同一试题两相邻难度级别很接近时，MULTlLOG古出值顺序可能逆转。关键词：参数估计；程序；RMSDABSE一、问题的提出国际测量学界有按项目反应理论（IRT）处理多级计分资料的分析程序，最著名和最流行的是MULTILOG和PARSCALE。它们既能处理社会心理测量与心理卫生评估中的5点、7点乃至更多级别的测评量表资料，又能处理成就测验中的多等级计分题资料（参见两程序使用手册）。但MULTILOG的最高等级数为10（即9个难度级别），PARSCALE的最高等级数为15（即14个难度级别）。在我国，心理测量中等级计分资料一般多在9点以下，而成就测验中，却历来有坚持综合运用选择题与多等级计分题的良好传统。一般，选择题占分比重只是40%左右，主要部分是多级计分题（即西方所称“主观题”）；而且，不少题型（如作文、分析论述、综合证明等）的满分值常在15乃至20或30分以上。因此，MULTILOG和PARSCALE在我国教育测量中的使用范围就受到很大局限。为满足我国教育与心理测量工作实际发展的需要，我们自主开发编制了“现代教育与心理测量通用分析程序（ANOTE）”。它能处理级别数超过30的等级计分题资料。这对在我国推广IRT的研究与应用，当然是会有所帮助的。程序ANOTE包括参数估计、模型-资料拟合检验、等值、信息函数计算等模块。它采用Samejima双参数模型（GRM）,并把0-1计分题当做等级计分题的特例来处理。项目参数估计采用MMLE/EM方法，而对能力参数采用Bayes后验期望估计（EAPE）。其具体做法是应用项目参数估计中最后一轮EM循环中得到的。的后验分布h（0|ua,E）的值h（yk|ua,E），这里y1yq为积分结点，求能力参数的Bayes后验期望估计。(3)-E(凯虬w)d札VtnL.GQ*，=乙：#3如弟A(2)、(3)中h(yk|ua,g)为。的后验分布的估计，yk为数值积分的求积结点，A(yk)为相应的A权，而式(4)中pkjt是GRM中运算特征曲线，其中项目参数均由EM算法估出，而能力参数La(yt)=n/*Irc由积分结点yk代替。程序ANOTE中参数估计模块是整个分析系统的基础而关键性的部分，其行为表现或者说估计性能如何，理应高度关注，严格检验。假使其估出参数值正确性不高甚至完全失效，以后的等值方程求取与信息函数计算就会丧失应用的价值与意义。所以我们特地采用MonteCarlo方法，设置修复能力指标来考察程序ANOTE参数估计的正确有效性，并跟国际通行程序MULTILOG和PARSCALE作了比较，相当系统而认真地进行了本研究。二、方法与设计按MonteCarlo法检验计算机程序估计参数准确有效性应执行如下步骤：指定真参数值，本研究中一方面指定项目参数(即构建模拟试卷),另一方面又指定被试参数(即设置被试群体)。由于采用Samejime双参数模型，能力参数0-N(0,1),难度参数b-N(0,1),区分度参数a的对数InaN(0,1),N(0,1)表示标准正态分布。2.模拟生成得分反应矩阵x;一般同一批真项目参数条件下模拟多批被试，从而模拟出多个得分矩阵(如30个)。3. 使用拟考察与检验的参数估计程序，本研究中即使用ANOTE,MUL-TILOG,PARSCALE三个程序1,根据反应矩阵x估出项目与被试参数。4. 求取参数估计值与真参数值的差，设计修复能力的检验统计指标，分析与比较这些指标值，以验证有关参数估计程序的估计性能。2, 我们设计的修复能力检验统计指标有三：一个是RMSD，一个是ABSE,另一个是MEANE。例如，对于项目区分度参数a,KMSDia)=V:7(*-%)1同。/rm(5)A(t)式中，aj表示由第t批被试的得分阵x估计的第j个项目的区分度，j=1,2,，m,t=1,，r.而aj表示第j个项目的区分度的真值。ARS(t)=；“；箫-Rerm人(t)而MEANE(a)=t*/aj-aj)/rm(7)设置三个度量指标的意义是：RMSD(a)是一个常用的表示参数估计程序对真值的修复能力的指标，其好处是在一定的条件下，可以讨论RMSD的分布或渐近分布；MEANE(a)则可用其大小和符号来考察参数估计程序是否有系统的高估或低估的现象发生；而ABSE这个指标虽无上述优越性，但其绝对值平均对越轨值(outler)有稳健性(robust),可说明估出值对真参数值的绝对平均偏差，若大，即修复程度差。相仿，我们可以定义RMSD(b),ABSEE(b),MEANE(b)以及RMSD(0),ABSE(0)昶MEANEE(0)。当然从数学上来看，必有MEANE(a)ABSE(o)而根据Cauchy-Schwarz不等式，必有ABSE(a)RMSDa)。对参数b、。也有相类似的结论成立，即有：MEANER)ABSE(-)60个)9分V个）力3)-r山-0,0*用L0.040L-。倾如OS：-ooaxO.OKMd：.。畋o；-(l(X2?A；O.OS3STOIOBmsg00123A5CFTE日皿8；。,伽g：000&*：0一醵A：O.UTObAtWlttl1网：0It44A：Ouffnsdi006X16:0.1112O2K55畋1am6：0.IM2b：0JZZ7加0.08WL0080Pa；0.3)10农0tfflll锹hoiar；o.n6:0.1621Q.35780.019540.IIB4a：OdDl必MJ774：.03EPh-0.0038：-0.0116OOMat-O.mh-o.asiRQ0tt2a：0W7Lajtnsat0M1。一欧小0,政a：0知1B:D.IQS以蜘A：0.a；0HMi：0.lW0554551粉1顾1215a：0.0WJ0056o：。阪e$56心01092良0,1*aiGI55M0.XMOMEW奴网一油i：-00250d:-0.4147k0.0151o0,4189hO.fltl?yQ睡A：a：-0.WL-aom005(12PAftOLEa；a眼(HKB*：om：0-0K27a：0.4t*7b。安s04IBi：a.M一蜒5一砌上OOW20Wa：0.4%90.W5?itQHOI:04W&：o伽a：0.4941L0J2Wa：0.6151bi0佃1I(LS1W上0.1IK?Q1W1由表1可知：1. 三个程序都有低估参数a的倾向，且ABSE（1,a,Pa）ABSE（15a,An）ABSE（1,a,Mu）2. ANOTE对参数b有轻微的高估倾向，而MULTILOG和PARSCALE则有时高估有时低估。3. 若将RMSD（a）与RMSD（b）看成同等重要，则表1指出，ANOTE和MULTILOG对项目参数的修复程序比PARSCALE好；而对能力参数的修复程度，则ANOTE和PARSCALE比MULTILOG好。4. 项目的等级数对指标RMSD、ABSE、MEANE均有影响，表l表明，不论哪一个程序，似乎对5等级评分项目的难度b的修复程度都较好，这对试卷编制可能有意义。（二）设计二本设计构建既有0-1记分又有多级计分的模拟试卷。其中0-1记分题40个，多级计分题11个（4分题3个，5分题6个，9分题2个），满分100。项目最高等级数为l0,无陷阱题，参数估计收敛精度为0.01,被试1000人。2i-o与多等最顺混合的ion分试卷，无pemiK.iDoo个破试全卷前40期后11地岫Awm:ABSKa：0.2917知0.1140a：0.3273a：0.1620M0.122A屈0.皿0.2398RMSDy0.3512b：0,1937Ol0.3742a:0,2502biOJBff?i：0.19700.KB3MCLTIUX；-ABSEa：0.0744bz0U466a；0.0130o：0.082(b：0.14686i0.14660-2703rRMS!)a：0.1013札0.4474a；0.0933a：O.UM虹0.32276：0,51390.3956Muuniw(windm营版本)!一iAHSEs0.0747bi0,14(J7；0.0724a：O.O82SbiOJ4O5b:0.L409!一RMSl)a；0J0I2bi0.5053a：0,0935d：0.12546；0.3230捉0.5966PAIVCAIJ：ABSK心0.5015良0.1260i：0.27610.4069bi0.13596;0.1IW0,2429HMSl)a；0.3495b；0.2074a：0J239a：0,43006:0.2052iL0,20880+3082PARSCALE(wind*)wy版本，ABStu；0.2W5b；0.1291d：0.2707a：0+399ti6r0.1386A；0,12280,2433RMSDa；0.M656；O.21Q3a：03212aiO.42A16：0.21006：0.21050.3087表2表示：RMSD(2,a,Mu)RMSD(2,a,Pa)RMSD(2,a,An)RMSD(2,x,An)RMSD(2,x,Pa)；aiO.07504:0,1438a：O.C72O6：0J4OSfliO.0847b：0J441O,26J7HMSl)ajO.1023知0.5125atO.09326:031*2atO,12t；0.6O6MPARSCA1J：ABSE4):0.3091农0.1206=0.27956；OJ331d：0.4J540.11240.2414HMS|a：03578AGESdtO.33056:0.MMa：Or4429b：D.20&00.3061表3说明，对于0-1和多等级混合的测验RMSD(3,a,Mu)RMSD(3,a,An)RMSD(3,a,Pa);RMSD(3,b,An)RMSD(3,b,Pa)RMSD(3,b,Mu);而且就参数a而言，三个程序对应的RMSD均在0.36以下；就参数b而言，ANOTE对应的RMSD0.5。(四) 设计四本设计构建全是多级记分项目组成的模拟试卷。由l5个项目组成，其中3分题2个、5分题3个、7分题3个、8分题l个、9分题2个、l2分题2个和14分题2个，满分为120分。但项目最高等级数为15,无陷阱题，参数估计收敛精度为0.01,被试1000人。由于MULTILOG使用手册明确指出它能处理的最高等级数为10,故本设计只考察PARSCALE与ANOTE两程序。*4全建室等级的T20分试卷，无骼幡速，被试1000人，收敏精度为0,013Mlit*；2溥力d：-QM3QI-OOMQd：-Q.M6：-Qtfchaj-ooan知虹0_3bV-0t9llSi嘛Vi：-0UMar0.0872i：QNI*-OQW1SIMM4：0LMiiiOJtM=q：0.087b:。硕。：OCTOi：0,104。：0皿hOOttO-：0.3UirOOTl?4t009170.J3IJ4：MM0J2KFWI11承0CB054：a.ino心伽MC舟小。聃410121004MSrOinimi*皿S0.12FiiOIWSiODCQ1,：mbuni：-0wo:-0郁a：-0MQ2aj-0113?-Cjtl-00E12-D.0I6E：L-OffiW必QOt剪i!-0,.Uf?3-0QJ47k-0(ES：D.OW小税L山tiu?!*：0Z3W:。如3：4i：0.MTO*：05ParOtiZZd：tMa：0JIND2*t6虹。厦Mt：a期也。顾虹om0加。醐桩Qm咬戏:0w*：DJX日盼矶珊0J7I5SiO.lM：QKM5，:01316OOM如AIM由表4可知，对于全是多等级项目，ANOTE对a参数修复能力明显优于PARSCALE;但对难度参数b和能力参数，贝UPARSCALE的修复能力比ANOTE稍好一些。(五) 设计五本设计构建既有0-1记分又有多级计分的模拟试卷。共54题，0-1记分题40个，多级计分题14个(4分题3个，5分题6个，9分题2个，l4、16、20分题各1个)，满分为l50。项目最高等级数为21(即满分为20)，无陷阱题，参数估计收敛精度0.01，被试1000人。0-1与与等级混合的150分试卷，无陷阱个iff试全卷后14题14分映18分给隧力ANHTEAHSE6;O,I7434:03249a：0.22(史002Dc；0.河mO剧】白舟,1232&：0实8i：0.2807如0.27网A：023330.2365曲蜘6:0.410fl*037004；0.3644a：0rn24a；0.W?3n：l.O0-0.18825；0,49030.6Q908:0.60040.K56PAKWA1上皿：1_gOE&；0.倒4iO.2fiS9fl-O.WIa：0.4!Ms：o.tw7Mo.ifiHb,my0.2414RSMD4:0.34034舟.3138t0.4l66:0.4J9)810.21416舟.404(知0,61界0.)058由于PARSCALE使用手册明确指出它所处理的最高等级数为15分，因此对于后两题（即16、20分题）PARSCALE程序无法估计其参数。从表5可知，PARSCALE不能处理14分以上题目，而ANOTE可以处理，然而对于16分题的计算结果远好于对20分题的计算结果。从可比较的前40题（0-1评分题）及相应的14分题来看，ANOTE与PARSCALE各有千秋。（六）设计六本设计构建0-1记分与多级计分并有的模拟试卷，并特意设置4个陷阱题。本模拟试卷*60-I与雷等麹M混合的100分试卷,有陷阱通,1001）个被试金卷Sufi4个7个多wa47个常阱器陇力眠Em皿S；0JH1a：0JLS46;012S1a;0J4M片：0l由fl：O1133A：0J17!4；（M迎&：0一1姗6:0,1374o.gKMSDM0.I729d；0,?677A：0.18S726676:0.2310Q曲6：0.MEa：O.3l7l讪.聊h：0神0wMllTIlDCABSE*r：0,0RI4札。.榔fl：0.(17,VMUSS：04ioe虹1.1810o；0J9n舟,0618i;0J767tr：0.07l6仙JSW0汝1KMSDL-a：0J184b：0.22Kiw4；371W6；6164i：O.OR15虹。，南5a：O.09l20:0.31670.3174U:mulogAHSE以：0,响atO.fm6：0.l49fiW6:1.433(2a：Q.JXb：J4WT.OMC6:0.1801a：0.07226:0.ICTRMa；0.IIS9*4.4258,0邮6：0.22fld=0.17436:5.7130a：0.26K589囱d-O.O0Q94:04013a：0.0$19A：a323OPARSCAIJ-ARSEo：0.2K29、：0g4i：02W8$：o.g；0.3618“O翊MI44(t:0W：0.1719o；0.淞0.2310（有等缰舍井）RMSDa*03311&：(M期3157irO.aw。：0.初12260-：0WA：GJ577r：040546:0-3656o：0.3287h；0，*0.JI95PARSGMI研0.2S026；O.I2d：o.w40,14068:0.1376:0.36用ma：0359340.1716a：Q.2X31m.iw0.2509（无等at舍井KMSI)fc：Q.I7K4fl：03M73:0.2092N7Ib；0.2260a：O.3S12I4S9a：0.4059403654d：0.3290m.跚03194P岛ZALEVlHkM版本J（有辑圾合并】ABSEa：0.T?4A0J292a：0.2593WJ433a:0.3m6:0.1401n：0-333O6：0一1皿a：0.3WMIMS研0,2721仙-1572OK3RMSDo：0.3319只1823a；03E21b；O.2l35o；0.W566:0.2280aiOJ7956:0.1475o：0蜘1),或者说对相应项目难度估计很不合理，会使得难度不能随等级数上升而上升，即会出现“倒序”现象。MULTILOG与ANOTE在其中两个“陷阱”题上估出值的对比情况见表7。W7MULTIHIG苍陷阱蛾上的剖序情说医正常H比较区分度难度。上次-078(6-0.7778-0.(1522O.S548L309328722d587641a*+00263多30.490-0.777-0.773-O.G3405W1.376区分度I.鸿170.93L268唾度1-1.5(01-1.4152-L0I420,81-0.9633-057780.060.5524Q.06960.450.587511.810.5506O.5fl75-11.160.56570.9620-1.280.W1.1866-0.45IJ2Q41.41560.S1345四、讨论与总结1.在难度级别为10及以下时，表l至表3说明，三个程序修复指数的排序虽略有差别，但无重大差异，故可认为三程序的估计性能相近。其原因是模型与估计方法相同，只是某些细节技术处理有异而已。1. 当两相邻等级难度差值过小时，表6说明MULTILOG的估出值会出现奇异现象，PARSCALE则要求合并等级即减少指定等级数。只有ANOTE可照常进行。2. 在难度级别是l0一14时，表4说明MULTILOG不能进行分析，PARSCALE与ANOTE都能进行分析；但PARSCALE的a估出值不如ANOTE,b的估出值都优于ANOTE。0值各有千秋。3. 表5说明只有ANOTE能分析15级以上的项目资料；且从表2、表3、表5、表6看，一般说，ANOTE本身中，除特别高等级的题外，多级计分题估出值优于l-0计分题估出值。(参加本文数据处理的有：朱玮、涂冬波、黎光明、邓太平、陈德技、吕英1 参考文献BakerF.B.,ItemResponseTheory：ParameterEstimationTechniques,MarcelDekker,Inc.,l992HarwellM.R.AnalyzingtheresultsofMonteCarlostudiesinItemResponseTheoryEducationalandPsychologicalMeasurement,V01.57N0.21997,266-279Barlett,M.S.,&Kendall,D.CThestatisticalanalysisofvarianceheterogeneityandthelogarithmictransformation.JournaloftheRoyalstatisticsociety,1946,N0.8128-138.2 DavidThissen,MULTILOGTMUserGuide,1991,Ver.6.0,ScientificSoftwareInternational,Inc.,l991.3 EijiMuraki,&Bock,M.DPARSCALETM:IRTItemAnalysisandTestScoringforRating-scaleData,ScientificSoftwareInternational,Inc.1997

展开阅读全文

IRT分析程序ANOTE与MULTILOG、PARSCALE参数估计性能比较

最新文档