资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第十二章 卡方检验(一),用于检验:,1)两组或几组率或构成比的差异有无显著性,2)各行的平均分间有无差异,3)行与列两个顺序分类变量之间是否相关,4)拟合优度检验,第一节 四格表资料的,2,检验,以P153,例121为例,1、四格表:将资料列成表格,表格中四个数字是基本的:63、17、31、68,称四格表fourfold table,2、实际数:表内各格数字为实际资料的数字,称observed value, actual frequency,记为O或A,两样本率不同的原因:抽样误差、总体率确实不同,两种类型胃溃疡病内科疗法治疗结果,为检验是否为第二种情况,无效假设为两种治愈率本无不同,差别仅由抽样误差所致。,3、理论治愈率:,根据两组治愈率相同的假设,合计治疗179人,总治愈94人,得理论治愈率为 94/179=52.51%,4、理论数:,一般溃疡患者80,按理论治愈率应治愈8052.51%=42.01,称theoretical value, theoretical frequency.,记为T。同理可得其余理论数。亦可由减法求得,T,rc,=(n,r,n,c,)/n:,理论数为行合计乘列合计除总合计,理论数有两个特征:1)理论频数表的构成比相同,即不但各行构成比相同,而且各列亦相同;2)各个基本格子实际数与理论数的差别(绝对值)相同,5、样本率的差别演绎为实际数与理论数的差别:,两样本率相差愈大,则实际数与理论数的差别就愈大。若无效假设成立,实际数与理论数之差就不会很大。,1)实际数与理论数之间的差别等价于两样本率的差别,2)检验假设H,0,:,四格表的构成比相同,等价于H,0,:,两总体率相等,3)对实际数与理论数差值的假设检验,等价于对两样本率差值的假设检验,6、,2,检验的基本思想(及计算步骤),1)假设两总体率相等(构成比相同),H,O,:,1,2,,,即两总体阳性率相等,H,1,:,1,2,,即两总体阳性率不等,0.05,不妨把H,0,看作:,1,2,两样本合并的阳性率,2)实际数与理论数的差值服从,2,分布,又称pearson ,2,:,2,值是以理论数为基数的相对误差,它反映了实际数与理论数吻合的程度(差别的程度)。若检验假设成立,则实际数与理论数的差别不会很大,出现大的,2,值的概率,是很小的,若P,就怀疑假设,因而拒绝它;若P,则尚无理由拒绝它,2,值的大小随着格子数的增加而变大,即,2,分布与自由度有关。因而考虑,2,值大小的意义时,要考虑到格子数。当周边合计数固定的情况下,四个基本数据当中只有一个可以自由取值,即自由度为1。,(R-1)(C-1),R,行C列时,R行中有一行数据受到列合计的限制而不能自由变动,C列中亦有一列数据在行合计的限制下不能自由取值,3)查,2,分布界值表确定P,值并作出推论,2,39.93,自由度为1,查附表67,2,0.05(1),=3.84; ,2,0.01(1),=6.63; ,2,0.001(1),=10.83,一般类型的治愈率高于特殊类型(结合样本率作实际推论),P0.001,按,0.05水准,拒绝H0,接受H1,因而认为两总体的阳性率有差别(统计学推论)。结果说明,,两组胃溃疡病人治愈率的差别有高度统计意义,,7、,2,值的校正、四格表,2,检验的条件,实际上,2,值是根据正态分布中,2,(x,i,-),/,2,的定义计算出来的,用前述公式算得的值只能说近似于,2,分布,在自由度大于1,理论数皆大于5时,这种近似较好;自由度为1,当有理论数小于5时,需进行(连续性)校正,2,检验条件:(四格表),1、当n,40,且所有T5时,用普通的,2,检验;若所得P ,改用确切概率法。,2、当n40但有1T5时,用校正,2,检验,3、当n40,或有T1时,不能用,2,检验,改用确切概率法。,8、四格表专用公式,为方便起见,当基本格子的实际数命名为a,b,c,d;行合计写为a+b、c+d,列合计写为a+c、b+d,n为总观察数,第二节 行列表的,2,检验,当行或列超过2组时通称为行列表,或RC表,亦称列联表contingency table。可用于,1、多个率的比较,可用以下简化公式(无相应校正公式),适用条件:,不能有理论数小于1,并且1,T5的格子数不超过总格子数1/5。,条件不足时的三种处理方法:,1)增大样本例数使理论数变大,2)删除理论数太小的行或列,3)将理论数太小的行或列与性质相近的邻行或邻列合并,使重新计算的理论数增大。但是此处理可能损失信息,也会损害样本的随机性,不同的合并方式所得的结果也不一样,因而在不得已时慎用,2、多个构成比比较,3、双向有序分类资料的关联性检验,表格是按两个变量从小到大顺序分类整理出来的,目的是研究两变量间有无关联性。从左上角往右下角看,频数有无集中在此对角线上的趋势,即两变量有关联。若频数在这些格子均匀分布,或各行分布(构成比)相同,且各列分布(构成比)相同,则表示两个变量无关联性了。,RC,表,2,检验注意事项,若表格有一个方向按多个等级分类,则称为单向有序行列表,当等级数大于3时,一般用秩和检验分析更为合适。,似然比卡方统计量,Likelihood ratio chi-square,自由度的确定及临界值与Pearson卡方一致,理论上当样本量相当大时,Pearson卡方和似然比卡方都接近卡方分布;样本不够大时都偏离卡方分布,两者的数值不同但接近,实践中这两个统计量可同时使用,结合起来下结论。,第三节 四格表精确检验法,卡方检验的基本公式和校正公式有其应用条件,且仅为近似。当四格表中有理论数小于1或总观察例数小于40时,需改用四格表的确切概率法exact probabilities in 22 table。,基本思想:在四格表周边合计不变的情况下,获得某个四格表的概率为,a!表示factorial a 或a factorial,0!=1; 3!=3216,该方法计算出的概率为分布中单侧的概率,故双侧时应以0.025为显著性水平。结合实际确定采用单侧还是双侧,1、有实际数为0的情况下,只需代入公式计算P,值即可,2、没有实际数为0的情况时,要把更加极端的情况都算入。,更加极端的情况是指:原来治愈率高的治愈人数更要加多,治愈率低的治愈人数更要减少,直至出现0为止,但保持合计及总合计数字不变。见P157例124,最后将几情况的概率相加得P值(单侧),可用查表法或计算机直接给出,双侧检验时:,1)单侧概率加倍,2)加上对侧当前四格表的概率的所有概率。,这两种方法的结果有时可能会有所不同,教科书建议以第二种方法为准,第四节 配对计数资料的,2,检验,一、两种处理方法的比较,P169,其中,b、c为两种培养基生长情况不同的数字,a、b两培养基相同可不考虑,当b+c,40,时可不校正,而b+c40时,则一定要用校正公式,注意:,1、配对四格表中的数字为对子数,2、当a格与d格的数字都特别大,而b、c格的数字都相对较小时,即使配对四格表卡方检验结果有统计意义,其实际意义也不大。因此,配对四格表的卡方检验一般用于检验样本含量不太大的资料,二、两种以上处理方法的比较,见P170171例1215,仅供了解,第五节 列变量为顺序变量的列联表行平均分差检验,一、2C表,P163 例12-10,Pearson 卡方只能得出两组构成是否相同的结论,不能得出哪组疗效较好的结论,人为地给各疗效一个分数,如无效为1,好转为2,显效为3,痊愈为4,计算其均数,称行平均分row mean score,a,j,为各疗效得分,n,1j,为第一行各疗效的频数,n,1+,为第一行合计,同理计算第二行平均分,再进行行平均得分差检验,s,2,为平均期望得分,,为方差,平均得分统计量的样本大小较容易达到:只要主观确定一个分割点,把列分为J和J+1r两部分,变成四格表,把新的四格中各部分实际数相加,只要四格表中大部分超过即可,二、行为名义变量列为顺序变量的行列表,1、行平均分的计算,行平均分可采用:整数给分法,2、行平均分差别统计意义检验,第六节 行列变量的相关检验,行与列变量都是顺序变量时可检验两者是否相关:P166例12-12,行c与列a都给予得分,用a和c计算线性函数f,再分别计算行平均分和列平均分,f的期望E(f)=行平均分列平均分,计算f的方差var(f),计算卡方值,自由度为1,如果把数据排成等级rank,而不用整数评分法则卡方检验与Spearman等级相关结果极为接近。可任选其一,第七节 多层列联表的分析,一、多层2,C表,采用扩展的Mantel-Haenszel 平均得分统计量,2,SMH,各层间效应的方向一致时,检验效果较好。,
展开阅读全文