卡方检验ppt课件

资源描述

医学统计学第七章卡方检验ChapterVII Chi squareTest 1 第七章提纲卡方分布的基本知识普通四格表资料卡方检验配对四格表资料卡方检验行列表资料卡方检验多个样本率间的多重比较有序分组资料的线性趋势检验 2 第一节卡方分布设随机变量u1 u2 uk 相互独立且都服从标准正态分布N 0 1 那么我们将k个独立标准正态变量的平方和称为卡方变量它满足自由度为的卡方分布记为 3 卡方分布如果随机变量X满足以下概率密度函数则称其满足自由度为的卡方分布 4 卡方分布图形 5 卡方分布图形 6 卡方分布的特征 7 卡方分布的曲线下面积定义当确定后卡方分布曲线下右侧尾部的面积为a时横轴上相应的卡方值记为c2a n 如下图实际应用时可根据由附表8查得如果c2 c2a n 曲线下面积小于a 反之则大于a 8 卡方分布 1875年 F Helmet得出来自正态总体的样本方差的分布服从卡方分布因此卡方分布可用于总体方差的区间估计卡方分布也可用于样本方差与总体方差比较的假设检验 9 S2与 2比较的假设检验从一正态总体中抽样样本方差s2并不总等于总体方差 2 二者间存在抽样误差这种抽样误差存在统计规律根据样本方差的分布规律有 H0 样本来源的总体方差为 02 10 Pearson卡方检验 1900年K Pearson又从检验分布的拟合优度 goodnessoffit 中也发现了卡方分布可用于检验资料的实际频数和理论频数是否相符等问题 11 Karl Pearson CarlPearsonorKarlPearson 1857 1936 JournalBiometrikaPearsonproduct momentcorrelationcoefficient Linearregression Pearson schi squaretest 12 Goodnessoffittest YYRR yyrr 减数分裂后的配子 YR yr F1 P 杂交等位基因分离 Yy Rr Yy Rr 13 Goodnessoffittest YyRr F1配子 14 Goodnessoffittest F2 yyrr 9 3 3 1 15 Goodnessoffittest 在两对遗传因子的试验中 F2的四种表型见下表问该结果能否满足Mendel关于F2的9 3 3 1规律假设满足上述规律则不难求出2500株植物中各种表型的理论频数T 16 Goodnessoffittest 将实际频数A与对应的理论频数T代入公式得 17 Goodnessoffittest 本例中有四个实际频数其中受到总频数为2500的限制因此能够自由取值的仅有4 1 3个所以自由度 3查表得 20 05 3 7 81 故在 0 05的水准上拒绝H0 接受H1 认为该批植物的两种遗传因子不满足9 3 3 1的遗传定律可能出现连锁遗传 18 Goodnessoffittest 在课文P96 P126中详细阐述了如何使用卡方检验推断某现象的频数分布是否满足特定的概率分布例如资料是否满足正态分布二项分布 Poisson等医学研究中常见的概率分布 19 Goodnessoffittest 20 第二节普通四格表的卡方检验普通四格表的 2检验可用于两个样本率间的比较两个二分类变量间关联度分析 21 卡方检验的基本思想某中药在改变剂型前治疗152例治愈129例改变剂型后又观察130例治愈101例改变剂型前后的疗效是否不同 22 普通四格表的卡方检验在表格中有两组每组的结果为二分类结果 2 2 这样的表格称为四格表其通用格式表达如下 23 卡方检验的基本思想从表中可见两剂型的治愈率不相同那么这种差别究竟是由于抽样误差还是由于不同剂型疗效的确有差别不妨假设两剂型的疗效是相同的那么此时两种剂型的疗效之差仅仅来源于抽样误差 24 卡方检验的基本思想既然假设两剂型的总体疗效相同可以考虑将两组样本资料合并计算一个合计率作为总体率的估计两剂型的合计治愈率Pc 230 282 81 56 在此合计治愈率的情况下治疗152例患者应该有Pc 152 124 0例治愈 1 Pc 152 28 0例未愈同理如果治疗130例患者应该有106 1例有效 23 9例无效将上述数据称为疗效的理论数据此可推算其余数据的理论频数 25 普通四格表卡方检验 26 卡方检验的基本思想 27 卡方检验的基本思想从表中可见疗效的理论数根据假设两总体疗效相同得到与实际人数存在差别如果我们的假设成立的话这种差别属于抽样误差应该不会很大反之如果这种差别很悬殊则因该怀疑原假设不成立如何评价悬殊与不悬殊 28 卡方检验的基本思想卡方检验基本公式理论数与实际数间的差距可为正亦可为负因此需要对二者之差取平方而后再累加如前所述比较两组数据变异程度直接比较标准差是不合理的因为两组数据的均数可能差距甚大或单位不同例如 A 303 T 300 A T 3 A 33 T 30 A T 3 因此仅有 A T 2尚不足以说明二者间不吻合的程度需要对A与T间的差距作标准化或相对化 29 卡方检验的基本思想如何对A与T间的差距作相对化或标准化最直观的方法就是将离差的平方除于一个频数实际频数A或理论频数T最终将其除于T可有以下几点解释为了避免A 0时除式没有意义的情况实际频数A即使在样本含量相同的情况下仍将随不同抽样改变而T无此问题比A稳定用其作为分母更稳健也更具代表性 30 卡方检验的基本思想此外卡方计算公式中每项均非负因此卡方值的大小不仅取决于A与T间的相对差距还取决于累加项数的多少因此需对累加项数作调整引入自由度的概念在列联表资料中四格表也是一种列联表自由度可以简单地表达为行数 1 列数 1 即 R 1 C 1 其含义为列联表中除行列合计值外可以自由取值的格子个数或总自由度行合计自由度列合计自由度 31 卡方检验的基本思想如果假设成立实际数与理论数的差距应该较小按照上式计算的卡方值因该接近0 如果卡方值远离0则应该拒绝原假设卡方值满足卡方分布求得相应卡方值的曲线下面积就可以得到P值进而作结论可见卡方检验的基本原理就是分析实际频数与根据假设构建的理论频数间的吻合程度拟合度 32 普通四格表卡方检验 H0 两总体率相同H1 两总体率不同a 0 05c2 A T 2 T计算卡方值为2 428自由度v R 1 C 1 1 即四个格子中可自由取值的个数本例中由于行列的合计值固定所以四个格子中只有一个可自由取值故v 1查表得 c20 05 1 3 84 所以P 0 05 在a 0 05的水准上不拒绝H0 尚不认为两种剂型的治愈率不同 33 关于四格表卡方检验的一些说明如前所述卡方分布是连续的然而理论数的取值却是不连续的因此本章节的公式7 1是对卡方的近似公式其使用效能受到理论数大小的制约 34 Yates correctionforcontinuity 由离散型资料按卡方检验公式式算得的卡方值均有偏大的趋势使得我们偏向于拒绝原假设尤其是当自由度 1而且理论数较小时偏差较大FrankYates 1934 提出对四格表卡方值进行连续性矫正矫正后的卡方值记为c2c 35 四格表卡方检验的理论数要求当理论频数T有T 5 而且n 40时卡方公式不需要校正直接使用当理论频数T有1 T 5 而且n 40时需要校正或者用精确概率法计算概率值当理论频数T有T 1 或者n 40时只可用精确概率法计算概率值 36 四格表卡方检验专用公式原始卡方公式需要计算理论数略显麻烦在四格表资料中可以使用专用公式省略计算理论数的过程专用公式如下 37 四格表卡方检验专用公式校正若有1 T 5 而且n 40时该专用公式同样需要校正 38 四格表卡方检验的校正将病情相似的淋巴系统肿瘤患者随机分成两组分别作单纯化疗与复合化疗缓解情况见下表问两疗法的缓解情况是否不同 39 四格表卡方检验的校正在上表中最小的理论数应该是单纯化疗缓解所对应因为它所对应的行列合计值最小 2所对应的理论数为4 8 小于5 而且例数不小于40 所以本题应该作校正校正后卡方值为2 624 未校正时为3 889 故尚不认为两方案缓解情况不同 40 第三节配对四格表卡方检验什么是配对设计常见配对设计的情况是那些 41 常见的配对四格表资料同一批样品用两种不同的方法处理处理的结果为二分类资料观察对象根据配对条件配成对子同一对子中的不同个体分别接受不同的处理处理的结果为二分类资料 42 配对四格表资料例7 3 某实验室分别用乳胶凝集法和免疫荧光法对58名可疑系统红斑狼疮患者血清中抗核抗体进行测定结果见下表问两种方法的检测结果有无差别 43 配对四格表资料在本例题中每份标本被一分为二两份标本实质上是一样的同时接受两种方法检测这样抗核抗体检出情况差别完全取决于不同的方法而与受检者的基本情况无关所以本例为配对设计目的是通过样本资料判断两方法的总体阳性概率是否有差别 44 配对四格表资料我们将上述表格稍作改变得到如下四格表该四格表与前面所介绍的普通四个表有所不同普通四格表的行为分组因素列为分组的结局而在配对四个表中行中既包含分组因素同时也有该因素的结局列也同样所以这种四格表称为配对四格表 45 配对四格表资料的一般形式对含量为n的一份随机样本同时按照两个二项分类属性进行交叉分类形成的四格表 46 成组与配对四格表资料的比较 47 配对四格表资料卡方检验原理在配对设计的四格表中如果要了解不同的处理方案的结局是否有别例如两种检测方法的阳性率是否有别并不需要用到所有四格中的数据免疫法中的阳性率为 11 12 58 乳胶法中的阳性率为 11 2 58 可见两者都阴性的33份标本对二者阳性率的差别没有影响而且二者都阳性的11份标本也对结果没有影响两种方法结果一致的对二者的率差没有影响导致两者阳性率的差别主要来源于培养结果不一致的14份样本 12 2 48 配对四格表资料卡方检验原理假设12 2的主要原因是抽样误差导致那么两方法的总体阳性率就是一致的所以其假设主要针对12与2 即H0为B C 两种方法的抗核抗体阳性检出率相等如果H0成立则二者检测结果不一致的两个格子理论数都应该是 b c 2所以卡方检验的公式变为 49 配对四格表资料卡方检验原理将数据代入上述公式中因为12 2小于40 故需要校正校正卡方值为5 79因为5 79 3 84 故P 0 05 在a 0 05的水准上拒绝H0 认为两法的阳性检出率不同 50 McNemar法的注意事项本法一般用于样本含量不太大的资料因为它仅考虑了两法结果不一致的两种情况 b c 而未考虑样本含量n和两法结果一致的两种情况 a d 所以当n很大且a与d的数值很大即两法的一致率较高 b与c的数值相对较小时即便是检验结果有统计学意义其实际意义往往也不大 51 第四节行列表卡方检验如果有超过2组每组的结局超过2种分类就构成了R C列联表四格表是最简单的列联表完全随机设计的列联表资料的卡方检验原理与四格表的相同只不过组数或结局增多了而已 52 列联表卡方检验例7 6 某医师研究物理疗法药物治疗和外用膏药三种疗法治疗周围性面神经麻痹的疗效资料见下表问三种疗法的有效率有无差别 53 完全随机设计的列联表卡方检验其检验思想同四格表卡方检验先假设三种疗法的总体疗效相同将三组的治疗情况合并作为总有效率的估计值而后可以据此计算各处理方案的理论有效与无效人数如果假设成立的话它们间的差别应该很小卡方值应该不大否则就有理由认为它们不是来源于同一总体H0 三疗法有效率相同 H1 三疗法有效率不全相同 54 完全随机设计的列联表卡方检验请注意对立假设包括多种情况例如三组间互不相同某两组间相同且都与第三组不同所以如果拒绝原假设还需要对三组进行多重比较卡方分割才可以最终下结论卡方检验的公式既可以使用基本公式 c2 A T 2 T 也可以通过下列公式减少计算量 55 完全随机设计的列联表卡方检验需要说明一点该公式也可以用于普通四格表它的结果与四格表专用公式未校正计算结果完全相同将表中数据代入查表得 c20 05 2 5 99 所以P 0 05 在a 0 05的水准上拒绝H0 认为三种疗法的总体有效率不全相同 56 例7 7 某医师在研究血管紧张素I转化酶 ACE 基因I D多态分3型与2型糖尿病肾病 DN 的关系时将249例2型糖尿病患者按有无糖尿病肾病分为两组资料见下表问两组2型糖尿病患者的ACE基因型总体分布有无差别 57 请注意本例题中只有两组观察对象因此备择假设为两组患者的基因构成不同 H0 两组患者的基因构成相同H1 两组患者的基因构成不同a 0 05代入公式得在a 0 05的水准上拒绝H0 接受H1 认为两组患者的总体基因构成不同 58 行列表卡方检验注意事项同四格表资料一样 R C表的 2分布是建立在大样本的假定上的要求总例数不可过少不能有1 5以上的格子理论频数小于5 且不能有一个格子的理论频数小于1如果出现上述情况可以考虑增大样本量根据专业知识合理地合并相邻的组别删除理论数太小的行列改用其它方法分析例如确切概率法当多个样本率或构成比作 2检验结论为拒绝零假设时只能认为各总体率或总体构成比之间总的有差别不能说明两两之间有差别两组间的比较可采用 2分割的方法 59 第五节多个样本率间的多重比较多个样本率比较的资料若经卡方检验的结论为拒绝H0 接受H1时意味着总体率间不全相同须用卡方分割法把R C表分成多个独立的四格表进行两两比较但必须重新规定检验水准其目的是为保证检验假设中I型错误的概率不变三组作两两比较需要比较三次如果每次的显著性水准均为0 05 则三次比较后的显著性水准为1 0 953 0 14 远大于原先的预期所以要重新确认a 使得经过三次比较后一类错误仍为0 05 60 多个样本率间的多重比较因分析目的不同 k个样本率两两比较的次数不同故重新规定的检验水准的估计方法亦不同通常有两种情况任意两个实验组间的比较以及多个实验组同一个相同的对照间的比较 61 62 实验组与同一个对照组的比较分析目的为各实验组与同一个对照组的比较而各实验组间不须比较其检验水准用下式估计 63 64 65 列联表资料的两两比较 66 第六节确切概率法 Fisherexacttest 前以述及 2检验是基于大样本假定四格表时如果总例数小于40或任意一格子理论数小于1 大样本假定不成立则不能用 2检验另外有些情况下虽然满足卡方检验的使用条件但是计算的卡方值与卡方界值十分接近 P十分接近a 此时也可以考虑使用确切概率法该方法是由RonaldFisher提出直接计算概率值因此严格说来它并不属于卡方检验而是独立于卡方检验 67 四格表确切概率法例7 4 将33名HBsAg阳性孕妇随机分为乙肝免疫球蛋白预防组与非预防组观察两组新生儿的乙肝感染率问两组感染率有无差别 68 四格表确切概率法由于总例数小于40例此时卡方检验不再适用假设两种处理没有差别可以考虑先将两组合并得到合计感染人数9人合计阴性人数24人总人数33人现从33人中抽取22人作为样本得到阳性人数为4 阴性人数为18的可能性为 69 上式可以写为以下通式也就是说出当原假设成立时当前四格表的出现概率为0 088 而假设检验中的P值为比当前情况更极端的概率之和所以还要求在保持边界合计值不变的情况下发生概率小于等于当前组合的发生概率之和四格表确切概率法 70 71 由于我们的题目只想了解两组的预防效果是否不同故这是一个双侧假设因此所有满足发生概率P不大于当前组合即可所以上述表格号为1 5以及10均满足如果题目问是否认为预防组的感染率低于非预防组那么只有1 5满足将满足条件的四格表的概率求和即可得到最终的P值本例为0 1210 高于显著性水准0 05 所以尚不拒绝H0 尚不认为两组感染率有不同四格表确切概率法 72 卡方检验注意事项双向有序属性相同的R C表表中的两分类变量皆为有序且属性相同实际上是2 2配对设计的扩展即水平数 3的诊断试验配伍设计如用两种检测方法同时对同一批样品的测定结果其研究目的通常是分析两种检测方法的一致性此时宜用一致性检验或称Kappa检验 73 本章小结卡方检验的基本原理拟合优度普通四格表与配对四格表卡方检验列联表卡方检验Fisher确切概率法 74

展开阅读全文

卡方检验ppt课件

最新文档