卡方检验ppt课件

上传人:钟*** 文档编号:5855778 上传时间:2020-02-09 格式:PPT 页数:74 大小:20.97MB
返回 下载 相关 举报
卡方检验ppt课件_第1页
第1页 / 共74页
卡方检验ppt课件_第2页
第2页 / 共74页
卡方检验ppt课件_第3页
第3页 / 共74页
点击查看更多>>
资源描述
医学统计学第七章 卡方检验ChapterVII Chi squareTest 1 第七章提纲 卡方分布的基本知识普通四格表资料卡方检验配对四格表资料卡方检验行 列表资料卡方检验多个样本率间的多重比较有序分组资料的线性趋势检验 2 第一节 卡方分布 设随机变量u1 u2 uk 相互独立 且都服从标准正态分布N 0 1 那么 我们将k个独立标准正态变量的平方和称为卡方变量 它满足自由度为 的卡方分布 记为 3 卡方分布 如果随机变量X满足以下概率密度函数 则称其满足自由度为 的卡方分布 4 卡方分布图形 5 卡方分布图形 6 卡方分布的特征 7 卡方分布的曲线下面积定义 当 确定后 卡方分布曲线下右侧尾部的面积为a时 横轴上相应的卡方值 记为c2a n 如下图 实际应用时 可根据 由附表8查得如果c2 c2a n 曲线下面积小于a 反之则大于a 8 卡方分布 1875年 F Helmet得出 来自正态总体的样本方差的分布服从卡方分布 因此卡方分布可用于总体方差的区间估计 卡方分布也可用于样本方差与总体方差比较的假设检验 9 S2与 2比较的假设检验 从一正态总体中抽样 样本方差s2并不总等于总体方差 2 二者间存在抽样误差 这种抽样误差存在统计规律根据样本方差的分布规律有 H0 样本来源的总体方差为 02 10 Pearson卡方检验 1900年K Pearson又从检验分布的拟合优度 goodnessoffit 中也发现了卡方分布可用于检验资料的实际频数和理论频数是否相符等问题 11 Karl Pearson CarlPearsonorKarlPearson 1857 1936 JournalBiometrikaPearsonproduct momentcorrelationcoefficient Linearregression Pearson schi squaretest 12 Goodnessoffittest YYRR yyrr 减数分裂后的配子 YR yr F1 P 杂交 等位基因分离 Yy Rr Yy Rr 13 Goodnessoffittest YyRr F1配子 14 Goodnessoffittest F2 yyrr 9 3 3 1 15 Goodnessoffittest 在两对遗传因子的试验中 F2的四种表型见下表 问该结果能否满足Mendel关于F2的9 3 3 1规律 假设满足上述规律 则不难求出2500株植物中各种表型的理论频数T 16 Goodnessoffittest 将实际频数A与对应的理论频数T代入公式得 17 Goodnessoffittest 本例中有四个实际频数 其中受到总频数为2500的限制 因此能够自由取值的仅有4 1 3个 所以自由度 3查表得 20 05 3 7 81 故在 0 05的水准上拒绝H0 接受H1 认为该批植物的两种遗传因子不满足9 3 3 1的遗传定律 可能出现连锁遗传 18 Goodnessoffittest 在课文P96 P126中 详细阐述了如何使用卡方检验推断某现象的频数分布是否满足特定的概率分布例如资料是否满足正态分布 二项分布 Poisson等医学研究中常见的概率分布 19 Goodnessoffittest 20 第二节 普通四格表的卡方检验 普通四格表的 2检验可用于 两个样本率间的比较两个二分类变量间关联度分析 21 卡方检验的基本思想 某中药在改变剂型前治疗152例 治愈129例 改变剂型后又观察130例 治愈101例 改变剂型前后的疗效是否不同 22 普通四格表的卡方检验 在表格中有两组 每组的结果为二分类结果 2 2 这样的表格称为四格表 其通用格式表达如下 23 卡方检验的基本思想 从表中可见两剂型的治愈率不相同 那么这种差别究竟是由于抽样误差还是由于不同剂型疗效的确有差别 不妨假设两剂型的疗效是相同的 那么此时两种剂型的疗效之差仅仅来源于抽样误差 24 卡方检验的基本思想 既然假设两剂型的总体疗效相同 可以考虑将两组样本资料合并 计算一个 合计率 作为总体率的估计两剂型的合计治愈率Pc 230 282 81 56 在此合计治愈率的情况下 治疗152例患者应该有Pc 152 124 0例治愈 1 Pc 152 28 0例未愈 同理如果治疗130例患者 应该有106 1例有效 23 9例无效将上述数据称为疗效的理论数 据此可推算其余数据的理论频数 25 普通四格表卡方检验 26 卡方检验的基本思想 27 卡方检验的基本思想 从表中可见 疗效的理论数 根据假设两总体疗效相同得到 与实际人数存在差别如果我们的假设成立的话 这种差别属于抽样误差 应该不会很大 反之 如果这种差别很悬殊 则因该怀疑原假设不成立如何评价 悬殊 与 不悬殊 28 卡方检验的基本思想 卡方检验基本公式 理论数与实际数间的差距可为正亦可为负 因此需要对二者之差取平方 而后再累加如前所述 比较两组数据变异程度 直接比较标准差是不合理的 因为两组数据的均数可能差距甚大或单位不同例如 A 303 T 300 A T 3 A 33 T 30 A T 3 因此仅有 A T 2尚不足以说明二者间不吻合的程度 需要对A与T间的差距作 标准化 或 相对化 29 卡方检验的基本思想 如何对A与T间的差距作 相对化 或 标准化 最直观的方法就是将离差的平方除于一个频数 实际频数A或理论频数T最终将其除于T可有以下几点解释 为了避免A 0时除式没有意义的情况 实际频数A即使在样本含量相同的情况下 仍将随不同抽样改变 而T无此问题 比A稳定 用其作为分母更稳健也更具代表性 30 卡方检验的基本思想 此外 卡方计算公式中每项均非负 因此卡方值的大小不仅取决于A与T间的相对差距 还取决于累加项数的多少因此需对累加项数作调整 引入 自由度 的概念在列联表资料中 四格表也是一种列联表 自由度可以简单地表达为 行数 1 列数 1 即 R 1 C 1 其含义为列联表中除行 列合计值外可以自由取值的格子个数 或总自由度 行合计自由度 列合计自由度 31 卡方检验的基本思想 如果假设成立 实际数与理论数的差距应该较小 按照上式计算的卡方值因该接近0 如果卡方值远离0则应该拒绝原假设卡方值满足卡方分布 求得相应卡方值的曲线下面积就可以得到P值 进而作结论可见卡方检验的基本原理就是分析实际频数与根据假设构建的理论频数间的吻合程度 拟合度 32 普通四格表卡方检验 H0 两总体率相同H1 两总体率不同a 0 05c2 A T 2 T计算卡方值为2 428自由度v R 1 C 1 1 即四个格子中可自由取值的个数 本例中 由于行列的合计值固定 所以四个格子中只有一个可自由取值 故v 1查表得 c20 05 1 3 84 所以P 0 05 在a 0 05的水准上不拒绝H0 尚不认为两种剂型的治愈率不同 33 关于四格表卡方检验的一些说明 如前所述 卡方分布是连续的 然而理论数的取值却是不连续的 因此本章节的公式7 1是对卡方的近似公式 其使用效能受到理论数大小的制约 34 Yates correctionforcontinuity 由离散型资料按卡方检验公式式算得的卡方值均有偏大的趋势 使得我们偏向于拒绝原假设 尤其是当自由度 1而且理论数较小时 偏差较大FrankYates 1934 提出对四格表卡方值进行连续性矫正矫正后的卡方值记为c2c 35 四格表卡方检验的理论数要求 当理论频数T有T 5 而且n 40时 卡方公式不需要校正 直接使用当理论频数T有1 T 5 而且n 40时 需要校正 或者用精确概率法计算概率值当理论频数T有T 1 或者n 40时 只可用精确概率法计算概率值 36 四格表卡方检验专用公式 原始卡方公式需要计算理论数 略显麻烦在四格表资料中 可以使用专用公式 省略计算理论数的过程专用公式如下 37 四格表卡方检验专用公式校正 若有1 T 5 而且n 40时 该专用公式同样需要校正 38 四格表卡方检验的校正 将病情相似的淋巴系统肿瘤患者随机分成两组 分别作单纯化疗与复合化疗 缓解情况见下表 问两疗法的缓解情况是否不同 39 四格表卡方检验的校正 在上表中最小的理论数应该是 单纯化疗 缓解 所对应 因为它所对应的行 列合计值最小 2所对应的理论数为4 8 小于5 而且例数不小于40 所以本题应该作校正校正后卡方值为2 624 未校正时为3 889 故尚不认为两方案缓解情况不同 40 第三节 配对四格表卡方检验 什么是配对设计 常见配对设计的情况是那些 41 常见的配对四格表资料 同一批样品用两种不同的方法处理 处理的结果为二分类资料观察对象根据配对条件配成对子 同一对子中的不同个体分别接受不同的处理 处理的结果为二分类资料 42 配对四格表资料 例7 3 某实验室分别用乳胶凝集法和免疫荧光法对58名可疑系统红斑狼疮患者血清中抗核抗体进行测定 结果见下表 问两种方法的检测结果有无差别 43 配对四格表资料 在本例题中每份标本被一分为二 两份标本实质上是一样的 同时接受两种方法检测 这样抗核抗体检出情况差别完全取决于不同的方法 而与受检者的基本情况无关所以本例为配对设计 目的是通过样本资料判断两方法的总体阳性概率是否有差别 44 配对四格表资料 我们将上述表格稍作改变 得到如下四格表 该四格表与前面所介绍的普通四个表有所不同 普通四格表的 行 为分组因素 列 为分组的结局 而在配对四个表中 行 中既包含分组因素 同时也有该因素的结局 列 也同样 所以这种四格表称为配对四格表 45 配对四格表资料的一般形式 对含量为n的一份随机样本同时按照两个二项分类属性 进行交叉分类形成的四格表 46 成组与配对四格表资料的比较 47 配对四格表资料卡方检验原理 在配对设计的四格表中 如果要了解不同的处理方案的结局是否有别 例如两种检测方法的阳性率是否有别 并不需要用到所有四格中的数据免疫法中的阳性率为 11 12 58 乳胶法中的阳性率为 11 2 58 可见两者都阴性的33份标本对二者阳性率的差别没有影响 而且二者都阳性的11份标本也对结果没有影响 两种方法结果一致的对二者的率差没有影响 导致两者阳性率的差别主要来源于培养结果不一致的14份样本 12 2 48 配对四格表资料卡方检验原理 假设12 2的主要原因是抽样误差导致 那么两方法的总体阳性率就是一致的所以其假设主要针对12与2 即H0为B C 两种方法的抗核抗体阳性检出率相等如果H0成立 则二者检测结果不一致的两个格子理论数都应该是 b c 2所以卡方检验的公式变为 49 配对四格表资料卡方检验原理 将数据代入上述公式中 因为12 2小于40 故需要校正 校正卡方值为5 79因为5 79 3 84 故P 0 05 在a 0 05的水准上拒绝H0 认为两法的阳性检出率不同 50 McNemar法的注意事项 本法一般用于样本含量不太大的资料 因为它仅考虑了两法结果不一致的两种情况 b c 而未考虑样本含量n和两法结果一致的两种情况 a d 所以 当n很大且a与d的数值很大 即两法的一致率较高 b与c的数值相对较小时 即便是检验结果有统计学意义 其实际意义往往也不大 51 第四节 行 列表卡方检验 如果有超过2组 每组的结局超过2种分类 就构成了R C列联表 四格表是最简单的列联表完全随机设计的列联表资料的卡方检验原理与四格表的相同 只不过组数或结局增多了而已 52 列联表卡方检验 例7 6 某医师研究物理疗法 药物治疗和外用膏药三种疗法治疗周围性面神经麻痹的疗效 资料见下表 问三种疗法的有效率有无差别 53 完全随机设计的列联表卡方检验 其检验思想同四格表卡方检验 先假设三种疗法的总体疗效相同 将三组的治疗情况合并作为总有效率的估计值 而后可以据此计算各处理方案的理论有效与无效人数 如果假设成立的话它们间的差别应该很小 卡方值应该不大 否则就有理由认为它们不是来源于同一总体H0 三疗法有效率相同 H1 三疗法有效率不全相同 54 完全随机设计的列联表卡方检验 请注意 对立假设包括多种情况 例如三组间互不相同 某两组间相同且都与第三组不同 所以如果拒绝原假设 还需要对三组进行多重比较 卡方分割 才可以最终下结论卡方检验的公式既可以使用基本公式 c2 A T 2 T 也可以通过下列公式减少计算量 55 完全随机设计的列联表卡方检验 需要说明一点 该公式也可以用于普通四格表 它的结果与四格表专用公式 未校正 计算结果完全相同将表中数据代入 查表得 c20 05 2 5 99 所以P 0 05 在a 0 05的水准上拒绝H0 认为三种疗法的总体有效率不全相同 56 例7 7 某医师在研究血管紧张素I转化酶 ACE 基因I D多态 分3型 与2型糖尿病肾病 DN 的关系时 将249例2型糖尿病患者按有无糖尿病肾病分为两组 资料见下表 问两组2型糖尿病患者的ACE基因型总体分布有无差别 57 请注意 本例题中只有两组观察对象 因此备择假设为 两组患者的基因构成不同 H0 两组患者的基因构成相同H1 两组患者的基因构成不同a 0 05代入公式得 在a 0 05的水准上 拒绝H0 接受H1 认为两组患者的总体基因构成不同 58 行 列表卡方检验注意事项 同四格表资料一样 R C表的 2分布是建立在大样本的假定上的 要求总例数不可过少 不能有1 5以上的格子理论频数小于5 且不能有一个格子的理论频数小于1如果出现上述情况 可以考虑 增大样本量 根据专业知识合理地合并相邻的组别 删除理论数太小的行列 改用其它方法分析 例如确切概率法当多个样本率 或构成比 作 2检验 结论为拒绝零假设时 只能认为各总体率 或总体构成比 之间总的有差别 不能说明两两之间有差别 两组间的比较可采用 2分割的方法 59 第五节 多个样本率间的多重比较 多个样本率比较的资料若经卡方检验的结论为拒绝H0 接受H1时 意味着总体率间不全相同 须用卡方分割法把R C表分成多个独立的四格表进行两两比较 但必须重新规定检验水准 其目的是为保证检验假设中I型错误的概率不变 三组作两两比较需要比较三次 如果每次的显著性水准均为0 05 则三次比较后的显著性水准为1 0 953 0 14 远大于原先的预期 所以要重新确认a 使得经过三次比较后一类错误仍为0 05 60 多个样本率间的多重比较 因分析目的不同 k个样本率两两比较的次数不同 故重新规定的检验水准的估计方法亦不同 通常有两种情况任意两个实验组间的比较 以及多个实验组同一个相同的对照间的比较 61 62 实验组与同一个对照组的比较分析目的为各实验组与同一个对照组的比较 而各实验组间不须比较 其检验水准用下式估计 63 64 65 列联表资料的两两比较 66 第六节 确切概率法 Fisherexacttest 前以述及 2检验是基于大样本假定 四格表时 如果总例数小于40或任意一格子理论数小于1 大样本假定不成立 则不能用 2检验另外 有些情况下虽然满足卡方检验的使用条件 但是计算的卡方值与卡方界值十分接近 P十分接近a 此时也可以考虑使用确切概率法该方法是由RonaldFisher提出 直接计算概率值 因此严格说来 它并不属于卡方检验 而是独立于卡方检验 67 四格表确切概率法 例7 4 将33名HBsAg阳性孕妇随机分为乙肝免疫球蛋白预防组与非预防组 观察两组新生儿的乙肝感染率 问两组感染率有无差别 68 四格表确切概率法 由于总例数小于40例 此时卡方检验不再适用假设两种处理没有差别 可以考虑先将两组合并 得到合计感染人数9人 合计阴性人数24人 总人数33人现从33人中抽取22人作为样本 得到阳性人数为4 阴性人数为18的可能性为 69 上式可以写为以下通式 也就是说出当原假设成立时 当前四格表的出现概率为0 088 而假设检验中的P值为比当前情况更极端的概率之和 所以还要求在保持边界合计值不变的情况下 发生概率小于等于当前组合的发生概率之和 四格表确切概率法 70 71 由于我们的题目只想了解两组的预防效果是否不同 故这是一个双侧假设 因此所有满足发生概率P不大于当前组合即可 所以上述表格号为1 5以及10均满足 如果题目问是否认为预防组的感染率低于非预防组 那么只有1 5满足将满足条件的四格表的概率求和 即可得到最终的P值 本例为0 1210 高于显著性水准0 05 所以尚不拒绝H0 尚不认为两组感染率有不同 四格表确切概率法 72 卡方检验注意事项 双向有序属性相同的R C表表中的两分类变量皆为有序且属性相同 实际上是2 2配对设计的扩展 即水平数 3的诊断试验配伍设计 如用两种检测方法同时对同一批样品的测定结果 其研究目的通常是分析两种检测方法的一致性 此时宜用一致性检验 或称Kappa检验 73 本章小结 卡方检验的基本原理 拟合优度普通四格表与配对四格表卡方检验列联表卡方检验Fisher确切概率法 74
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!