独立性检验的基本思想及其初步应用2课时选修2-3ppt课件

上传人:钟*** 文档编号:4475688 上传时间:2020-01-08 格式:PPT 页数:43 大小:1.89MB
返回 下载 相关 举报
独立性检验的基本思想及其初步应用2课时选修2-3ppt课件_第1页
第1页 / 共43页
独立性检验的基本思想及其初步应用2课时选修2-3ppt课件_第2页
第2页 / 共43页
独立性检验的基本思想及其初步应用2课时选修2-3ppt课件_第3页
第3页 / 共43页
点击查看更多>>
资源描述
3 2独立性检验的基本思想及其初步应用 一 1 独立性检验 本节研究的是两个分类变量的独立性检验问题 在日常生活中 我们常常关心分类变量之间是否有关系 例如 吸烟是否与患肺癌有关系 性别是否对于喜欢数学课程有影响 等等 2 为了调查吸烟是否对肺癌有影响 某肿瘤研究所随机地调查了9965人 得到如下结果 单位 人 说明 吸烟者和不吸烟者患肺癌的可能性存在差异 吸烟者患肺癌的可能性大 0 54 2 28 探究 3 列联表 定义 列出的两个分类变量的称为列联表 2 2列联表一般地 假设两个分类变量X和Y 它们的取值分别为和 其样本频数列联表 也称为2 2列联表 为下表 频数表 x1 x2 y1 y2 4 一般地 假设有两个分类变量X和Y 它们的可能取值分别为 x1 x2 和 y1 y2 其样本频数列联表 即2 2列联表 为 其中n 为样本容量 a b c d 5 三维柱形图 二维条形图 6 在三维柱形图中 主对角线上两个柱形高度的乘积与副对角线上两个柱形高度的乘积相差越大 两个分类变量有关系的可能性就越大 等高条形图等高条形图与表格相比 更能直观地反映出两个分类变量间是否互相影响常用等高条形图展示列联表数据的频率特征 7 等高条形图 等高条形图更清晰地表达了两种情况下患肺癌的比例 8 某企业为了考察同一种产品在甲 乙两条生产线的产品合格率 同时各抽取100件产品 其中甲线中合格产品的个数为97 乙线中合格产品的个数为95 请做出列联表 三维柱形图与二维条形图 练习 9 10 11 1 2 2列联表是传统的调查研究中最常用的方法之一 用于研究两个变量之间相互独立还是存在某种关联性 它适用于分析两个变量之间的关系 2 在实际问题中 判断两个分类变量的关系的可靠性时 一般利用随机变量K2来确定 而不利用三维柱形图和二维条形图 12 上面我们通过分析数据和图形 得到的直观印象是吸烟和患肺癌有关 那么事实是否真的如此呢 这需要用统计观点来考察这个问题 现在想要知道能够以多大的把握认为 吸烟与患肺癌有关 为此先假设 H0 吸烟与患肺癌没有关系 把表中的数字用字母代替 得到如下用字母表示的列联表 用A表示不吸烟 B表示不患肺癌 则 吸烟与患肺癌没有关系 等价于 吸烟与患肺癌独立 即假设H0等价于P AB P A P B 13 因此 ad bc 越小 说明吸烟与患肺癌之间关系越弱 ad bc 越大 说明吸烟与患肺癌之间关系越强 在表中 a恰好为事件AB发生的频数 a b和a c恰好分别为事件A和B发生的频数 由于频率接近于概率 所以在H0成立的条件下应该有 14 为了使不同样本容量的数据有统一的评判标准 基于上述分析 我们构造一个随机变量 卡方统计量 1 若H0成立 即 吸烟与患肺癌没有关系 则K2应很小 根据表3 7中的数据 利用公式 1 计算得到K2的观测值为 那么这个值到底能告诉我们什么呢 2 独立性检验 15 k大小的标准是什么呢 16 17 独立性检验首先 假设结论不成立 即H 两个分类变量没有关系 在这种假设下k应该很小 其次 由观测数据计算K的观测值k 如果k很大 则在一定可信程度上说明H不成立 即两个分类变量之间有关系 最后 根据k的值判断假设是否成立 2 临界值表 18 这种判断可能有错误 但是犯错误的不会超过0 001 这是个小概率时间 我们有99 9 的把握认为 吸烟与患癌症有关系 19 利用随机变量K2来确定是否能以一定把握认为 两个分类变量有关系 的方法称为两个分类变量的独立性检验 20 在吸烟与患肺病这两个分类变量的计算中 下列说法正确的是 A 若K的观测值为k 6 635 我们有99 的把握认为吸烟与患肺病有关系 那么在100个吸烟的人中必有99个患肺病B 从独立性检验可知有99 的把握认为吸烟与患肺病有关系时 我们说某人吸烟 那么他有99 的可能患肺病C 若从统计量中求出有95 的把握认为吸烟与患肺病有关系 是指有5 的可能性使得推理出现错误D 以上三种说法都不对 练习 c 21 例2某电视台联合相关报社对 男女同龄退休 这一公众关注的问题进行了民意调查 数据如下表所示 根据表中数据 能否在犯错误的概率不超过0 001的前提下认为对这一问题的看法与性别有关系 P K2 10 828 0 001 22 23 解析 假设H0 对这一问题的看法与性别无关 由列联表中的数据 可以得到 125 161 10 828又P K2 10 828 0 001 24 故在犯错误概率不超过0 001的前提下认为对 男女同龄退休 这一问题的看法与性别有关 25 点评 可以利用独立性检验来判断两个分类变量是否有关系 具体做法是 26 5月31日是 世界无烟日 2009年的主题是 让肺自由呼吸 为探究患肺癌是否与吸烟有关 某校研究性学习小组调查了1339名50岁以上的人 调查结果如下表所示 试问 能否在犯错误的概率不超过0 01的前提下认为50岁以上的人患肺癌与吸烟有关系 27 解析 依题意可知 6 635 又P K2 6 635 0 01 因此 在犯错误的概率不超过0 01的前提下认为吸烟与患肺癌有关 28 例3为了解铅中毒病人是否有尿棕色素增加现象 分别对病人组和对照组的尿液作尿棕色素定性检查 结果如下 问铅中毒病人和对照组的尿棕色素阳性数有无差别 29 解析 由上述列联表可知 在铅中毒病人中尿棕色素为阳性的占80 56 而对照组仅占24 32 说明他们之间有较大差别 30 根据列联表作出三维柱形图 如图1 二维条形图 如图2 频率分布条形图 如图3所示 由上述三图可知 铅中毒病人中与对照组相比较 尿棕色素为阳性差异明显 因此铅中毒病人与尿棕色素为阳性存在关联关系 31 某学校对学生课外活动内容进行调查 结果整理成下表 利用图形判断学生课外活动的类别与性别是否有关系 32 解析 某等高条形图如图所示 由图可以直观地看出喜欢体育还是喜欢文娱在性别上有较大差异 说明课外活动的类别与性别在某种程度上有关系 33 练习 1 调查男女学生购买食品时是否看出厂日期与性别有无关系时 最有说服力的是 A 期望B 方差C 正态分布D 独立性检验 答案 D 34 2 10名学生在一次数学考试中的成绩如下表 要研究这10名学生成绩的平均情况 则最能说明问题的是 A 概率B 期望C 方差D 独立性检验 答案 B 35 练习 3 下面是一个2 2列联表则表中a b处的值分别为 A 94 96B 52 50C 52 59D 54 52 答案 C 36 4 用K2统计量进行独立性检验时 使用的表称为 要求表中的四个数据 答案 2 2列联表均大于5 37 5 若两个分类变量x和y的列联表为 则x与y之间有关系的概率约为 答案 99 38 6 为调查学生对国家大事关心与否是否与性别有关 在学生中进行随机抽样调查 结果如下表 根据统计数据作出合适的判断分析 39 点评 根据随机变量K2的值判断两分类变量是否有关的步骤 第一 假设两分类变量无关 第二 由数据及公式计算K2的观测值k 第三 将k的值与临界值比较得出结论 40 思考 利用上面的结论 你能从列联表的三维柱形图中看出两个分类变量是否相关呢 表1 112x2联表 一般地 假设有两个分类变量X和Y 它们的值域分别为 x1 x2 和 y1 y2 其样本频数列联表 称为2x2列联表 为 41 若要判断的结论为 H1 X与Y有关系 可以按如下步骤判断H1成立的可能性 2 可以利用独立性检验来考察两个分类变量是否有关系 并且能较精确地给出这种判断的可靠程度 1 通过三维柱形图和二维条形图 可以粗略地判断两个变量是否有关系 但是这种判断无法精确地给出所得结论的可靠程度 1 在三维柱形图中 主对角线上两个柱形高度的乘积ad与副对角线上两个柱形高度的乘积bc相差越大 H1成立的可能性就越大 2 在二维条形图中 可以估计满足条件X x1的个体中具有Y y1的个体所占的比例 也可以估计满足条件X x2的个体中具有Y y1的个体所占的比例 两个比例相差越大 H1成立的可能性就越大 42 在实际应用中 要在获取样本数据之前通过下表确定临界值 具体作法是 1 根据实际问题需要的可信程度确定临界值 2 利用公式 1 由观测数据计算得到随机变量的观测值 3 如果 就以的把握认为 X与Y有关系 否则就说样本观测数据没有提供 X与Y有关系 的充分证据 43
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!