独立性检验的基本思想及其初步应用课件

上传人:txadgkn****dgknqu... 文档编号:241026450 上传时间:2024-05-25 格式:PPT 页数:44 大小:708.44KB
返回 下载 相关 举报
独立性检验的基本思想及其初步应用课件_第1页
第1页 / 共44页
独立性检验的基本思想及其初步应用课件_第2页
第2页 / 共44页
独立性检验的基本思想及其初步应用课件_第3页
第3页 / 共44页
点击查看更多>>
资源描述
独立性检验的基本思想第一章 统计案例11.2 1.2 独立性检验的基本思想及其初步应用独立性检验的基本思想及其初步应用 在统计学中,独立性检验就是检验两个分类变量是在统计学中,独立性检验就是检验两个分类变量是否有关系的一种统计方法。否有关系的一种统计方法。所谓所谓“分类变量分类变量”,就是指个体所属的类别不同,也,就是指个体所属的类别不同,也称为称为属性变量属性变量或或定型变量定型变量。在日常生活中,我们常常关心两个分类变量之间是在日常生活中,我们常常关心两个分类变量之间是否有关系,例如吸烟是否与患肺癌有关系?性别是否对否有关系,例如吸烟是否与患肺癌有关系?性别是否对于喜欢数学课程有影响等等。于喜欢数学课程有影响等等。1.2 独立性检验的基本思想及其初步应用2 吸烟与患肺癌列联表吸烟与患肺癌列联表患肺癌患肺癌不患肺癌不患肺癌总计总计吸烟吸烟49492099209921482148不吸烟不吸烟42427775777578177817总计总计91919874987499659965例例1 1:为了调查吸烟是否对肺癌有影响,某肿瘤研究:为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了所随机地调查了99659965人,得到如下结果(单位:人)人,得到如下结果(单位:人)列联表列联表2222在不吸烟者中患肺癌的比重是在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是 0.54%0.54%2.28%2.28%吸烟与患肺癌列联表患肺癌不患肺癌总计吸烟4920992132X2列联表 列出的两个分类变量的频数表,称为列联表x1x2总计总计y1aba+by2cdc+d总计总计a+cb+da+b+c+d2X2列联表 列出的两个分类变量的频数表,称为列联表x141)通过图形直观判断通过图形直观判断三维柱三维柱状图状图1)通过图形直观判断三维柱状图52)通过图形直观判断通过图形直观判断二维二维条形图条形图2)通过图形直观判断二维63)通过图形直观判断通过图形直观判断患肺癌患肺癌比例比例不患肺癌不患肺癌比例比例等高等高条形图条形图3)通过图形直观判断患肺癌不患肺癌等高7 独立性检验H H0 0:吸烟吸烟和和患肺癌患肺癌之间之间 没有关系没有关系 通过数据和图表分析,得到通过数据和图表分析,得到结论是:结论是:吸烟与患肺癌有关吸烟与患肺癌有关结论的可靠结论的可靠程度如何?程度如何?吸烟与患肺癌列联表吸烟与患肺癌列联表不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟a ab ba+ba+b吸烟吸烟c cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d 独立性检验H0:吸烟和患肺癌之间通过数据和图表分析,得到8因此因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;越小,说明吸烟与患肺癌之间关系越弱;|ad-bc|越大,说明吸烟与患肺癌之间关系越强。越大,说明吸烟与患肺癌之间关系越强。不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟aba+b吸烟吸烟cdc+d总计总计a+cb+da+b+c+d在表中,在表中,a恰好为事件恰好为事件AB发生的频数;发生的频数;a+b和和a+c恰好分别为事恰好分别为事件件A和和B发生的频数。由于频率接近于概率,所以在发生的频数。由于频率接近于概率,所以在H0成立的条成立的条件下应该有件下应该有因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;不患肺9 为为了了使使不不同同样样本本容容量量的的数数据据有有统统一一的的评评判判标标准准,基基于于上上述述分分析,我们构造一个随机变量析,我们构造一个随机变量-卡方统计量卡方统计量(1)若若 H0成立,即成立,即“吸烟与患肺癌没有关系吸烟与患肺癌没有关系”,则则K2应很小。应很小。独立性检验独立性检验注:一般要求a,b,c,d都不小于5 为了使不同样本容量的数据有统一的评判标准,基于上述10独立性检验1.利用随机变量K2来判断两个分类变量有关系的方法称这独立性检验2.类似于反证法反证法原理在假设H0下,如果推出一个矛盾,就证明了H0不成立。独立性检验原理在假设H0下,如果出现一个与H0相矛盾的小概率事件,就推断H0相不成立。且该推断犯错误的概率超过这个小概率。独立性检验1.利用随机变量K2来判断两个分类变量有关系的方法11检验步骤:检验步骤:(1 1)提出假设)提出假设H H0 0 :X X和和Y Y没有关系;没有关系;(3 3)查对临界值,作出判断。)查对临界值,作出判断。(2 2)根据)根据2 22 2列联表与公式计算列联表与公式计算 的值;的值;0.050.0250.0100.0050.0013.8415.0246.6357.87910.828P()0.500.400.250.150.100.4550.7081.3232.0722.706检验步骤:(1)提出假设H0:X和Y没有关系;(3)查对临12独立性判定的方法小结利用等高条形图发现a/(a+b)与c/(c+d)相差程度,越大越相关利用独立性检验。由观测值k判定两分类变量有关系的出错概率。说明方法见课本P95独立性判定的方法小结利用等高条形图发现a/(a+b)与c/(13通过公式计算通过公式计算 吸烟与患肺癌列联表吸烟与患肺癌列联表患肺癌患肺癌不患肺癌不患肺癌总计总计吸烟吸烟49492099209921482148不吸烟不吸烟42427775777578177817总计总计91919874987499659965通过公式计算 吸烟与患肺癌列联表患肺癌不患肺癌总计吸烟4914已知在已知在 成立的情况下,成立的情况下,故有故有99%99%的把握认为的把握认为H H0 0不成立,即有不成立,即有99%99%的把的把握认为握认为“患肺癌与吸烟有关系患肺癌与吸烟有关系”。即在即在 成立的情况下,成立的情况下,大于大于6.6356.635概率非常小,概率非常小,近似为近似为0.0100.010现在的现在的 =56.632 =56.632的观测值远大于的观测值远大于6.6356.635,出现这样的观测值的概率不超过出现这样的观测值的概率不超过0.0100.010。已知在 成立的情况下,故有99%的把握认为H0不成立,15在某医院,因为患心脏病而住院的在某医院,因为患心脏病而住院的665名男性病人名男性病人中,有中,有214人秃顶,而另外人秃顶,而另外772名不是因为患心脏病名不是因为患心脏病而住院的男性病人中有而住院的男性病人中有175人秃顶。利用图形判断人秃顶。利用图形判断秃顶与患心脏病是否有关系。能够以秃顶与患心脏病是否有关系。能够以99%的把握认的把握认为秃顶与患心脏病有关系吗?为什么?为秃顶与患心脏病有关系吗?为什么?例1患心脏病患心脏病换其他病换其他病总计总计秃顶秃顶214175389不秃顶不秃顶4515971048总计总计6657721437在某医院,因为患心脏病而住院的665名男性病人中,有214人16 底面副对角线上两个柱体高度的乘积要大一些,因底面副对角线上两个柱体高度的乘积要大一些,因此可以在某种程度上认为此可以在某种程度上认为“秃顶与患心脏病有关秃顶与患心脏病有关”所以有所以有99%的把握认为的把握认为“秃顶与患心脏病有关秃顶与患心脏病有关”因为这组数据来因为这组数据来自被调查的医院,自被调查的医院,因此此结论只是因此此结论只是用于该医院住院用于该医院住院的病人群体的病人群体 底面副对角线上两个柱体高度的乘积要大一些,17例例2 为考察高中生的性别与是否喜欢数学课程之间的关为考察高中生的性别与是否喜欢数学课程之间的关系。在某城市的某校高中生随机抽取系。在某城市的某校高中生随机抽取300名学生。得到名学生。得到如下列联表:如下列联表:性别与喜欢数学课程列联表性别与喜欢数学课程列联表喜欢喜欢不喜欢不喜欢总计总计男男3785122女女35143178总计总计72228300 由表中数据计算得到由表中数据计算得到K2的观测值的观测值k4.514。能够。能够以以95的把握认为高中生的性别与是否喜欢数学课程的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?为什么?之间有关系吗?为什么?例2 为考察高中生的性别与是否喜欢数学课程之间的关性别与喜欢18解:在假设解:在假设 “性别与是否喜欢数学课程之间没有关系性别与是否喜欢数学课程之间没有关系”的前提下,的前提下,应该很小,并且应该很小,并且而我们所得到的而我们所得到的 的观测值的观测值 超过超过3.8413.841,这就,这就意味着意味着“性别与是否喜欢数学课程之间有关系性别与是否喜欢数学课程之间有关系”这一结论这一结论是错误的可能性约为是错误的可能性约为0.050.05,即有,即有95%95%的把握认为的把握认为“性别与性别与是否喜欢数学课程之间有关系是否喜欢数学课程之间有关系”。解:在假设 “性别与是否喜欢数学课程之间没有关系”19【典例训练】【典例训练】1.(20121.(2012武汉高二检测武汉高二检测)在独立性检验中,若随机变量在独立性检验中,若随机变量K K2 2的观的观测值测值k6.635k6.635,则,则()()(A)X(A)X与与Y Y有关系,犯错的概率不超过有关系,犯错的概率不超过1%1%(B)X(B)X与与Y Y有关系,犯错的概率超过有关系,犯错的概率超过1%1%(C)X(C)X与与Y Y没有关系,犯错的概率不超过没有关系,犯错的概率不超过1%1%(D)X(D)X与与Y Y没有关系,犯错的概率超过没有关系,犯错的概率超过1%1%【典例训练】202.(20122.(2012厦门高二检测厦门高二检测)在对人们休闲方式的一次调查中,共在对人们休闲方式的一次调查中,共调查调查120120人,其中女性人,其中女性7070人、男性人、男性5050人人.女性中有女性中有4040人主要的休人主要的休闲方式是看电视,另外闲方式是看电视,另外3030人主要的休闲方式是运动;男性中有人主要的休闲方式是运动;男性中有2020人主要的休闲方式是看电视,另外人主要的休闲方式是看电视,另外3030人主要的休闲方式是运人主要的休闲方式是运动动.(1)(1)根据以上数据建立一个根据以上数据建立一个2222的列联表;的列联表;(2)(2)休闲方式与性别是否有关?休闲方式与性别是否有关?2.(2012厦门高二检测)在对人们休闲方式的一次调查中,21【解析】【解析】1.1.选选A.k6.635.A.k6.635.说明两个变量说明两个变量X X与与Y Y有关系,这种有关系,这种说法犯错误的概率不超过说法犯错误的概率不超过0.010.01,即,即1%1%,故选,故选A.A.2.(1)22.(1)2的列联表为的列联表为 性性 别别 看电视看电视运动运动总计总计女性女性404030 30 7070男性男性202030305050总计总计60606060120 120 休休 闲闲 方方 式式【解析】1.选A.k6.635.说明两个变量X与Y有关系22(2)(2)计算计算K K2 2的观测值为的观测值为而而2.7062.7063.4293.4293.841,3.841,因为因为P(KP(K2 22.706)0.10,P(K2.706)0.10,P(K2 23.841)0.05,3.841)0.05,所以,在犯错误的概率不超过所以,在犯错误的概率不超过0.100.10的前提下,认为休闲方式与的前提下,认为休闲方式与性别有关性别有关.(2)计算K2的观测值为232.2.为了调查某生产线上质量监督员甲对产品质量好坏有无影响,为了调查某生产线上质量监督员甲对产品质量好坏有无影响,现统计数据如下:甲在生产现场时,现统计数据如下:甲在生产现场时,990990件产品中有合格品件产品中有合格品982982件,次品件,次品8 8件;甲不在生产现场时,件;甲不在生产现场时,510510件产品中有合格品件产品中有合格品493493件,次品件,次品1717件件.试分别用列联表、等高条形图、独立性检验的试分别用列联表、等高条形图、独立性检验的方法分析监督员甲对产品质量好坏有无影响方法分析监督员甲对产品质量好坏有无影响.能否在犯错误的能否在犯错误的概率不超过概率不超过0.0010.001的前提下,认为质量监督员甲是否在生产现的前提下,认为质量监督员甲是否在生产现场与产品质量有关?场与产品质量有关?2.为了调查某生产线上质量监督员甲对产品质量好坏有无影响,现24【解析】【解析】1.1.根据独立性检验的思想,假设没关系正确的可根据独立性检验的思想,假设没关系正确的可能性为能性为5%5%,所以,判断有关系错误的可能性也为,所以,判断有关系错误的可能性也为5%.5%.答案答案:5%5%【解析】1.根据独立性检验的思想,假设没关系正确的可能性为5252.(1)222.(1)22列联表如下:列联表如下:由列联表可得由列联表可得ad-bc|=|98217-4938|=12 750.ad-bc|=|98217-4938|=12 750.相差较大,可在某种程度上认为相差较大,可在某种程度上认为“质量监督员甲是否在现场与质量监督员甲是否在现场与产品质量有关系产品质量有关系”.”.合格品数合格品数次品数次品数总计总计甲在生产现场甲在生产现场9829828 8990990甲不在生产现场甲不在生产现场4934931717510510总计总计1 4751 47525251 500 1 500 2.(1)22列联表如下:合格品数次品数总计甲在生产现场926(2)(2)画等高条形图画等高条形图.如图可知,在某种程度上认为如图可知,在某种程度上认为“质量监督员甲是否在生产现场质量监督员甲是否在生产现场与产品质量有关系与产品质量有关系”.”.(2)画等高条形图.27(3)(3)由由2222列联表中数据,计算得到列联表中数据,计算得到K K2 2的观测值为的观测值为 因此,在犯错误的因此,在犯错误的概率不超过概率不超过0.0010.001的前提下,认为质量监督员甲在不在生产现的前提下,认为质量监督员甲在不在生产现场与产品质量好坏有关系场与产品质量好坏有关系.(3)由22列联表中数据,计算得到K2的观测值为28【想一想】【想一想】在独立性检验中,容易出现的错误有哪些?在独立性检验中,容易出现的错误有哪些?提示提示:容易因不能准确列出列联表而犯错误;容易因不能准确列出列联表而犯错误;用等高条形图粗略估计代替准确结论而犯错误;用等高条形图粗略估计代替准确结论而犯错误;由于记错由于记错K K2 2公式、计算出错而犯错误;公式、计算出错而犯错误;由于不能利用由于不能利用K K2 2的值与临界值的值与临界值k k0 0比较而出错比较而出错.【想一想】在独立性检验中,容易出现的错误有哪些?29【规范解答】【规范解答】独立性检验独立性检验【典例】【典例】(12(12分分)(2012)(2012荆州高二检测荆州高二检测)调查某医院某段时间内调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:出生时间在婴儿出生的时间与性别的关系,得到下面的数据:出生时间在晚上的男婴为晚上的男婴为2424人,女婴为人,女婴为8 8人;出生时间在白天的男婴为人;出生时间在白天的男婴为3131人,女婴为人,女婴为2626人人.【规范解答】独立性检验32【规范解答】【规范解答】(1)(1)66分分性别性别晚上晚上白天白天总计总计男婴男婴24 24 31315555女婴女婴8 826263434总计总计 323257578989出出 生生 时时 间间【规范解答】性别晚上白天总计男婴24 3155女婴82633(2)(2)由所给数据计算由所给数据计算K K2 2的观测值的观测值 88分分根据临界值表知根据临界值表知P(KP(K2 22.706)0.10.2.706)0.10.9 9分分因此在犯错误的概率不超过因此在犯错误的概率不超过0.10.1的前提下认为婴儿的性别与出的前提下认为婴儿的性别与出生的时间有关系生的时间有关系.1212分分(2)由所给数据计算K2的观测值341.1.在研究两个分类变量之间是否有关时,可以粗略地判断两个在研究两个分类变量之间是否有关时,可以粗略地判断两个分类变量是否有关的是分类变量是否有关的是()()(A)(A)散点图散点图 (B)(B)等高条形图等高条形图(C)22(C)22列联表列联表 (D)(D)以上均不对以上均不对【解析】【解析】选选B.B.等高条形图可以粗略地判断两个分类变量之间是等高条形图可以粗略地判断两个分类变量之间是否有关否有关.1.在研究两个分类变量之间是否有关时,可以粗略地判断两个分类352.2.分类变量分类变量X X和和Y Y的列联表如下,则下列说法中正确的是的列联表如下,则下列说法中正确的是()()(A)ad-bc(A)ad-bc越小,说明越小,说明X X与与Y Y关系越弱关系越弱(B)ad-bc(B)ad-bc越大,说明越大,说明X X与与Y Y关系越强关系越强(C)(ad-bc)(C)(ad-bc)2 2越大,说明越大,说明X X与与Y Y关系越强关系越强(D)(ad-bc)(D)(ad-bc)2 2越接近于越接近于0 0,说明,说明X X与与Y Y关系越强关系越强Y Y1 1Y Y2 2总计总计X X1 1a ab ba+ba+bX X2 2c cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d2.分类变量X和Y的列联表如下,则下列说法中正确的是(36【解析】【解析】选选C.C.(ad-bc)(ad-bc)2 2越大,则越大,则K K2 2越大,越大,X X与与Y Y关系越强,故选关系越强,故选C.C.【解析】选C.373.3.在吸烟与患肺病这两个分类变量的计算中,下列说法中正确在吸烟与患肺病这两个分类变量的计算中,下列说法中正确的是的是()()(A)(A)若随机变量若随机变量K K2 2的观测值的观测值k k6.635,6.635,我们说吸烟与患肺病有关我们说吸烟与患肺病有关的概率为的概率为0.990.99,则某人吸烟,那么他可能患有肺病的概率为,则某人吸烟,那么他可能患有肺病的概率为0.990.99(B)(B)若从统计量中求出吸烟与患肺病有关的概率为若从统计量中求出吸烟与患肺病有关的概率为0.990.99,则在,则在100100个吸烟者中必有个吸烟者中必有9999人患有肺病人患有肺病3.在吸烟与患肺病这两个分类变量的计算中,下列说法中正确的是38(C)(C)若从统计量中求出吸烟与患肺病有关的概率为若从统计量中求出吸烟与患肺病有关的概率为0.950.95,是指,是指推断错误的概率为推断错误的概率为0.050.05(D)(D)以上说法均错误以上说法均错误【解析】【解析】选选C.C.根据随机变量根据随机变量K K2 2的意义可知,的意义可知,A A与与B B均错误,均错误,C C正确正确.(C)若从统计量中求出吸烟与患肺病有关的概率为0.95,是指394.4.某班主任对全班某班主任对全班5050名学生进行了一次调查,所得数据如表:名学生进行了一次调查,所得数据如表:由表中数据计算得到由表中数据计算得到K K2 2的观测值的观测值k5.059,k5.059,于是于是_(_(填填“能能”或或“不能不能”)”)在犯错误的概率不超过在犯错误的概率不超过0.010.01的前提下认为的前提下认为性别与按时完成作业有关性别与按时完成作业有关.按时完成作业按时完成作业不按时完成作业不按时完成作业总计总计男男18189 92727女女8 815152323总计总计2626242450504.某班主任对全班50名学生进行了一次调查,所得数据如表:按40【解析】【解析】查表知若要在犯错误的概率不超过查表知若要在犯错误的概率不超过0.010.01的前提下认为的前提下认为性别与按时完成作业有关,则临界值性别与按时完成作业有关,则临界值k k0 0=6.635.=6.635.本题中,本题中,kk5.0595.0596.6356.635,所以不能在犯错误的概率不超过,所以不能在犯错误的概率不超过0.010.01的前提下的前提下认为性别与按时完成作业有关认为性别与按时完成作业有关.答案:答案:不能不能【解析】查表知若要在犯错误的概率不超过0.01的前提下认为性415.5.在对人们饮食习惯的一次调查中,共调查了在对人们饮食习惯的一次调查中,共调查了124124人,其中六人,其中六十岁以上的十岁以上的7070人,六十岁以下的人,六十岁以下的5454人人.六十岁以上的人中有六十岁以上的人中有4343人的饮食以蔬菜为主,另外人的饮食以蔬菜为主,另外2727人则以肉类为主;六十岁以下的人则以肉类为主;六十岁以下的人中有人中有2121人饮食以蔬菜为主,另外人饮食以蔬菜为主,另外3333人则以肉类为主人则以肉类为主.请根据请根据以上数据作出饮食习惯与年龄的列联表以上数据作出饮食习惯与年龄的列联表.5.在对人们饮食习惯的一次调查中,共调查了124人,其中六十42【解析】【解析】2222列联表如下:列联表如下:年龄年龄饮食习惯饮食习惯年龄在六年龄在六十岁以上十岁以上年龄在六年龄在六十岁以下十岁以下总计总计饮食以蔬菜为主饮食以蔬菜为主434321216464饮食以肉类为主饮食以肉类为主272733336060总计总计70705454124 124【解析】22列联表如下:年龄年龄在六十岁以43小结分类变量2X2列联表独立性检验的思想、方法与步骤两分类变量的相关性判定的常用方法。小结分类变量44
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!