资源描述
3.2独立性检验的基本思想及其初步应用教材研读预习教材P9196,思考以下问题1分类变量与列联表分别是如何定义的?2独立性检验的基本思想是怎样的?要点梳理1与列联表相关的概念(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量(2)列联表:列出的两个分类变量的频数表,称为列联表一般地,假设有两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为:YXy1y2总计x1ababx2cdcd总计acbdabcd2.等高条形图等高条形图与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列表数据的频率特征3独立性检验的基本思想(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验(2)公式:K2,其中nabcd.(3)独立性检验的具体做法:根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界,然后查表确定临界值k0.利用公式计算随机变量K2的观测值k.如果kk0,就推断“X与Y有关系”,这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”自我诊断判断(正确的打“”,错误的打“”)1分类变量中的变量与函数中的变量是同一概念()2列联表频率分析法、等高条形图可初步分析两分类变量是否有关系,而独立性检验中K2取值则可通过统计表从数据上说明两分类变量的相关性的大小()3独立性检验的方法就是反证法()答案1.2.3.题型一用等高条形图分析两个分类变量间的关系 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:组别阳性数阴性数总计铅中毒病人29736对照组92837总计383573试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?思路导引依据表中数据,画出等高条形图,由图形进行分析解等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系(1)判断两个分类变量是否有关系的两种常用方法利用数形结合思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法一般地,在等高条形图中,与相差越大,两个分类变量有关系的可能性就越大(2)利用等高条形图判断两个分类变量是否相关的步骤跟踪训练在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分别利用图形和独立性检验的方法来判断色盲与性别是否有关?你所得到的结论在什么范围内有效?解根据题目所给的数据作出如下的列联表:色盲不色盲总计男38442480女6514520总计449561000根据列联表作出相应的等高条形图,如图所示从等高条形图来看,男性患色盲的频率要高一些,因此直观上可以认为色盲与性别有关根据列联表中所给的数据可以有a38,b442,c6,d514,ab480,cd520,ac44,bd956,n1000,由公式K2,得K2的观测值k27.110.828.因此,在犯错误的概率不超过0.001的前提下,认为色盲与性别是有关的题型二用22列联表分析两个分类变量间的关系思考:下面是22列联表.y1y2总计x1332154x2a1346总计b34100则表中a,b处的值应为多少?提示:a461333,b33a333366. 为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人能否在犯错误的概率不超过0.1的前提下,认为“学生选报文、理科与对外语的兴趣有关”?解根据题目所给的数据得到如下列联表:理科文科总计有兴趣13873211无兴趣9852150总计236125361根据列联表中数据由公式计算得随机变量K2的观测值k1.871104.因为1.8711046.635.故在犯错误的概率不超过0.01的前提下认为该种药物对“H1N1”病毒有治疗效果 某高校共有学生15000人,其中男生10500人,女生4500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时)(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:0,2,(2,4,(4,6,(6,8,(8,10,(10,12估计该校学生每周平均体育运动时间超过4小时的概率(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时请完成每周平均体育运动时间与性别的列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”附:K2P(K2k0)0.100.050.0100.005k02.7063.8416.6357.879解(1)30090,所以应收集90位女生的样本数据(2)由频率分布直方图得2(0.1500.1250.0750.025)0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有3000.75225人的每周平均体育运动时间超过4个小时,75人的每周平均体育运动时间不超过4个小时又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别的列联表如下:平均体育运动时间与性别列联表男生女生总计每周平均体育运动时间不超过4个小时453075每周平均体育运动时间超过4个小时16560225总计21090300结合列联表可算得K2的观测值k4.7623.841.有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”(1)独立性检验问题是常与统计、概率相结合,解题时一定要认真审题,找出各数据的联系(2)解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论跟踪训练某中学将100名高一新生分成水平相同的甲、乙两个“平行班”,每班50人陈老师采用A,B两种不同的教学方式分别在甲、乙两个班级进行教改实验为了解教学效果,期末考试后,陈老师分别从两个班级中各随机抽取20名学生的成绩进行统计,作出茎叶图如图记成绩不低于90分者为“成绩优秀”.(1)在乙班样本的20个个体中,从不低于86分的成绩中随机抽取2个,求抽出的两个均“成绩优秀”的概率;(2)由以上统计数据作出列联表,并判断能否在犯错误的概率不超过0.1的前提下认为:“成绩优秀”与教学方式有关解(1)由题意知本题是一个等可能事件的概率,试验发生包含的事件是从不低于86分的成绩中随机抽取两个包含的基本事件是:(86,93),(86,96),(86,97),(86,99),(86,99),(93,96),(93,97),(93,99),(93,99),(96,97),(96,99),(96,99),(97,99),(97,99),(99,99),共有15种结果,符合条件的事件数(93,96),(93,97),(93,99),(93,99),(96,97),(96,99),(96,99),(97,99),(97,99),(99,99),共有10种结果,根据等可能事件的概率得到P.(2)由已知数据得甲班乙班总计成绩优秀156成绩不优秀191534总计202040根据列联表中的数据,计算得随机变量K2的观测值k3.137,由于3.1372.706,所以在犯错误的概率不超过0.1的前提下认为:“成绩优秀”与教学方式有关1.本节课的重点是用22列联表、等高条形图分析两个分类变量间的关系以及独立性检验2本节课要重点掌握的规律方法(1)用等高条形图分析两个分类变量间的关系,见典例1;(2)用22列联表分析两个分类变量间的关系,见典例2;(3)独立性检验,见典例3.3解决一般的独立性检验问题的步骤(1)通过列联表确定a,b,c,d,n的值,根据实际问题需要的可信程度确定临界值k0;(2)利用K2求出K2的观测值k;(3)如果kk0,就推断“两个分类变量有关系”,这种推断犯错误的概率不超过,否则就认为在犯错误的概率不超过的前提下不能推断“两个分类变量有关系”其中第(2)步易算错K2的值,是本节课的易错点
展开阅读全文