资源描述
2019年高中数学 第三章 统计案例 3.2 独立性检验的基本思想及其初步应用课时训练 理 新人教A版选修2-33.2独立性检验的基本思想及其初步应用1分类变量和列联表(1)分类变量:变量的不同“值”表示个体所属的_,像这样的变量称为分类变量(2)列联表:定义:列出的两个分类变量的_称为列联表22列联表一般地,假设有两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为总计总计从列表中,依据与的值可直观得出结论:两个变量是否有关系.2等高条形图(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否_,常用等高条形图表示列联表数据的_(2)观察等高条形图发现_和_相差很大,就判断两个分类变量之间有关系3独立性检验定义利用随机变量来判断“两个分类变量有关系”的方法称为独立性检验公式,其中_为样本容量.具体步骤确定,根据实际问题的需要,确定容许推断“两个分类变量有关系”犯错误概率的上界,然后查表确定_计算,利用公式计算随机变量的观测值为_下结论,如果_,就推断“与有关系”,这种推断_不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”,或者在样本数据中_支持结论“与有关系”参考答案1(1)不同类别 (2)频数表 2(1)相互影响 频率特征 (2) 3 临界值 观测值 犯错误的概率 没有发现足够证据重点了解分类变量的意义,会列出的列联表,会计算,并理解其意义难点了解实际推理和假设检验的基本思想易错思维不清易出错 错把统计当确定1.列联表和等高条形图的应用某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系【答案】详见解析【解析】作列联表如下:性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计4265941020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例从图中可以看出,考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关【名师点睛】1判断两个分类变量是否有关系的两种常用方法(1)利用数形结合思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法(2)一般地,在等高条形图中,与相差越大,两个分类变量有关系的可能性就越大2利用等高条形图判断两个分类变量是否相关的步骤2.独立性检验 某班主任对全班50名学生学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:积极参加班级工作不太主动参加班级工作合计学习积极性高18725学习积极性一般61925合计242650(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关系?并说明理由?参考公式及数据:,其中为样本容量.0.0500.0100.0013.8416.63510.828【答案】详见解析【解析】(1)积极参加班级工作的学生有24人,总人数为50人概率为;不太主动参加班级工作且学习积极性一般的学生有19人,概率为.(2)由表中数据可得,有99.9%的把握说学习积极性与对待班级工作的态度有关系【名师点睛】独立性检验的步骤:第一步,确定分类变量,获取样本频数,得到列联表第二步,根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界,然后查表确定临界值第三步,利用公式计算随机变量的观测值第四步,作出判断如果,就推断“X与Y有关系”,这种推断犯错误的概率不超过,否则就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”3思维不清易出错 错把统计当确定试分析下列说法正确与否:在用独立性检验的方法检验某单位招聘行政工作人员和技术工作人员所招聘的男女人数时,得到了 的观测值为,这就证明该单位在两类工作岗位上的招聘中一定存在性别歧视.【错解】这种说法都是正确的.【错因分析】统计思维得出的结论是带有随机性的、不能完全确定的结论. 错解中依据确定性思维对统计计算的结果给出了错误的解释.【正解】说法错误.根据独立性检验,当的观测值为时,有95%的把握认为该单位在两类工作岗位上的招聘中存在性别歧视,即该单位在招聘工作中存在性别歧视的嫌疑很大,概率高达95%,即使是这样也不能100% 肯定该单位在招聘工作中存在性别歧视.另一方面,由于男女在选择工作岗位上的心理不同,也会造成各个岗位招聘男女人数的差异,导致计算的的观测值过大,因此,单纯从这个计算结果不能得出该单位在两类工作岗位上的招聘中一定存在性别歧视的结论.1下列关于等高条形图的叙述正确的是A从等高条形图中可以精确地判断两个分类变量是否有关系B从等高条形图中可以看出两个变量频数的相对大小C从等高条形图中可以粗略地看出两个分类变量是否有关系D以上说法都不对2下面是一个22列联表:总计217382533总计46则表中a、b处的值分别为A94、96B52、50C52、60D54、523利用独立性检验来考虑两个分类变量与是否有关系时,通过查阅下表来确定“和有关系”的可信度.如果,那么就有把握认为“与有关系”的百分比为0.500.400.250.150.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.828A5%B95%C2.5%D97.5%4为了调查患慢性气管炎是否与吸烟有关,调查了339名50岁以下的人,调查结果如下表:患慢性气管炎未患慢性气管炎合计吸烟43162205不吸烟13121134合计56283339根据列表数据,求得的观测值_.5某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件试利用列联表和等高条形图判断监督员甲在不在生产现场对产品质量好坏有无影响6调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31人,女婴为26人(1)将22列联表补充完整出生时间总计晚上白天男婴女婴总计(2)能否在犯错误的概率不超过0.1的前提下认为婴儿性别与出生时间有关系?7某班主任对全班50名学生进行了作业量多少的调查,数据如下表:认为作业多认为作业不多总数喜欢玩电脑游戏18927不喜欢玩电脑游戏81523总数262450则认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约为0.500.400.250.150.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.828A99% B97.5%C95% D无充分依据8两个分类变量X、Y,它们的取值分别为x1、x2和y1、y2,其列联表为:y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d若两个分类变量X、Y独立,则下列结论:;.其中正确的序号是_9下表是某地区的一种传染病与饮用水的调查表:得病不得病合计干净水52466518不干净水94218312合计146684830(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病5人,不得病50人;饮用不干净水得病9人,不得病22人按此样本数据分析这种传染病是否与饮用水的卫生程度有关,并比较两种样本在反映总体时的差异10某城市随机抽取一年(365天)内100天的空气质量指数的监测数据,结果统计如下:空气质量优良轻微污染轻度污染中度污染中度重污染重度污染天数413183091115记某企业每天由空气污染造成的经济损失为(单位:元),空气质量指数为.在区间0,100对企业没有造成经济损失;在区间对企业造成的经济损失成直线模型(当为150时,造成的经济损失为500元,当API为200时,造成的经济损失为700元);当大于300时造成的经济损失为xx元;(1)试写出的表达式:(2)试估计在本年内随机抽取一天,该天经济损失S大于500元且不超过900元的概率;(3)若本次抽取的样本数据有30天是在供暖季,其中有8天为重度污染,完成下面22列联表,并判断能否有95%的把握认为该市本年空气重度污染与供暖有关?非重度污染重度污染合计供暖季非供暖季合计100附:P(K2 k0)0.250.150.100.050.0250.0100.0050.001k01.3232.0722.7063.8415.0246.6357.87910.8281C 【解析】在等高条形图中仅能粗略判断两个分类变量的关系,故A错,在等高条形图中仅能够找出频率,无法找出频数,故B错.2C 【解析】,.又.3B 【解析】因为,所以有把握认为“与有关系”的百分比为95%.故选B.47.469 【解析】.5【解析】根据题目所给数据得如下22列联表:分类合格品数次品数总计甲在生产现场9828990甲不在生产现场49317510总计1475251500,比较大,说明甲在不在生产现场与产品质量好坏有关系相应的等高条形图如图所示图中两个阴影部分的高分别表示甲在生产现场和甲不在生产现场时样品中次品数的频率从图中可以看出,甲不在生产现场时样本中次品数的频率明显高于甲在生产现场时样本中次品数的频率因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系6.【解析】(1)列22列联表:出生时间总计晚上白天男婴243155女婴82634总计325789(2)由所给数据计算的观测值.根据临界值表知.因此在犯错误的概率不超过0.1的前提下认为婴儿的性别与出生的时间有关系7B 【解析】由表中数据得的观测值.所以约有97.5%的把握认为两变量之间有关系8 【解析】分类变量独立,化简得,故正确;式化简得,故正确9【解析】(1)根据题目中的列联表,及公式得.因为,因此我们有99.9%的把握认为该地区这种传染病与饮用水的卫生程度有关(2)依题意得22列联表:得病不得病合计干净水55055不干净水92231合计147286由公式得.由,所以我们有97.5%的把握认为该种传染病与饮用水的卫生程度有关两个样本都能统计得到传染病与饮用水的卫生程度有关这一相同结论,但(1)问中我们有99.9%的把握肯定结论的正确性,(2)问中我们只有97.5%的把握肯定结论的正确性10【解析】(1)由题意得当时,;当时,设,由题意可知时,;时,从而可得,解得,所以;当时,.综上可得.(2)设“在本年内随机抽取一天,该天经济损失大于500元且不超过900元”为事件,由,即,得,对应的频数为39,所以.(3)根据题中数据得到如下列联表:非重度污染重度污染合计供暖季22830非供暖季63770合计8515100的观测值,所以有95%的把握认为该市本年空气重度污染与供暖有关.
展开阅读全文