资源描述
2022年高考总复习文数(北师大版)讲义:第11章 第04节 变量间的相关关系与统计案例 Word版含答案考点高考试题考查内容核心素养线性回归分析xx全国卷T1912分相关系数、均值、标准差数据分析独立性检验xx全国卷T1812分独立性检验、相互独立事件的概率、直方图数据分析线性回归方程xx全国卷T1812分利用线性回归方程解决实际问题数据分析xx全国卷T1912分回归直线方程的求法和应用数据分析命题分析本节是高考考查的热点,主要考查回归分析,回归直线方程的求法及应用,独立性检验多以解答题形式出现.(1)最小二乘法:求回归直线使得样本数据中的点到它的_距离的平方和_最小,即求Q(yi(abxi)2的最小值,而得到回归直线方程的方法叫最小二乘法(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),(xn,yn)其回归方程为yabx,则其中,a、b是线性回归方程的_系数_3相关系数r(1)r(2)当r0时,称两个变量_正相关_;当r0时,称两个变量_负相关_;当r0时,称两个变量_不相关_r的绝对值越接近于1,表明两个变量之间的线性相关程度越高;r的绝对值越接近于0时,表明两个变量之间的线性相关程度越低4独立性检验(1)22列联表设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2;变量B:B1,B2,通过观察得到下表所示的数据:BAB1B2总计A1ababA2cdcd总计acbdnabcd(2)独立性判断方法选取统计量!2#,用它的大小来检验变量之间是否独立当2_2.706_时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;当2_2.706_时,有90%的把握判定变量A,B有关联;当2_3.841_时,有95%的把握判定变量A,B有关联;当2_6.635_时,有99%的把握判定变量A,B有关联提醒:1辨明三个易误点(1)回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(,)点,可能所有的样本数据点都不在直线上(2)利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值)(3)虽然任何一组不完全相同的数据都可以求出回归直线方程,但只有具有线性相关关系的一组数据才能得到有意义的回归直线方程,求出的方程才具有实际价值2求回归方程的方法求解回归方程的关键是确定回归系数a,b,因求解b的公式计算量太大,一般题目中给出相关的量,如,iyi等,便可直接代入求解充分利用回归直线过样本中心点(,),即有ba,可确定a1判断下列结论的正误(正确的打“”,错误的打“”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系()(2)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示()(3)通过回归方程ybxa可以估计和观测变量的取值和变化趋势()(4)任何一组数据都对应着一个回归直线方程()(5)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大()答案:(1)(2)(3)(4)(5)2(xx湖北卷)已知变量x和y满足关系y0.1x1,变量y与z正相关下列结论中正确的是()Ax与y负相关,x与z负相关Bx与y正相关,x与z正相关Cx与y正相关,x与z负相关Dx与y负相关,x与z正相关解析:选A由回归直线方程定义知,x与y负相关由y与z正相关,可设其回归直线为ykzb,且k0,所以x10kz10b10,则x与z负相关3(教材习题改编)已知x,y的取值如下表,从散点图可以看出y与x之间有线性相关关系,且回归方程为y0.95xa,则a()x0134y2.24.34.86.7A3.25B2.6C2.2D0解析:选B由已知得2,4.5,因为回归方程经过点(,),所以a4.50.9522.64在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()A若26.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,我们说某人吸烟,那么他有99%的可能患有肺病C若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D以上三种说法都不正确解析:选C根据独立性检验的思想知C项正确相关关系的判断明技法判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关(2)相关系数:r0时,正相关;r0时,负相关(3)线性回归方程中:b0时,正相关;b0时,负相关提能力【典例】 (1)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得线性回归方程,分别得到以下四个结论:y与x负相关且y2.347x6.423;y与x负相关且y3.476x5.648;y与x正相关且y5.437x8.493;y与x正相关且y4.326x4.578其中一定不正确的结论的序号是()ABC D(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为_x,y是负相关关系;在该相关关系中,若用yc1ec2x拟合时的相关系数的平方为r,用ybxa拟合时的相关系数的平方为r,则rr;x、y之间不能建立线性回归方程解析:(1)b0,正相关;b0,负相关(2)由相关关系定义知正确答案:(1)D(2)刷好题1(xx资阳模拟)在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图根据该图,下列结论中正确的是()A人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%解析:选B观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%,故选B2变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1)r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则()Ar2r10B0r2r1Cr20r1 Dr2r1解析:选C变量Y随X的增大而增大,故Y与X正相关,所以r10;变量V随U的增大而减小,故V与U负相关,即r20,所以r20r1线性回归分析析考情回归方程的求解与运用计算量大,主要是通过最小二乘法求解回归直线方程,并进行相应的估计预测,题型既有小题也有解答题,难度不大,另外非线性回归分析问题也应引起足够重视提能力【典例】 (1)(xx山东卷)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系设其回归直线方程为ybxa.已知i225,i1 600,b4.该班某学生的脚长为24,据此估计其身高为()A160B163C166D170解析:选Ci225,i22.5i1 600,i160又b4,ab160422.570回归直线方程为y4x70将x24代入上式得y42470166.故选C(2)(xx重庆卷)随着我国经济的发展,居民的储蓄存款逐年增长设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份xxxxxxxxxx时间代号t12345储蓄存款y(千亿元)567810求y关于t的回归方程ybta;用所求回归方程预测该地区xx年(t6)的人民币储蓄存款解:列表计算如下:itiyittiyi11515226412337921448163255102550153655120这里n5,i3,i7.2又lttn25553210,ltyiyin120537.212,从而b1.2,ab7.21.233.6,故所求回归方程为y1.2t3.6将t6代入回归方程可预测该地区xx年的人民币储蓄存款为y1.263.610.8(千亿元)悟技法1回归直线方程中系数的2种求法(1)利用公式,求出回归系数b,a(2)待定系数法:利用回归直线过样本点中心求系数2回归分析的2种策略(1)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值(2)利用回归直线判断正、负相关:决定正相关还是负相关的是回归系数r刷好题(xx全国卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响对近8年的年宣传费xi和年销售量yi(i1,2,8)数据作了初步处理,得到下面的散点图及一些统计量的值(xi)2(wi)2(xi)(yi)(wi)(yi)46.65636.8289.81.61 469108.8表中wi,i(1)根据散点图判断,yabx与ycd哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z0.2yx.根据(2)的结果回答下列问题:()年宣传费x49时,年销售量及年利润的预报值是多少?()年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),(un,vn),其回归直线vu的斜率和截距的最小二乘估计分别为,解:(1)由散点图可以判断,ycd适宜作为年销售量y关于年宣传费x的回归方程类型(2)令w,先建立y关于w的线性回归方程由于d68,cd 563686.8100.6,所以y关于w的线性回归方程为y100.668w,因此y关于x的回归方程为y100.668(3)()由(2)知,当x49时,年销售量y的预报值y100.668576.6,年利润z的预报值z576.60.24966.32()根据(2)的结果知,年利润z的预报值z0.2(100.668)xx13.620.12所以当6.8,即x46.24时,z取得最大值故年宣传费为46.24千元时,年利润的预报值最大独立性检验析考情近几年高考中对独立性检验的考查频率明显下降,题目多以解答题的形式出现,一般为容易题,多与概率、统计等内容综合考查提能力【典例】 (xx全国卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量50 kg箱产量50 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01)附:P(2k)0.0500.0100.001k3.8416.63510.828,2解:(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”由题意知P(A)P(BC)P(B)P(C)旧养殖法的箱产量低于50 kg的频率为(0.0120.0140.0240.0340.040)50.62,故P(B)的估计值为0.62新养殖法的箱产量不低于50 kg的频率为(0.0680.0460.0100.008)50.66,故P(C)的估计值为0.66因此,事件A的概率估计值为0.620.660.409 2(2)根据箱产量的频率分布直方图得列联表箱产量6.635,故有99%的把握认为箱产量与养殖方法有关(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为(0.0040.0200.044)50.340.5,故新养殖法产量的中位数的估计值为5052.35(kg)悟技法1比较几个分类变量有关联的可能性大小的方法(1)通过计算2的大小判断:2越大,两变量有关联的可能性越大(2)通过计算|adbc|的大小判断:|adbc|越大,两变量有关联的可能性越大2独立性检验的一般步骤(1)根据样本数据制成22列联表(2)根据公式2计算2的观测值k(3)比较k与临界值的大小关系,作统计推断刷好题1(xx衡阳联考)2016年9月20日是第28个全国爱牙日,为了迎接此节日,某地区卫生部门成立了调查小组,调查“常吃零食与患龋齿的关系”,对该地区小学六年级800名学生进行检查,按患龋齿和不患龋齿分类,并汇总数据:不常吃零食且不患龋齿的学生有60名,常吃零食但不患龋齿的学生有100名,不常吃零食但患龋齿的学生有140名(1)能否在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系?(2)4名卫生部门的工作人员随机分成两组,每组2人,一组负责数据收集,另一组负责数据处理,求工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率附:2P(K2k0)0.0100.0050.001k06.6357.87910.828解:(1)由题意可得22列联表如下:不常吃零食常吃零食总计不患龋齿60100160患龋齿140500640总计200600800根据22列联表中数据,得2的观测值为k16.66710.828能在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系(2)设其他工作人员为丙和丁,4人分组的所有情况如下表.小组123456收集数据甲乙甲丙甲丁乙丙乙丁丙丁处理数据丙丁乙丁乙丙甲丁甲丙甲乙由表可知,分组的情况共有6种,工作人员甲负责收集数据且工作人员乙负责处理数据的有2种,故工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率为P2某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.分数段40,50)50,60)60,70)70,80)80,90)90,100男39181569女64510132(1)估计男、女生各自的平均分(同一组数据用该组区间中点值作代表),从计算结果看,数学成绩与性别是否有关;(2)规定80分以上为优分(含80分),请你根据已知条件作出22列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.优分非优分总计男生女生总计100附表及公式P(2k0)0.1000.0500.0100.001k02.7063.8416.63510.8282解:(1)男450.05550.15650.3750.25850.1950.1571.5,女450.15550.1650.125750.25850.325950.0571.5,从男、女生各自的平均分来看,并不能判断数学成绩与性别有关(2)由频数分布表可知:在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得22列联表如下:优分非优分总计男生154560女生152540总计3070100可得21.79,因为1.792.706,所以没有90%以上的把握认为“数学成绩与性别有关”
展开阅读全文