资源描述
全国版2019版高考数学一轮复习第9章统计统计案例第3讲变量相关关系与统计案例学案板块一知识梳理自主学习必备知识考点1变量间的相关关系1常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系2从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关考点2回归方程与回归分析1线性相关关系与回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线2回归方程(1)最小二乘法:求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法(2)回归方程:方程x是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn)的回归方程,其中,是待定数3回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法(2)样本点的中心:在具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn)中,(x1xn),(y1yn),(,)称为样本点的中心(3)相关系数r,当r0时,两变量正相关,当r10.828就有99.9%的理由认为两个量是有关的板块二典例探究考向突破考向线性回归分析例1xx金华模拟某百货公司16月份的销售量x与利润y的统计数据如下表:月份123456销售量x(万件)1011131286利润y(万元)222529261612(1)根据2至5月份的数据,求出y关于x的回归直线方程x;(2)若由回归直线方程得到的估计数据与剩下的检验数据的误差均不超过2万元,则认为得到的回归直线方程是理想的,试问所得回归直线方程是否理想?参考公式:,.解(1)根据表中2至5月份的数据,计算得11,24,xiyi1125132912268161092,x11213212282498,则,2411.故y关于x的回归直线方程为x.(2)当x10时,10,此时2;当x6时,6,此时2.故所得的回归直线方程是理想的触类旁通(1)正确理解计算,的公式和准确的计算是求线性回归方程的关键(2)回归直线方程x必过样本点中心(,)(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测【变式训练1】PM2.5是指空气中直径小于或等于2.5微米的颗粒物(也称可入肺颗粒物)为了探究车流量与PM2.5的浓度是否相关,现采集到某城市周一至周五某一时间段车流量与PM2.5浓度的数据如下表:时间周一周二周三周四周五 车流量x(万辆)100102108114116 PM2.5的浓度y(微克/立方米)7880848890(1)根据上表数据,用最小二乘法求出y关于x的线性回归方程x;(2)若周六同一时间段车流量是200万辆,试根据(1)求出的线性回归方程预测,此时PM2.5的浓度为多少?参考公式:,;参考数据:xi540,yi420解(1)由条件可知,xi108,yi84, (xi)(yi)(8)(6)(6)(4)006486144, (xi)2(8)2(6)2026282200.0.72,840.721086.24,故y关于x的线性回归方程为0.72x6.24.(2)当x200时,0.722006.24150.24,所以可以预测此时PM2.5的浓度约为150.24微克/立方米考向两个变量的相关性命题角度1相关关系的判断例2对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()Ar2r40r3r1 Br4r20r1r3Cr4r20r3r1 Dr2r40r1r3答案A解析易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r2r40r3r1.命题角度2相关系数的意义例3xx全国卷为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm)下面是检验员在一天内依次抽取的16个零件的尺寸:经计算得i9.97,s 0.212, 18.439,(xi)(i8.5)2.78,其中xi为抽取的第i个零件的尺寸,i1,2,16.(1)求(xi,i)(i1,2,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(3s,3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查()从这一天抽检的结果看,是否需对当天的生产过程进行检查?()在(3s,3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差(精确到0.01)附:样本(xi,yi)(i1,2,n)的相关系数r.0.09.解(1)由样本数据得(xi,i)(i1,2,16)的相关系数r0.18.由于|r|0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(2)()由于9.97,s0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(3s,3s)以外,因此需对当天的生产过程进行检查()剔除离群值,即第13个数据,剩下数据的平均数为(169.979.22)10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.160.2122169.9721591.134,剔除第13个数据,剩下数据的样本方差为(1591.1349.2221510.022)0.008,这条生产线当天生产的零件尺寸的标准差的估计值为0.09.考向独立性检验例4xx全国卷海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:旧养殖法新养殖法(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量50 kg箱产量50 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01) K2.解(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”由题意知P(A)P(BC)P(B)P(C)旧养殖法的箱产量低于50 kg的频率为(0.0120.0140.0240.0340.040)50.62,故P(B)的估计值为0.62.新养殖法的箱产量不低于50 kg的频率为(0.0680.0460.0100.008)50.66,故P(C)的估计值为0.66.因此,事件A的概率估计值为0.620.660.4092.(2)根据箱产量的频率分布直方图得列联表箱产量6.635,故有99%的把握认为箱产量与养殖方法有关(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为(0.0040.0200.044)50.340.5,故新养殖法产量的中位数的估计值为5052.35(kg)触类旁通利用统计量K2进行独立性检验的步骤(1)根据数据列出22列联表;(2)根据公式计算K2找观测值k;(3)比较观测值k与临界值表中相应的检验水平,作出统计推断【变式训练2】某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少?(2)根据抽取的180名学生的调查结果,完成下面22列联表并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?选择自然科学类选择社会科学类合计男生女生合计附:K2,其中nabcd.P(K2k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828解(1)从高一年级学生中随机抽取1人,抽到男生的概率约为.(2)根据统计数据,可得22列联表如下:选择自然科学类选择社会科学类合计男生6045105女生304575合计9090180K25.14295.024.在犯错误的概率不超过0.025的前提下可以认为科类的选择与性别有关核心规律1.求回归方程,关键在于正确求出系数,由于,的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误(注意线性回归方程中一次项系数为,常数项为,这与一次函数的习惯表示不同)2.回归分析是处理变量相关关系的一种数学方法,主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程3.根据K2的值可以判断两个分类变量有关的可信程度,并用来指导科研和生活实际满分策略1.相关关系与函数关系的区别相关关系与函数关系不同,函数关系中的两个变量间是一种确定性关系例如正方形面积S与边长x之间的关系Sx2就是函数关系相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系例如商品的销售额与广告费是相关关系两个变量具有相关关系是回归分析的前提2.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.板块三启智培优破译高考数学思想系列10线性回归中的函数思想xx全国卷某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响对近8年的年宣传费xi和年销售量yi(i1,2,8)数据作了初步处理,得到下面的散点图及一些统计量的值 (xi)2 (wi)2 (xi)(yi) (wi)(yi)46.65636.8289.81.61469108.8表中wi,wi.(1)根据散点图判断,yabx与ycd哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z0.2yx.根据(2)的结果回答下列问题:年宣传费x49时,年销售量及年利润的预报值是多少?年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),(un,vn),其回归直线vu的斜率和截距的最小二乘估计分别为,.解题视点求解第(1)问时,利用散点图结合学过的函数图象直接判断即可求解第(2)问时,根据题目提供的数据及公式求出相关量,就可写出回归方程求解第(3)问中的第一小问时,把x49直接代入回归方程求解出y的预报值,再代入年利润z与x,y的关系式求解即可;求解第二小问时,把y与x的关系式代入年利润z与x,y的关系式,将z转化为关于的二次函数求最值即可解(1)由散点图可以判断,ycd适宜作为年销售量y关于年宣传费x的回归方程类型(2)令w,先建立y关于w的线性回归方程由于68,563686.8100.6,所以y关于w的线性回归方程为100.668w,因此y关于x的回归方程为100.668.(3)由(2)知,当x49时,年销售量y的预报值100.668576.6,年利润z的预报值576.60.24966.32.根据(2)的结果知,年利润z的预报值0.2(100.668)xx13.620.12.所以当6.8,即x46.24时,取得最大值故年宣传费为46.24千元时,年利润的预报值最大答题启示利用回归方程可以进行预测和估计总体,回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制、依据自变量的取值估计和预报因变量值的基础和依据.解决此类问题的步骤为:(1)将表中的各对数据在平面直角坐标系中描点,得到散点图;(2)按求回归方程的步骤和公式,写出回归方程;(3)利用回归方程进行分析,分析中注意函数思想的应用.跟踪训练某品牌xx款汽车即将上市,为了对这款汽车进行合理定价,某公司在某市五家4S店分别进行了两天试销售,得到如下数据:(1)分别以五家4S店的平均单价与平均销量为散点,求出单价与销量的回归直线方程x;(2)在大量投入市场后,销量与单价仍服从(1)中的关系,且该款汽车的成本为12万元/辆,为使该款汽车获得最大利润,则该款汽车的单价约为多少万元(保留一位小数)?附:,.解(1)五家4S店的平均单价和平均销量分别为(18.3,83),(18.5,80),(18.7,74),(18.4,80),(18.6,78),18.5,79,20.79(20)18.579370449,20x449.(2)设该款汽车的单价应为x万元,则利润f(x)(x12)(20x449)20x2689x5388,f(x)40x689,令40x6890,解得x17.2,故当x17.2时,f(x)取得最大值要使该款汽车获得最大利润,该款汽车的单价约为17.2万元板块四模拟演练提能增分 A级基础达标1xx湖北模拟已知变量x和y满足关系y0.1x1,变量y与z正相关下列结论中正确的是()Ax与y正相关,x与z负相关Bx与y正相关,x与z正相关Cx与y负相关,x与z负相关Dx与y负相关,x与z正相关答案C解析因为y0.1x1的斜率小于0,故x与y负相关因为y与z正相关,可设zy,0,则zy0.1x,故x与z负相关2xx桂林模拟根据如下样本数据:x345678y4.02.50.50.52.03.0得到的回归方程为bxa,则()Aa0,b0 Ba0,b0Ca0 Da0,b0答案B解析由表中数据画出散点图,如图,由散点图可知b0.3通过随机询问200名性别不同的大学生是否爱好踢键子运动,计算得到统计量K2的观测值k4.892,参照附表,得到的正确结论是()P(K2k)0.100.050.025k2.7063.8415.024A有97.5%以上的把握认为“爱好该项运动与性别有关”B有97.5%以上的把握认为“爱好该项运动与性别无关”C在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关”D在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关”答案C解析因为K2的观测值k4.8923.841,所以有95%以上的把握认为“爱好该项运动与性别有关”4xx洛阳模拟为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x轴、y轴的单位长度相同),用回归直线方程bxa近似地刻画其相关关系,根据图形,以下结论最有可能成立的是()A线性相关关系较强,b的值为1.25B线性相关关系较强,b的值为0.83C线性相关关系较强,b的值为0.87D线性相关关系较弱,无研究价值答案B解析由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比yx的斜率要小一些,综上可知应选B.5某产品的广告费用x(单位:万元)与销售额y(单位:万元)的统计数据如下表:广告费用x4235销售额y49263954根据上表可得回归方程x中的为9.4,据此模型预报广告费用为6万元时销售额为()A63.6万元 B65.5万元C67.7万元 D72.0万元答案B解析3.5,42.因为回归直线过点(,),所以429.43.5,解得9.1.故回归方程为9.4x9.1.所以当x6时,69.49.165.5.6为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如图所示22列联表:理科文科总计男131023女72027总计203050已知P(K23.841)0.05,P(K25.024)0.025.根据表中数据,得到K2的观测值k4.844,则有_的把握认为选修文科与性别有关答案95%解析由题意知,k4.844,因为5.0244.8443.841,所以有95%的把握认为选修文科与性别有关7xx沧州七校联考某单位为了制定节能减排的计划,随机统计了某4天的用电量y(单位:度)与当天气温x(单位:),并制作了对照表(如表所示)由表中数据,得线性回归方程2x,当某天的气温为5 时,预测当天的用电量约为_度x1813101y24343864答案70解析 气温的平均值(1813101)10,用电量的平均值(24343864)40,因为回归直线必经过点(,),将其代入线性回归方程得40210,解得60,故回归方程为2x60.当x5时,(2)(5)6070,所以当某天的气温为5 时,预测当天的用电量约为70度8已知x,y之间的一组数据如下表:x23456y34689对于表中数据,现给出如下拟合直线:yx1;y2x1;yx;yx.则根据最小二乘法的思想求得拟合程度最好的直线是_(填序号)答案解析由题意知4,6,x,填.9由某种设备的使用年限xi(年)与所支出的维修费yi(万元)的数据资料算得如下结果,90,iyi112,i20,i25.(1)求所支出的维修费y对使用年限x的线性回归方程x;(2)判断变量x与y之间是正相关还是负相关;当使用年限为8年时,试估计支出的维修费是多少解(1)i20,i25,i4,i5,1.2,51.240.2.线性回归方程为1.2x0.2.(2)由(1)知1.20,变量x与y之间是正相关由(1)知,当x8时,9.8,即使用年限为8年时,支出的维修费约是9.8万元10xx聊城模拟在某校举行的航天知识竞赛中,参与竞赛的文科生与理科生人数之比为13,且成绩分布在40,100,分数在80以上(含80)的同学获奖按文、理科用分层抽样的方法抽取200人的成绩作为样本,得到成绩的频率分布直方图如图所示(1)求a的值,并计算所抽取样本的平均值(同一组中的数据用该组区间的中点值作代表);(2)填写下面的22列联表,并判断能否有超过95%的把握认为“获奖与学生的文、理科有关”?文科生理科生合计获奖5不获奖合计200附表及公式:K2P(K2k0)0.150.100.050.0250.0100.0050.001k02.0722.7063.8415.0246.6357.87910.828解(1)a1(0.010.0150.030.0150.005)10100.025,450.1550.15650.25750.3850.15950.0569.(2)22列联表如下:文科生理科生合计获奖53540不获奖45115160合计50150200因为K24.1673.841,所以有超过95%的把握认为“获奖与学生的文、理科有关”B级知能提升1对具有线性相关关系的变量x,y有一组观测数据(xi,yi)(i1,2,8),其回归直线方程是x,且x1x2x3x82(y1y2y3y8)6.则实数的值是()A. B. C. D.答案B解析依题意可知样本点的中心为,则,解得.2有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:优秀非优秀总计甲班10b乙班c30总计105已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是()参考公式:K2附表:P(K2k)0.0500.0100.001k3.8416.63510.828A列联表中c的值为30,b的值为35B列联表中c的值为15,b的值为50C根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”D根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系”答案C解析由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c20,b45,选项A,B错误根据列联表中的数据,得到K26.1093.841,因此有95%的把握认为“成绩与班级有关系”,选项C正确3xx赣州模拟在一组样本数据(x1,y1),(x2,y2),(x6,y6)的散点图中,若所有样本点(xi,yi)(i1,2,6)都在曲线ybx2附近波动经计算xi11,yi13,x21,则实数b的值为_答案解析令tx2,则曲线的回归方程变为线性的回归方程,即ybt,此时,代入ybt,得b,解得b.4某校开展“翻转合作学习法”教学试验,经过一年的实践后,对“翻转班”和“对照班”的220名学生的数学学习情况进行测试,按照大于或等于120分为“成绩优秀”,120分以下为“成绩一般”统计,得到如下的22列联表:成绩优秀成绩一般合计对照班2090110翻转班4070110合计60160220(1)根据上面的列联表判断,能否在犯错误的概率不超过0.001的前提下认为“成绩优秀与翻转合作学习法”有关;(2)为了交流学习方法,从这次测试数学成绩优秀的学生中,用分层抽样的方法抽出6名学生,再从这6名学生中抽出3名交流学习方法,求至少抽到一名“对照班”学生的概率附:K2P(K2k0)0.100.050.0250.0100.0050.001k02.7063.8415.0246.6357.87910.828解(1)K29.1670.75,所以x与y之间具有很强的线性相关关系(3)因为1.23,51.2340.08,所以所求的回归直线方程为1.23x0.08.(4)当x10时,1.23100.0812.38,即估计使用年限为10年时,维修费用约为12.38万元
展开阅读全文