资源描述
2019年高中数学 第三章 统计案例 3.1 回归分析的基本思想及其初步应用课时训练 理 新人教A版选修2-31回归分析回归分析是对具有_的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的_,求_,并用回归方程进行预报2线性回归模型(1)在线性回归方程中,_.其中_,_,称为样本的中心.(2)线性回归模型,其中称为_,自变量称为_变量,因变量称为_变量温馨提示:是回归直线的斜率的估计值,表示每增加一个单位,的平均增加单位数3刻画回归效果的方式方式方法计算公式刻画效果_越_,表示回归的效果越好残差图称为相应于点的残差,_残差点_地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度_,说明模型拟合精确度越高.残差平方和残差平方和越_,模型的拟合效果越好参考答案1相关关系 散点图 回归方程2(1) (2)随机误差 解释 预报3 接近于1 比较均匀 越窄小重点1.了解随机误差、残差、残差分析的概念2.会用残差分析判断线性回归模型的拟合效果3.掌握建立回归模型的步骤难点通过对典型案例的探究,了解回归分析的基本思想方法和初步应用易错不能准确理解概念和参数的含义一、概念辨析有下列说法:线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;通过回归方程可以估计观测变量的取值和变化趋势;因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验其中正确命题的个数是A1B2C3 D4【答案】C【解析】反映的正是最小二乘法思想,故正确反映的是画散点图的作用,也正确解释的是回归方程的作用,故也正确是不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系【名师点睛】由题目可获取以下信息:线性回归分析;散点图;相关性检验等的相关概念及意义解答本题可先逐一核对相关概念及其性质,然后再逐一作出判断,最后得出结论二、线性回归模型一台机器由于使用时间较长,生产的零件有一些会缺损,按不同转速生产出来的零件有缺损的统计数据如下表:转速x(转/秒)1614128每小时生产缺损零件数y(件)11985(1)作出散点图;(2)如果与线性相关,求出回归直线方程;(3)若实际生产中,允许每小时生产的产品中有缺损的零件最多为10个,那么,机器的转速应控制在什么范围内?(结果保留整数)附:线性回归方程中,其中为样本平均值.【答案】详见解析【解析】(1)根据表中的数据画出散点图如下图:(2)由题中数据列表如下:i1234xi1614128yi11985xiyi1761269640, .(3)令,解得.故机器的运转速度应控制在转/秒内.【名师点睛】1求回归直线方程的一般步骤(1)作出散点图,依据问题所给的数据在平面直角坐标系中描点,观察点的分布是否呈条状分布,即是否在一条直线附近,从而判断两变量是否具有线性相关关系(2)当两变量具有线性相关关系时,求回归系数,写出回归直线方程2回归直线方程中的表示x每增加1个单位时,的变化量的估计值为可以利用回归直线方程预报在取某个值时的估计值由于回归直线方程中的系数和是通过样本估计而来的,存在着误差,这种误差可能导致预报结果有偏差 三、线性回归分析为研究重量(单位:克)对弹簧长度(单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:x51015202530y7.258.128.959.9010.911.8(1)作出散点图,并求回归方程:(2)求相关指数R2,并判断模型的拟合效果;(3)进行残差分析【答案】详见解析【解析】(1)散点图如下图所示:从散点图,可以看出这些点大致分布在一条直线的附近,因此,可用公式求得线性回归方程的系数.因为,计算,得所以所求回归方程为(2)列表如下:0.050.0050.040.0251.412.31所以,所以回归模型的拟合效果较好(3)由表中数据可以看出残差点比较均匀地落在比较狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力呈线性关系由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型【名师点睛】1.线性回归分析的过程:(1)随机抽取样本,确定数据,形成样本点;(2)由样本点形成散点图,判定是否具有线性相关关系;(3)由最小二乘法求线性回归方程;(4)进行残差分析,分析模型的拟合效果,不合适时,分析错因,予以纠正;(5)依据回归方程作出预报2用散点图可粗略判断两个变量间有无线性相关关系,用相关指数R2可以描述两个变量之间的密切程度四、非线性回归分析在一次抽样调查中测得样本的5个样本点,数值如表:x0.250.5124y1612521试建立y与x之间的回归方程【答案】详见解析【解析】作出变量y与x之间的散点图如图所示由图可知变量y与x近似地呈反比例函数关系设,令,则.由y与x的数据表可得y与t的数据表:t4210.50.25y1612521作出y与t的散点图如图所示由图可知y与t呈近似的线性相关关系又,.所以y与x的回归方程是.【名师点睛】求非线性回归方程的步骤:1确定变量,作出散点图2根据散点图,选择恰当的拟合函数3变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程4分析拟合效果:通过计算相关指数或画残差图来判断拟合效果5根据相应的变换,写出非线性回归方程五、不能准确理解概念和参数的含义 关于与有如下数据:x24568y3040605070为了对两个变量进行统计分析,现有以下两种线性模型:甲模型,乙模型,试比较哪一个模型拟合的效果更好【错解】,乙模型拟合的效果更好【错因分析】明确的大小与拟合效果的关系用相关指数来比较模型的拟合效果,越大,模型的拟合效果越好,并不是越小模型的拟合效果越好【正解】,甲模型拟合的效果更好1已知回归直线方程,若变量x每增加1个单位,则Ay平均增加2.5个单位By平均增加1个单位Cy平均减少2.5个单位Dy平均减少2个单位2在回归分析中,相关指数R2的值越大,说明残差平方和A越大B越小C可能大也可能小D以上均错3对两个变量y和x进行回归分析,得到一组样本数据:,则下列说法中不正确的是A由样本数据得到的回归方程 必过样本点的中心B残差平方和越小的模型,拟合的效果越好C用相关指数来刻画回归效果,的值越小,说明模型的拟合效果越好D若变量y和x之间的相关系数,则变量y与x之间具有线性相关关系4在对两个变量x,y进行回归分析时有以下操作:求回归方程;收集数据(xi,yi),i=1,2,n;对所求出的回归方程作出解释;根据所收集的数据绘制散点图则下列操作顺序正确的是A BC D5关于随机误差产生的原因分析正确的是(1)用线性回归模型来近似真实模型所引起的误差;(2)忽略某些因素的影响所产生的误差;(3)对样本数据观测时产生的误差;(4)计算错误所产生的误差A(1)(2)(4)B(1)(3)C(2)(4) D(1)(2)(3)6在如图所示的5组数据中,去掉_后,剩下的4组数据线性相关性更强.7已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程是_8某班5名学生的数学和物理成绩如下表:学生学科ABCDE数学成绩(x)8876736663物理成绩(y)7865716461(1)画出散点图;(2)求物理成绩y对数学成绩x的回归方程;(3)一名学生的数学成绩是96分,试预测他的物理成绩9某商场为了了解毛衣的月销售量(件)与月平均气温()之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:月平均气温()171382月销售量(件)24334055由表中数据算出线性回归方程中的,气象部门预测下个月的平均气温约为,据此估计该商场下个月毛衣销售量约为件A46 B40 C70 D5810已知方程是根据女大学生的身高预报她的体重的回归方程,其中x的单位是cm,的单位是kg,那么针对某个体(160,53)的残差是_11某学生课外活动兴趣小组对两个相关变量收集到5组数据如下表: x1020304050y62758189由最小二乘法求得回归方程为,现发现表中有一个数据模糊不清,请推断该点数据的值为_12某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100棵种子中的发芽数,得到如下资料:日期12月1日12月2日12月3日12月4日12月5日温差x()101113128发芽y(颗)2325302616该农科所确定的研究方案是:先从这5组数据中选取3组数据求线性回归方程,剩下的2组数据用于回归方程检验(1)若选取的是12月1日与12月5日的2组数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程;(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?(3)请预测温差为14 的发芽数13(xx新课标III)下图是我国xx年至xx生活垃圾无害化处理量(单位:亿吨)的折线图(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测xx我国生活垃圾无害化处理量.附注:参考数据:,2.646.参考公式:相关系数 回归方程 中斜率和截距的最小二乘估计公式分别为:1C【解析】因为由,得,若变量x每增加1个单位,则y平均减少2.5个单位,故选C.2B【解析】,当越大时,越小,即残差平方和越小,故选B.3C 【解析】R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好,故选C.4D 【解析】根据回归分析的思想,可知对两个变量x,y进行回归分析时,应先收集数据(xi,yi),然后绘制散点图,再求回归方程,最后对所求的回归方程作出解释,因此选D.5D【解析】理解线性回归模型中随机误差e的含义是解决此问题的关键,随机误差可能由于观测工具及技术产生,也可能因忽略某些因素产生,也可以是回归模型产生,但不是计算错误6D(3,10)【解析】根据散点图判断两变量的线性相关性,样本数据点越集中在某一直线附近,其线性相关性越强,显然去掉D(3,10)后,其余各点更能集中在某一直线的附近,即线性相关性更强7【解析】由斜率的估计值为1.23,且回归直线一定经过样本点的中心(4,5),可得,即.8【解析】(1)散点图如下图所示:(2)由图可看出,这些点在一条直线附近,可以用线性回归方程来刻画与之间的关系,因为.y对x的线性回归方程是.(3)当时,.所以预测他的物理成绩是82分9C 【解析】由表格得为(10,38),在回归直线上,解得=58,当时,故选C10【解析】把代入,得,所以残差.1168 【解析】由题意可得,设要求的数据为,则有,因为回归直线过样本点的中心,所以,解得.12【解析】(1)由数据求得,.由公式求得,.所以y关于x的线性回归方程为.(2)当时,;当时,.所以该研究所得到的线性回归方程是可靠的(3)当时,有,所以当温差为14 时的发芽数约为32颗.13【解析】(1)由折线图中数据和附注中参考数据得,. 因为与的相关系数近似为0.99,说明与的线性相关程度相当高,从而可以用线性回归模型拟合与的关系.(2)由及(1)得,.所以,关于的回归方程为:. 将xx对应的代入回归方程得:.所以预测xx我国生活垃圾无害化处理量将约1.82亿吨.
展开阅读全文