高中数学-3.1-回归分析的基本思想及其初步应用ppt课件-新人教A版选修2-3

上传人:o**** 文档编号:244376002 上传时间:2024-10-04 格式:PPT 页数:79 大小:1.32MB
返回 下载 相关 举报
高中数学-3.1-回归分析的基本思想及其初步应用ppt课件-新人教A版选修2-3_第1页
第1页 / 共79页
高中数学-3.1-回归分析的基本思想及其初步应用ppt课件-新人教A版选修2-3_第2页
第2页 / 共79页
高中数学-3.1-回归分析的基本思想及其初步应用ppt课件-新人教A版选修2-3_第3页
第3页 / 共79页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,ppt精选,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,*,第三章统计案例,3.1回归分析的基本思想及其初步应用,1,ppt精选,问题,引航,1.什么是线性回归模型?,2.怎样进行线性回归分析?,3.有些非线性模型通过怎样变换可以转化为线性回归模型?,2,ppt精选,1.线性回归模型,(1)回归方程的相关计算,对于两个具有线性相关关系的变量的一组数据(x,1,y,1,),(x,2,y,2,),(x,n,y,n,).设其回归直线方程为 ,其中 , 是待定,参数,由最小二乘法得 =_=_,3,ppt精选,其中 分别是a,b的估计值.,4,ppt精选,(2)线性回归模型,线性回归模型 其中a,b为未知参数,通常e,为_,称为_.,x称为_变量,y称为_变量.,随机变量,随机误差,解释,预报,5,ppt精选,2.线性回归分析,(1)残差,对于样本点(x,i,y,i,)(i=1,2,n)的随机误差的估计值 =,_称为相应于点(x,i,y,i,)的残差, _称为残差平,方和.,(2)残差图,利用图形来分析残差特性,作图时纵坐标为_,横坐标可,以选为样本编号,或身高数据,或体重的估计值等,这样作,出的图形称为残差图.,残差,6,ppt精选,(3)R,2,= ,R,2,越接近于1,表示回归效果越好.,_,7,ppt精选,1.判一判(正确的打“”,错误的打“”),(1)残差平方和越小,线性回归方程的拟合效果越好.(),(2)在画两个变量的散点图时,预报变量在x轴上,解释变量在y轴上.(),(3)R,2,越接近于1,线性回归方程的拟合效果越好.(),8,ppt精选,【解析】,(1)正确.残差平方和越小,说明样本数据与线性回归方程的偏离程度越小,即该方程的拟合效果越好.,(2)错误.由于预报变量的值可类比为函数的函数值,解释变量的值可类比为函数的自变量的值,故预报变量在y轴上,解释变量在x轴上.,(3)正确.由R,2,的计算公式可知这句话正确.,答案:,(1)(2)(3),9,ppt精选,2.做一做(请把正确的答案写在横线上),(1)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为,.,(2)在残差分析中,残差图的纵坐标为,.,(3)如果发现散点图中所有的样本点都在一条直线上,则残差平方和等于,解释变量和预报变量之间的相关系数等于,.,10,ppt精选,【解析】,(1)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关.,答案:,正相关,(2)由残差图的定义知道,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.,答案:,残差,11,ppt精选,(3)设样本点为(x,i,y,i,),i=1,2,3,n,回归直线为 ;,若散点图中所有的样本点都在一条直线上,则此直线方程就是,回归直线方程所以有y,i,= ;残差平方和 ;解,释变量和预报变量之间的相关系数R满足,所以R=1.,答案:,0 1或-1,12,ppt精选,【要点探究】,知识点,线性回归分析,1.对线性回归模型的三点说明,(1)非确定性关系:线性回归模型y=bx+a+e与确定性函数y=a+bx相比,它表示y与x之间是统计相关关系(非确定性关系),其中的随机误差e提供了选择模型的准则以及在模型合理的情况下探求最佳估计值a,b的工具.,13,ppt精选,(2)线性回归方程 中 , 的意义是:以 为基数,x,每增加1个单位,y相应地平均增加 个单位.,(3)线性回归模型中随机误差的主要来源,线性回归模型与真实情况引起的误差;,省略了一些因素的影响产生的误差;,观测与计算产生的误差.,14,ppt精选,2.线性回归模型的模拟效果,(1)残差图法:观察残差图,如果残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.,15,ppt精选,(2)残差的平方和法:一般情况下,比较两个模型的残差比较困难(某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反),故通过比较两个模型的残差的平方和的大小来判断模型的拟合效果.残差平方和越小的模型,拟合的效果越好.,(3)R,2,法:R,2,的值越大,说明残差平方和越小,也就是说模型拟合的效果越好.,16,ppt精选,3.相关系数与R,2,(1)R,2,是相关系数的平方,其变化范围为0,1,而相关系数的变化范围为-1,1.,(2)相关系数可较好地反映变量的相关性及正相关或负相关,而R,2,反映了回归模型拟合数据的效果.,(3)当|r|接近于1时说明两变量的相关性较强,当|r|接近于0时说明两变量的相关性较弱,而当R,2,接近于1时,说明线性回归方程的拟合效果较好.,17,ppt精选,【微思考】,(1)残差与我们平时说的误差是一回事儿吗?,提示:,这两个概念在某程度上具有很大的相似性,都是衡量不确定性的指标,二者的区别是:误差与测量有关,误差可以衡量测量的准确性,误差越大表示测量越不准确;残差与预测有关,残差大小可以衡量预测的准确性,残差越大表示预测越不准确.,18,ppt精选,(2)R,2,与原来学过的相关系数r有区别吗?,提示:,它们都是刻画两个变量之间的的相关关系的,区别是R,2,表示解释变量对预报变量变化的贡献率,其表达式为R,2,=1-,;相关系数r是检验两个变量相关性的强弱程度,其表达式为,19,ppt精选,【即时练】,1.已知变量x,y具有线性相关关系,且(x,y)的一组数据为(1,3),(2,3.8),(3,5.2),(4,6),则回归方程是( ),A. =x+1.9 B. =1.04x+1.9,C. =0.95x+1.04 D. =1.05x-0.9,20,ppt精选,【解析】,选B.回归直线方程一定过样本的中心点,所以样本中心点是(2.5,4.5),因为对于A选项y=2.5+1.9=4.44.5,对于B选项4.5=1.042.5+1.9,对于C选项y=0.952.5+1.044.5,对于D选项y=1.052.5-0.94.5,所以只有B选项符合题意,故选B.,21,ppt精选,2.在建立两个变量y与x的回归模型中,分别选择4个不同模,型,求出它们相对应的R,2,如表,则其中拟合效果最好的模型,是( ),A.模型1 B.模型2 C.模型3 D.模型4,模型,1,2,3,4,R,2,0.67,0.85,0.49,0.23,22,ppt精选,【解析】,选B.线性回归分析中,相关系数为r,|r|越接近于1,相,关程度越大;|r|越小,相关程度越小,又因为模型1的R,2,=0.67;模型2的R,2,=0.85;模型3的R,2,=0.49;模型,4的R,2,=0.23.,故模型2的相关系数最大,则其拟合效果最好.故选B.,23,ppt精选,【题型示范】,类型一,求线性回归方程,【典例1】,(1)(2014重庆高考)已知变量x与y正相关,且由观测数据算得,样本平均数 ,则由该观测数据测算的线性回归方程,可能是( ),A. =0.4x+2.3 B. =2x-2.4,C. =-2x+9.5 D. =-0.3x+4.4,24,ppt精选,(2)某研究机构对高三学生的记忆力x和判断力y进行统计分,析,得下表数据,请画出上表数据的散点图;(要求:点要描粗),请根据上表提供的数据,用最小二乘法求出y关于x的线性回,归方程,x,6,8,10,12,y,2,3,5,6,25,ppt精选,试根据求出的线性回归方程,预测记忆力为9的同学的判断,力相关公式: ,26,ppt精选,【解题探究】,1.题(1)中正相关的含义是什么?,2.计算线性回归方程 中 , 值的依据是什么?,【探究提示】,1.线性回归方程中0,即斜率为正.,2.利用由最小二乘法得到的公式,即,其中, 分别是a,b的估计值.,27,ppt精选,【自主解答】,(1)选A.由正相关可知斜率为正,故可排除C,D两,项,又因为 =0.4x+2.3经过点(3,3.5),故A项正确.,28,ppt精选,(2)如图:,29,ppt精选, =62+83+105+126=158 ,,故线性回归方程为 =0.7x-2.3.,由中线性回归方程当x=9时, =0.79-2.3=4,预测记忆,力为9的同学的判断力约为4.,30,ppt精选,【方法技巧】,求线性回归方程的三个步骤,(1)画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系.,(2)求回归系数:若存在线性相关关系,则求回归系数.,(3)写方程:写出线性回归方程,并利用线性回归方程进行预测说明.,31,ppt精选,【变式训练】,研究性学习小组为了解某生活小区居民用水量y(吨)与气温x()之间的关系,随机统计并制作了5天该小区居民用水量与当天气温的对应表:,日期,9月5日,10月3日,10月8日,11月16日,12月21日,气温,x(),18,15,11,9,-3,用水,量y(吨),57,46,36,37,24,32,ppt精选,(1)若从这随机统计的5天中任取2天,求这2天中有且只有1天用,水量低于40吨的概率(列出所有的基本事件).,(2)由表中数据求得线性回归方程 中的 1.4,试求,出 的值,并预测当地气温为5时小区的用水量.,33,ppt精选,【解析】,(1)设在抽样的5天中用水量低于40吨的三天为a,i,(i,=1,2,3),用水量不低于40吨的两天为b,i,(i=1,2),那么5天任,取2天的基本事件是:(a,1,a,2,),(a,1,a,3,),(a,1,b,1,),(a,1,b,2,),(a,2,a,3,),(a,2,b,1,),(a,2,b,2,),(a,3,b,1,),(a,3,b,2,)(b,1,b,2,),共计10个.设,“从5天中任取2天,有且只有1天用水量低于40吨”为事件A,包括的基本事件为(a,1,b,1,),(a,1,b,2,),(a,2,b,1,),(a,2,b,2,),(a,3,b,1,),(a,3,b,2,)共6个,则P(A)= .所以从5天中任取2天,有且只有1天,用水量低于40吨的概率为 .,34,ppt精选,(2)依题意可知,因为线性回归直线过点( ),且 1.4,所以把点(10,40)代入回归方程,得 =26,所以 =1.4x+26.又x=5时,y=1.45+26=33.,所以可预测当地气温为5时,小区用水量约为33吨.,35,ppt精选,【补偿训练】,某种产品的广告费用支出x与销售额y之间有如下的对应数据:,(1)画出散点图;并说明销售额y与广告费用支出x之间是正相关还是负相关?,x,2,4,5,6,8,y,30,40,60,50,70,36,ppt精选,(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性,回归方程 .(其中: =,(3)据此估计广告费用为10时,销售收入y的值.,37,ppt精选,【解析】,(1)作出散点图如图所示:,销售额y与广告费用支出x之间是正相关.,38,ppt精选,(2) (2+4+5+6+8)=5,(30+40+60+50+70)=50,因此线性回归方程为 =6.5x+17.5.,(3)x=10时,估计y的值为 =106.5+17.5=82.5.,39,ppt精选,类型二,线性回归分析,【典例2】,(1)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性作,试验,并用回归分析方法分别求得相关系数r与残差平方和m如,下表;则哪位同学的试验结果体现A,B两变量更强的线性相关性,(),A.丁B.丙C.乙D.甲,甲,乙,丙,丁,r,0.82,0.78,0.69,0.85,m,115,106,124,103,40,ppt精选,(2)某运动员训练次数与成绩之间的数据关系如下:,作出散点图.,求出回归方程.,作出残差图,并说明选用的模型的拟合效果.,计算R,2,并说明选用的模型的拟合效果.,次数x,30,33,35,37,39,44,46,50,成绩y,30,34,37,39,42,46,48,51,41,ppt精选,【解题探究】,1.题(1)中R,2,与r的关系是什么?,2.计算R,2,的公式是什么?,【探究提示】,1.在含有一个解释变量的线性模型中,R,2,恰好等于相关系数r的平方,即R,2,=r,2,.,42,ppt精选,【自主解答】,(1)选A.由回归分析方法求得残差平方和及相关系数,相关系数r的绝对值越趋近于1,则说明线性回归方程越吻合.而残差平方和m越小,线性相关性更强.因此选A.,(2)作出该运动员训练次数(x)与成绩(y)之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.,43,ppt精选,所以,所以回归方程为 =1.041 5x-0.003 88.,44,ppt精选,作残差图如图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.,计算得R,2,0.9855,说明了该运动员的成绩的差异有98.55%是由训练次数引起的.,45,ppt精选,【延伸探究】,在题(2)题设条件不变的情况下,试预测该运动员,训练47次及55次的成绩.,【解析】,由上述分析可知,我们可用回归方程 =1.0415x-,0.00388作为该运动员成绩的预报值.,将x=47和x=55分别代入该方程可得y49和y57.,故预测该运动员训练47次和55次的成绩分别为49和57.,46,ppt精选,【方法技巧】,刻画回归效果的两种方式,(1)残差图法:残差点比较均匀地落在水平的带状区域内说明选,用的模型比较合适.,(2)R,2,法:R,2,=1- 越接近1,表明回归的效果越好.,47,ppt精选,【变式训练】,下表是A市住宅楼房屋销售价格y和房屋面积x的,有关数据:,(1)画出数据对应的散点图.,(2)设线性回归方程为 ,已计算得 =0.196, =23.2,计算 及 .,(3)据(2)的结果,估计面积为120m,2,的房屋销售价格.,房屋面积x(m,2,),115,110,80,135,105,销售价格y(万元),24.8,21.6,18.4,29.2,22,48,ppt精选,【解题指南】,(1)根据表中所给的五对数据,在平面直角坐标系,中描出这五个点,得到这组数据的散点图.,(2)根据表中所给的数据,求出 ,把求得的数据代入求线性回,归方程的系数的公式,利用最小二乘法得到结果,写出线性回归,方程.,(3)根据(2)求得的线性回归方程,代入所给的x的值,预报出销,售价格的估计值,这个数字不是一个准确数值.,49,ppt精选,【解析】,(1)根据表中所给的数据画出对应的散点图,如图.,50,ppt精选,(2) 因为 =23.2,,所以样本中心点是(109,23.2),,把样本中心点代入线性回归方程得到,,=23.2-0.196109=1.836,(3)由(2)知,回归直线方程为 =0.196x+1.836,所以当x=120 m,2,时,销售价格的估计值为,=0.196120+1.836=25.356(万元),,所以面积为120 m,2,的房屋销售价格估计为25.356万元,51,ppt精选,【补偿训练】,(2014徐州高二检测)在关于人体脂肪含量y(百分比)和年龄x关系的研究中,得到如下一组数据,(1)画出散点图,判断x与y是否具有相关关系.,年龄x,23,27,39,41,45,50,脂肪含量y,9.5,17.8,21.2,25.9,27.5,28.2,52,ppt精选,(2)通过计算可知 =0.65, =-2.74,请写出y对x的回归直线方程,并计算出23岁和50岁的残差.,53,ppt精选,【解题指南】,(1)本题涉及两个变量:年龄与脂肪含量.可以选取年龄为自变量x,脂肪含量为因变量y.在坐标系中描点作出散点图,从图中可看出x与y具有相关关系.,(2)根据所给的线性回归方程的系数,写出线性回归方程,代入自变量的值求出y的预报值,与数据组所给的y的值作差,得到23岁和50岁的残差.,54,ppt精选,【解析】,(1)涉及两个变量:年龄与脂肪含量.所以选取年龄为自变量x,脂肪含量为因变量y.作散点图,从图中可看出x与y具有相关关系.,55,ppt精选,(2)y对x的回归直线方程为 =0.65x-2.74.,当x=23时, =12.21,y- =9.5-12.21=-2.71.,当x=50时, =29.76,y- =28.2-29.76=-1.56.,所以23岁和50岁的残差分别为-2.71和-1.56.,56,ppt精选,类型三,非线性回归问题,【典例3】,(1)在研究两个变量的相关关系时,观察散点图发现样本点集中,于某一条指数曲线y=e,bx+a,的周围,令 =lny,求得回归直线方程,为 =0.25x-2.58,则该模型的回归方程为,.,(2)在一次抽样调查中测得样本的5个样本点,数值如下表:,试建立y与x之间的回归方程.,x,0.25,0.5,1,2,4,y,16,12,5,2,1,57,ppt精选,【解题探究】,1.求解本题中的回归方程需借助什么关系?,2.是否所有的变量间均为线性相关关系?如何判断?,【探究提示】,1.需借助指数、对数互化关系求解本题中的回归方程.,2.并非所有的变量间均为线性相关关系,可借助散点图直观感知,再借助回归分析判断回归模型的拟合效果.,58,ppt精选,【自主解答】,(1)因为 =0.25x-2.58, =lny.,所以y=e,0.25x-2.58,.,答案:,y=e,0.25x-2.58,(2)由数值表可作散点图如图.,59,ppt精选,根据散点图可知y与x具有反比例函数关系,设y= ,令t= ,则,y=kt,原数据变为:,t,4,2,1,0.5,0.25,y,16,12,5,2,1,60,ppt精选,由置换后的数值表作散点图如下:,61,ppt精选,由散点图可以看出y与t呈近似的线性相关关系.列表如下:,i,t,i,y,i,t,i,y,i,1,4,16,64,16,2,2,12,24,4,3,1,5,5,1,4,0.5,2,1,0.25,5,0.25,1,0.25,0.062 5,7.75,36,94.25,21.312 5,62,ppt精选,所以 =1.55, =7.2.,所以,.所以 =4.134 4t0.791 7.,所以y与x的回归方程是,63,ppt精选,【方法技巧】,非线性回归问题的处理方法,(1)两个变量不呈线性关系,不能直接利用线性回归方程建立两,个变量的关系,可以通过变换的方法转化为线性回归模型,如,y= ,我们可以通过对数变换把指数关系变为线性关系.令,z=lny,则变换后样本点应该分布在直线z=bx+a(a=lnc,1,b=c,2,),的周围.,64,ppt精选,(2)非线性回归方程的求法,根据原始数据(x,y)作出散点图;,根据散点图,选择恰当的拟合函数;,作恰当的变换,将其转化成线性函数,求线性回归方程;,在的基础上通过相应的变换,即可得非线性回归方程.,65,ppt精选,(3)非线性相关问题中常见的几种线性变换,在实际问题中,常常要根据一批实验数据绘出曲线,当曲线类型不具备线性相关关系时,可以根据散点分布的形状与已知函数的图象进行比较,确定曲线的类型,再作变量替换,将曲线改为直线.下面是几种容易通过变量替换转化为直线的函数模型:,66,ppt精选,y=a+ ,令y=y,x= ,则有y=a+bx;,y=ax,b,,令y=ln y,x=ln x,a=ln a,则有,y=a+bx;,y=ae,bx,,令y=ln y,x=x,a=ln a,则有y=a+bx;,y= ,令y=ln y,x= ,a=ln a,则有y=a+bx;,y=a+bln x,令y=y,x=ln x,则有y=a+bx;,y=bx,2,+a,令y=y,x=x,2,,则有y=bx+a.,67,ppt精选,【变式训练】,某种图书每册的成本费y(元)与印刷册数x(千册),有关,经统计得到数据如下:,已知每册书的成本费y与印刷册数的倒数 之间有线性相关关,系,求出y关于x的回归方程.,x,1,2,3,5,10,20,30,50,100,200,y,10.15,5.52,4.08,2.85,2.11,1.62,1.41,1.30,1.21,1.15,68,ppt精选,【解析】,首先作变量变换,令u= ,则题目所给数据变成如下,表所示的数据:,由题意可知,每册书的成本费y与印刷册数的倒数 之间有线,性相关关系,故由最小二乘法得:,8.973, 1.125,,所以y=8.973u+1.125.,回代u= 可得,因此y关于x的回归方程为,u,1,0.5,0.33,0.2,0.1,0.05,0.03,0.02,0.01,0.005,y,10.15,5.52,4.08,2.85,2.11,1.62,1.41,1.30,1.21,1.15,69,ppt精选,【补偿训练】,今有一组数据,如下表:,现准备从以下函数中选择一个近似地表示这组数据满足的规律,其中拟合最好的是(),x,1.993,3.002,4.001,5.032,6.121,y,1.501,4.413,7.498,12.04,17.93,70,ppt精选,【解析】,选D.把x看作自变量,y看作其函数值,从表中数据的变化趋势看,函数递增的速度不断加快,对照四个选项,A选项是以一个恒定的幅度变化,其图象是直线型的,不符合本题的变化规律;,B选项对数型函数,随着x的增大y的递增速度不断变慢,不符合本题的变化规律;,71,ppt精选,C选项指数型函数,随着x的增大y的递增速度不断变快,但增长速度超出题目中y的增长速度,不符合本题的变化规律;,D选项是二次函数型,对比数据知,其最接近数据的变化趋势.故选D.,72,ppt精选,【易错误区】,对回归直线的性质认识不清,【典例】,为研究变量x和y的线性相关性,甲、乙二人分别作了,研究,利用线性回归方法得到回归直线,l,1,和,l,2,两人计算知 相,同, 也相同,下列正确的是(),A.,l,1,与,l,2,一定重合,B.,l,1,与,l,2,一定平行,C.,l,1,与,l,2,相交于点( , ),D.无法判断,l,1,和,l,2,是否相交,73,ppt精选,【解析】,选C因为两个人在试验中发现对变量x的观测数据的,平均值都是 ,对变量y的观测数据的平均值都是 ,所以两,组数据的样本中心点是( , ),因为回归直线经过样本的中,心点,所以,l,1,和,l,2,都过( , ),74,ppt精选,【常见误区】,错解,错因剖析,选D,误认为回归直线不一定过样本中心点,导致无法判断二者的关系,75,ppt精选,【防范措施】,掌握好基本知识点,对于数学中的很多知识点只有掌握好,才能应用,不会产生失误,如本例中要真正理解回归直线经过样本的中心点,避免错误的发生.,76,ppt精选,【类题试解】,(2014湖北高考)根据如下样本数据,得到的回归方程为 ,则( ),A. 0, 0 B. 0, 0,C. 0, 0,D. 0, 0,x,3,4,5,6,7,8,y,4.0,2.5,-0.5,0.5,-2.0,-3.0,77,ppt精选,【解析】,选B.画出散点图如图所示,,y的值大致随x的增加而减小,,所以 0.,78,ppt精选,感谢亲观看此幻灯片,此课件部分内容来源于网络,,如有侵权请及时联系我们删除,谢谢配合!,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!