资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,1.1回归分析的基本思想及初步应用,全国名校高中数学优质学案汇编(附详解),1.1回归分析的基本思想及初步应用全国名校高中数学优质学案汇,1,问题,1,:,正方形的面积,y,与正方形的边长,x,之间,的,函数关系,是,y=x,2,确定性关系,问题,2,:,某水田水稻产量,y,与施肥量,x,之间是否,-,有一个确定性的关系?,例如:,在,7,块并排、形状大小相同的试验田上 进行施肥量对水稻产量影响的试验,得到如下所示的一组数据:,施化肥量,x,15 20 25 30 35 40 45,水稻产量,y,330 345 365 405 445 450 455,复习、变量之间的两种关系,问题1:正方形的面积y与正方形的边长x之间y=x2确定,2,自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做,相关关系,。,1,、定义:,1,)相关关系是一种不确定性关系;,注意:,对具有相关关系的两个变量进行统计分析的方法叫,回归分析,。,2,),自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的,3,2,、,现实生活中存在着大量的相关关系。,如:人的身高与年龄;,产品的成本与生产数量;,商品的销售额与广告费;,家庭的支出与收入。等等,探索,1,:水稻产量,y,与施肥量,x,之间大致有何规律?,2、现实生活中存在着大量的相关关系。探索1:水稻产量y与施肥,4,10 20 30 40 50,500,450,400,350,300,发现:图中各点,大致分布在某条直线附近。,探索,2,:在这些点附近可画直线不止一条,哪条直线最能代表,x,与,y,之间的关系呢?,x,y,施化肥量,水稻产量,施化肥量,x,15 20 25 30 35 40 45,水稻产量,y,330 345 365 405 445 450 455,散点图,10 20 30 40 50500,5,10 20 30 40 50,500,450,400,350,300,x,y,施化肥量,水稻产量,10 20 30,6,3,、对两个变量进行的线性分析叫做,线性回归分析,。,3,、回归直线方程:,2.,相应的直线叫做,回归直线,。,1,、所求直线方程 叫做,回归直,-,线方程,;其中,3、对两个变量进行的线性分析叫做线性回归分析。3、回归直线方,7,10 20 30 40 50,500,450,400,350,300,x,y,施化肥量,水稻产量,施化肥量,x,15 20 25 30 35 40 45,水稻产量,y,330 345 365 405 445 450 455,解,:1.,画出散点图,2.,求出,3.,写出回归方程,4.,计算相关系数,10 20 30 40,8,例题,1,从某大学中随机选出,8,名女大学生,其身高和体重数据如下表:,编号,1,2,3,4,5,6,7,8,身高,165,165,157,170,175,165,155,170,体重,48,57,50,54,64,61,43,59,求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为,172,的女大学生的体重。,例题1 从某大学中随机选出8名女大学生,其身高和体重数据如下,9,分析:由于问题中要求根据身高预报体重,因此选取身高为自变量,体重为因变量,由图形观察可以看出,样本点呈条状分布,身高和体重有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系,3.,通过探究栏目引入“线性回归模型”。此处可以引导学生们体会函数模型与回归模型之间的差别。,分析:由于问题中要求根据身高预报体重,因此选取身高为自变量,,10,(,2,)从散点图还可以看到,样本点散布在某一条直线的附近,而不是一条直线上,所以不能用一次函数来描述它们之间的关系。这时我们用下面的线性回归模型来描述身高和体重的关系:,+,其中和为模型的,未知参数,,,e,是,y,与 之间的误差,通常,称为,随机误差,。,(2)从散点图还可以看到,样本点散布在某一条直线的附近,而不,11,思考,产生随机误差项,e,的原因是什么?,随机误差,e,的来源,(,可以推广到一般):,1,、其它因素的影响:影响体重,y,的因素不只是身高,x,,还受其他许多因素的影响,例如饮食习惯、是否喜欢运动、度量误差等;,2,、用线性回归模型近似真实模型所引起的误差;,思考随机误差e的来源(可以推广到一般):,12,线性回归模型,+,+,其中和为模型的,未知参数,,,e,是,y,与 之间的误差,通常,称为,随机误差,。,探究:在线性回归模型中,,e,是用,bx+a,预报真实值,y,的随机误差,它是一个不可观测的量,那么应该怎样研究随机误差呢?,线性回归模型+其中和为模型的未知参数,探究,13,思考:如何发现数据中的错误?如何衡量模型的拟合效果?,思考:如何发现数据中的错误?如何衡量模型的拟合效果?,14,通过残差 来判断模型拟合的效果这种分析工作称为,残差分析,,,我们可以通过残差图来分析残差的特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形成为,残差图。,编号,1,2,3,4,5,6,7,8,身高,/cm,165,165,157,170,175,165,155,170,体重,/kg,48,57,50,54,64,61,43,59,残差,-6.373,2.627,2.419,-4.618,1.137,6.627,-2.883,0.382,下表就是出了女大学生身高和体重的原始数据以及相应的残差数据。,通过残差 来判断模型拟合的效果这种分析,15,若模型选择的正确,,残差图中的点应该分布在以横轴为心的带形区域;对于远离横轴的点,要特别注意,。如第,1,个样本点和第,6,个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误。如果数据采集有错误应纠正然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,应寻找其他原因,这样的带状区域的宽度越窄说明模型拟合精度越高,回归方程的预报精度越高。,错误数据,模型问题,身高与体重残差图,异常点,若模型选择的正确,残差图中的点应该分布在以横轴为心的带形区域,16,另外,我们可以用,相关指数,R,2,来刻画回归的效果,,其计算公式是,显然,,R,2,的值越大,说明残差平方和越小,就意味着残差平方和越小,也就是说模型拟合效果越好。反之则拟合效果越差。,在线性回归模型中,,R,2,表示解析变量对预报变量变化的贡献率,。,R,2,越接近,1,,表示回归的效果越好(因为,R,2,越接近,1,,表示解析变量和预报变量的线性相关性越强)。,残差平方和,总偏差平方和,另外,我们可以用相关指数R2来刻画回归的效果,,17,用身高预报体重时,需要注意下列问题:,1,、回归方程只适用于我们所研究的样本的总体;,2,、我们所建立的回归方程一般都有时间性;,3,、样本采集的范围会影响回归方程的适用范围;,4,、不能期望回归方程得到的预报值就是预报变量的精确值。,事实上,它是预报变量的可能取值的平均值。,这些问题也使用于其他问题。,用身高预报体重时,需要注意下列问题:1、回归方程只适用于我们,18,一般地,建立回归模型的基本步骤为:,(,1,)确定研究对象,明确哪个变量是解析变量,哪个变量是预报变量。,(,2,)画出确定好的解析变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)。,(,3,)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程,y=bx+a,),.,(,4,)按一定规则估计回归方程中的参数(如最小二乘法)。,(,5,)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或模型是否合适等。,一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪,19,例,2,:,一只红铃虫的产卵数,y,与温度,x,有关,现收集了,7,组观测数据,试建立,y,与,x,之间的回归方程,解,:1),作散点图,;,从散点图中可以看出产卵数和温度之间的关系并不能用线性回归模型来很好地近似。这些散点更像是集中在一条指数曲线或二次曲线的附近。,例2:一只红铃虫的产卵数y与温度x有关,现收集了7组观测数据,20,解,:,令,则,z=bx+a,(a=lnc,1,b=c,2,),列出变换后数据表并画 出,x,与,z,的散点图,x,和,z,之间的关系可以用线性回归模型来拟合,x,21,23,25,27,29,32,35,z,1.946,2.398,3.045,3.178,4.19,4.745,5.784,解:令x和z之间的关系,21,2),用,y=c,3,x,2,+c,4,模型,令,则,y=c,3,t+c,4,列出变换后数据表并画出,t,与,y,的散点图,散点并不集中在一条直线的附近,因此用线性回归模型拟合他们的效果不是最好的。,t,441,529,625,729,841,1024,1225,y,7,11,21,24,66,115,325,2)用 y=c3x2+c4 模型,令 ,则y=,22,残,差,表,编号,1,2,3,4,5,6,7,x,21,23,25,27,29,32,35,y,7,11,21,24,66,115,325,e(1),0.52,-0.167,1.76,-9.149,8.889,-14.153,32.928,e(2),47.7,19.397,-5.835,-41.003,-40.107,-58.268,77.965,非线性回归方程,二次回归方程,残差公式,残差表编号1234567x21232527293235y71,23,应用统计方法解决实际问题需要注意的问题:,对于同样的数据,有不同的统计方法进行分析,我们要用最有效的方法分析数据。,现在有三个不同的回归模型可供选择来拟合红铃虫的产卵数与温度数据,他们分别是:,可以利用直观(散点图和残差图)、相关指数来确定哪一个模型的拟合效果更好。,应用统计方法解决实际问题需要注意的问题:对于同样的数据,有不,24,小 结,实际问题,样本分析,回归模型,抽样,回归分析,预报精度,预报,小 结 实际问题 样本分析,25,
展开阅读全文