资源描述
2.3.2,两个变量的线性关系,两个变量的线性相关,1,、变量之间除了函数关系外,还有相关关系。,例,:(,1,)商品销售收入与广告支出经费之间的关系,(,2,)粮食产量与施肥量之间的关系,(,3,)人体内脂肪含量与年龄之间的关系,一、变量之间的相关关系,不同点:,函数关系是一种确定的关系;而,相关关系是一种非确定关系,.,相关关系与函数关系的异同点:,相同点:,均是指两个变量的关系,2,、两个变量之间产生相关关系的原因是受许多不确,定的随机因素的影响。,3,、需要通过样本来判断变量之间是否存在相关关系,一、变量之间的相关关系,在一次对人体脂肪含量和年龄关系的研究中,,研究人员获得了一组样本数据:,年龄,23,27,39,41,45,49,50,脂肪,9.5,17.8,21.2,25.9,27.5,26.3,28.2,年龄,53,54,56,57,58,60,61,脂肪,29.6,30.2,31.4,30.8,33.5,35.2,34.6,根据上述数据,人体的脂肪含量与年龄之间,有怎样的关系?,散点图,:,两个变量的,散点图,中点的分布的位置是从左,下角到右上角的区域,即一个变量值由小变大,,另一个变量值也由小变大,我们称这种相关关系,为,正相关。,思考:1、两个变量成负相关关系时,散点图有什么特点?,答:两个变量的散点图中点的分布的位置是从左上角到右下角的区域,即一个变量值由小变大,而另一,个变量值由,大变小,我,们称这种相,关关系为,负,相关。,2、你能举出一些生活中的变量成正相关或者负相关的例子吗,?,如学习时间与成绩,负相关如日用眼时间和视力,汽车的重量和汽车每消耗一升汽油所行驶的平均路程等。,注:若两个变量散点图呈上图,则不具有相关关系,如:身高与数学成绩没有相关关系。,散点图,回归直线:如果散点图中点的分布,从,整体,上看,大,致在一条直线附近,我们就称这两个变量之间具,有,线性相关关系,,这条直线就叫做,回归直线,。,这条回归直线的方程,简称为回归方程。,1.,如果所有的样本点都落在某一函数曲线上,变量之间具有函数关系,2.,如果所有的样本点都落在某一函数曲线附近,变量之间就有相关关系,3.,如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系,只有散点图中的点呈条状集中在某一直线周围的时候,才可以说两个变量之间具有线性关系,才有两个变量的正线性相关和负线性相关的概念,才可以用回归直线来描述两个变量之间的关系,方案一:,采用测量的方法:先画一条直线,测量出各点到它的距离,然后移动直线,到达一个使距离之和最小的位置,测量出此时直线的斜率和截距,就得到回归方程。,三、我们应该如何具体的求出这个回归方程呢?,方案二,:,在图中选取两点画直线,使得直线两侧的点的个数基本相同。,方案三,:,在散点图中多取几组点,确定几条直线的方程,分别求出各条直线的斜率和截距的平均数,将这两个平均数作为回归方程的斜率和截距。,上述三种方案均有一定的道理,但可靠性不强,我们回到回归直线的,定义,。,求回归方程的关键是如何用数学的方法来刻画“从整体上看,各点与直线的偏差最小”。计算回归方程的斜率和截距的一般公式:,其中,,b,是回归方程的斜率,,a,是截距。,5、最小二乘法的公式的探索过程如下:,设已经得到具有线性相关关系的变量的一组数据:,(,x,1,,y,1,),(x,2,,y,2,),(,x,n,,y,n,),设所求的回归直线方程为,Y=,bx+a,,,其中,a,b,是待定的系数。当变量,x,取,x,1,,x,2,,,x,n,时,可以得到,Y,i,=,b,x,i,+a(i,=1,2,n),它与实际收集得到的,yi,之间偏差是,y,i,-Y,i,=,y,i,-(bx,i,+a)(i,=1,2,n),(,x1,y1),(,x2,y2),(,xi,,yi,),yi,-Yi,y,x,这样,用这,n,个偏差的和来刻画“各点与此直线的整体偏差”是比较合适的。,(y,i,-Y,i,),的最小值,n,i=1,|,y,i,-Y,i,|,的最小值,n,i=1,(y,i,-Y,i,)2,的最小值,n,i=1,Q=(y1-bx,1,-a)2+(y,2,-bx,2,-a)2+(yn-bx,n,-a)2,当,a,b,取什么值时,,Q,的值最小,即总体偏差最小,(xi-x)(yi-y,),n,i=1,b=,(xi-x,),n,i=1,a=,y-bx,我们可以用计算机来求,回归方程,。,人体脂肪含量与年龄之间的规律,由此回归直线来反映。,将年龄作为,x,代入上述回归方程,看看得出数值与真实值之间有何关系?,年龄,23,27,39,41,45,49,50,脂肪,9.5,17.8,21.2,25.9,27.5,26.3,28.2,回归值,12.8,15.1,22.0,23.2,25.5,27.8,28.4,年龄,53,54,56,57,58,60,61,脂肪,29.6,30.2,31.4,30.8,33.5,35.2,34.6,回归值,30.1,30.7,31.8,32.4,33.0,34.1,34.7,若某人65岁,可预测他体内脂肪含量在37.1(0.57765-0.448=37.1)附近的可能性比较大。,但不能说他体内脂肪含量一定是37.1,原因,:线性回归方程中的截距和斜率都是通过样本估计的,存在随机误差,这种误差可以导致预测结果的偏差,即使截距斜率没有误差,也不可能百分百地保证对应于,x,,预报值,Y,能等于实际值,y,例,2,、假设关于某设备的使用年限,x(,年)和所支出的维修费用,y(,万元),有如下的统计资料:,使用年限,x(,年)2 3 4 5 6,维修费用,y(,万元)2.2 3.8 5.5 6.5 7.0,若资料知,y,x,呈,线性相关关系,,试求:,(1)线性回归方程,Y=,bx+a,的,回归系数,a、b;,(2),估计使用年限为10年时,维修费用是多少?,i,解:,(1)于是有,b=(112.3-5*4*5)/(90-5*42)=1.23,a=5-1.23*4=0.08,(2),回归方程,为,Y=1.23x+0.08,,当,x=10,时,,Y=12.38 (,万元),即估计使用10年时维护费用是12.38万元。,例,1,:有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出的热饮杯数与当天气温的对比表:,1,、画出散点图;,2,、从散点图中发现气温与热饮销售杯数之间关系的一般规律;,3,、求回归方程;,4,、如果某天的气温是,2,摄氏度,预测这天卖出的热饮杯数。,1,、散点图,2,、从图,3-1,看到,各点散布在从左上角到由下角的区域里,因此,气温与热饮销售杯数之间成负相关,即气温越高,卖出去的热饮杯数越少。,3,、从散点图可以看出,这些点大致分布在一条直线的附近,因此利用公式,1,求出回归方程的系数。,Y=-2.352x+147.767,4,、当,x=2,时,,Y=143.063,因此,某天的气温为,2,摄氏度时,这天大约可以卖出,143,杯热饮。,
展开阅读全文