补充:线性回归与方差分析分析课件

上传人:晚**** 文档编号:243140292 上传时间:2024-09-16 格式:PPT 页数:71 大小:1.17MB
返回 下载 相关 举报
补充:线性回归与方差分析分析课件_第1页
第1页 / 共71页
补充:线性回归与方差分析分析课件_第2页
第2页 / 共71页
补充:线性回归与方差分析分析课件_第3页
第3页 / 共71页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第,5,章 线性回归分析与方差分析,5.1,一元线性回归分析,5.2,可线性化的非线性回归,5.3,多元线性回归简介,5.4,方差分析,5.1,一元线性回归分析,在许多实际问题中,我们常常需要研究多个变量之间的相互关系。,一般来说,变量之间的关系可分为两类:,一类是确定性关系,确定性关系是指变量之间的关系可以用函数关系来表达,例如,电流,I,电压,V,电阻,R,之间有关系式,V=IR,。,另一类是非确定性关系,有些变量之间的关系是非确定性的关系,这种关系无法用一个精确的函数式来表示。,例如,农作物的单位面积产量与施肥量之间有密切的关系,但是不能由施肥量精确知道单位面积产量,这是因为单位面积产量还受到许多其他因素及一些无法控制的随机因素的影响。,又如,人的身高与体重之间存在一种关系,一般来说,人身高越高,体重越大,,但同样高度的人,体重却往往不同。这种变量之间的不确定性关系称之为相关关系。,对于具有相关关系的变量,虽然不能找到他们之间的确定表达式,但是通过大量的观测数据,可以发现他们之间存在一定的统计规律,,数理统计中研究变量之间相关关系的一种有效方法就是回归分析。,一、 一元线性回归模型,其中,y,i,是,x,=,x,i,时随机变量,Y,的观测结果,.,将,n,对观测结果(,x,i,,,y,i,)(,i,=1,n,)在直角坐标系中进行描点,这种描点图称为,散点图,.,散点图可以帮助我们精略地看出,Y,与,x,之间的某种关系,.,假定我们要考虑自变量,x,与因变量,Y,之间的相关关系,假设,x,为可以控制或可以精确观察的变量,即,x,为普通的变量。由于自变量,x,给定后,因变量,Y,并不能确定,从而,Y,是一个与,x,有关的随机变量,我们对于可控制变量,x,取定一组不完全相同的值,x,1,,,,,x,n,,作,n,次独立试验,得到,n,对观测结果:,(,x,1,y,1,) ,(,x,2,y,2,),,,(,x,n,y,n,),例,1,对某广告公司为了研究某一类产品的广告费,x,用与其销售额,Y,之间的关系,对多个厂家进行调查,获得如下数据,厂 家,1,2,3,4,5,6,7,8,9,广告费,6,10,21,40,62,62,90,100,120,销售额,31,58,124,220,299,190,320,406,380,广告费与销售额之间不可能存在一个明确的函数关系,事实上,即使不同的厂家投入了相同的广告费,其销售额也不会是完全相同的。影响销售额的因素是多种多样的,除了广告投入的影响,还与厂家产品的特色、定价、销售渠道、售后服务以及其他一些偶然因素有关。,画出散点图如图,5-1,所示,.,从图中可以看出,随着广告投入费,x,的增加,销售额,Y,基本上也呈上升趋势,图中的点大致分布在一条向右上方延伸的直线附近,.,但各点不完全在一条直线上,这是由于,Y,还受到其他一些随机因素的影响,.,这样,,Y,可以看成是由两部分叠加而成,一部分是,x,的线性函数,a,+,bx,,另一部分是随机因素引起的误差 ,即,Y,=,a,+,bx,+,o,x,y,100,200,300,400,500,20,40,60,80,100,120,L,*,*,*,*,*,*,*,*,*,这就是所谓的,一元线性回归模型,图,5-1,一般地,假设,x,与,Y,之间的相关关系可表示为,(1),其中:,a,b,为未知常数,为随机误差且,未知,,x,与,Y,的这种关系称为,一元线性回归模型,y,=,a,+,bx,称为,回归直线,b,称为,回归系数,此时,对于(,x,Y,)的样本(,x,1,,,y,1,),,,(,x,n,,,y,n,)有:,一元线性回归主要解决下列一些问题:,(,1,)利用样本对未知参数,a,、,b,、 进行估计;,(,2,)对回归模型作显著性检验;,(,3,)当,x=x,0,时对,Y,的取值作预测,即对,Y,作区间估计,.,如果由样本得到式(,1,)中,,a, b,的估计值 ,则称 为,拟合直线,或,经验回归直线,,它可作为回归直线的估计,二、 参数,a,、,b,、 的估计,最小二乘法就是选择,a,,,b,的估计 ,使得,Q,(,a,b),为最小(图,5-2,),现在我们用最小二乘法来估计模型(,1,)中的未知参数,a,b,.,记,称,Q,(,a,b,),为偏差平方和,图,5-2,为了求,Q,(,a,b,)的最小值,分别求,Q,关于,a,,,b,的偏导数,并令它们等于零:,经整理后得到,式(,2,)称为正规方程组,.,(,2,),由正规方程组解得,其中,用最小二乘法求出的估计 、,分别称为,a,、,b,的最小二乘估计,由矩估计法,可用 估计,此时,拟合直线为,下面再用矩法求 的估计,由于,,,a,、,b,分别由 、 代入,而,故 可用,作估计,对于估计量 、 、 的分布,有:,定理,1,(,1,),(,2,),(,3,),(,4,),分别与 、 独立。,例,2,在例,1,中可分别求出,a,、,b,、 的估计值为:,故经验回归直线为:,Y=4.37+0.323,x,三、线性回归的显著性检验,在实际问题中,事先我们并不能断定,Y,与,x,确有线性关系,,Y,=,a,+,bx,+,只是一种假设,.,下面说明这一检验的方法,.,当然,这个假设不是没有根据的,我们可以通过专业知识和散点图来作出粗略判断,.,但在求出经验回归方程后,还需对这种线性回归方程同实际观测数据拟合的效果进行检验,.,若假设,Y,=,a,+,bx,+,符合实际,则,b,不应为零,因为如果,b,=0,,则,Y,=,a,+,意味着,Y,与,x,无关,所以,Y,=,a,+,bx,是否合理,归结为对假设:,H,0,:,b,=0,进行检验,下面介绍检验假设,H,0,的二种常用方法,.,且 与 独立,1,t,检验法,若,H,0,成立,即,b,=0,,由定理,7.1,知,,因而,故,为显著性水平,即得,H,0,的拒绝域为,2,相关系数检验法,取检验统计量,通常称,R,为样本相关系数,.,类似于随机变量间的相关系数,,R,的取值,r,反映了自变量,x,与因变量,Y,之间的线性相关关系,.,可以推出,:,在显著性水平 下,当,时拒绝,H,0,其中临界值 在附表中给出,相关系数检验法是工程技术中广泛应用的一种检验方法,(,1,),x,对,Y,没有显著影响;,(,2,),x,对,Y,有显著影响,但这种影响不能用线性相关关系来描述;,(,3,),影响,Y,取值的,除,x,外,另有其他不可忽略的因素,.,当假设 被拒绝时,就认为,Y,与,x,存在线性关系,从而认为回归效果显著;,若接受,H,0,,则认为,Y,与,x,的关系不能用一元线性回归模型来描述,即回归效果不显著,.,此时,可能有如下几种情形:,因此,在接受,H,0,的同时,需要进一步查明原因分别处理,此时,专业知识往往起着重要作用,.,四、预测,当经过检验发现回归效果显著时,通过回归模型可对,Y,的取值进行预测,.,即当,x,=,x,0,时,对,Y,作区间估计,.,设当,x,=,x,0,时,Y,的取值为,y,0,,有,可以取经验回归值,作为,y,0,的预测值,.,可以证明,从而可得,所以,给定置信概率 ,,Y,0,的置信区间为,其中,可以看出在,x,0,处,y,的置信区间的长度为,当 时置信区间的长度最短,估计最精确,置信区间愈长,估计的精度愈差。,当,n,很大且,x,0,位于 附近时,有,于是,y,0,的置信概率为 的预测区间近似为,例,3,检验例,2,中的回归效果是否显著,当,x,0,=80,时,求出,Y,0,的预测区间。,解,经计算,T,=16.9,r,=0.98,查表,得,t,0.025,(,9,),=2.26,r,0.05,=0.602,易见,,t,检验法、相关系数检验法都拒绝,H,0,,即回归效果显著。,于是,当,x,0,=80,时,,y,0,的预测值为,y,0,的,95%,的预测区间为(,24.73,,,35.69,),5.2,可线性化的非线性回归,在实际问题中,常常会遇到这样的情形:散点图上的几个样本数据点明显地不在一条直线附近,而在某曲线周围:,或者,用线性回归方程描述变量间的关系计算的结果与样本值误差较大,这表明变量之间不存在线性相关关系,而是一种非线性的相关关系,.,下面举例说明对这类问题用线性化处理的方法。,例,1,在彩色显像技术中,考虑析出银的光学密度,x,与形成染料光学密度,Y,之间的相关关系,其中,11,个样本数据如下所示:,x,i,0.05,0.06,0.07,0.10,0.14,0.20,0.25,0.31,0.38,0.43,0.47,y,i,0.10,0.14,0.23,0.37,0.59,0.79,1.00,1.12,1.19,1.25,1.29,解,根据这,11,个样本数据点,(,x,i,y,i,)作出散点图(图,5-3,),.,图,5-3,从散点图上看出,这些数据点在一条曲线,L,周围,.,根据有关的专业知识,结合散点图,可以认为曲线,L,大致为:,对上式两边取对数:,令,即有:,0.25,0.22,0.17,0.11,0.00,-0.24,-0.53,-0.99,-1.47,-1.97,-2.30,2.13,2.33,2.63,3.23,4.00,5.00,7.14,10.00,14.29,16.67,20.00,于是数据( )相应地变换成( ),将变换后的数据点( )画出散点图(图,5-4,),从散点图可以看出 与 具有线性相关关系,因此用一元线性回归分析,.,利用一元线性回归的方法可以计算出 与 的经验回归方程为,图,5-4,可求得,x,与,y,之间相关关系的一个经验公式:,这里,a,=0.58,,,b,= -0.15,所以,332.1,213.9,142.4,43.86,19.72,9.95,时间,t,(分,秒,),1500,1000,800,400,200,100,距离,x,(米),例,2,赛跑是大家熟知的一种体育活动。下表给出了截至,1997,年底在,6,个不同的距离上中短跑成绩的世界记录:,试根据这些记录数据分析出运动员的赛跑成绩与所跑距离间的相关关系。,解,根据记录数据点(,x,i,,,t,i,)作出散点图,(,图,5-5,),图,5-5,从散点图上看出,全部点(,x,i,,,t,i,)分布在一条曲线附近,因而,x,与,t,之间可以存在一种线性关系,。,我们用一无线性回归分析,可计算出,x,与,t,间的线性回归模型为,t,=-99.9+0.1455,x,由此模型,当,x,=100,200,400,800,1000,1500(,米,),时,,t,的理论值分别为,:,4.56, 19.10,48.20,146.4,215.5,328.2,可以看出,t,的理论值与实际记录数据多数都比较接近。,仔细分析,可发现线性回归模型的一些不合理之处。,如:当赛跑距离小于,68,米时,所需时间为负值;,当赛跑距离为,100,米时所需时间只须,4.56.,再仔细分析,发现:短距离,100,米、,200,米及长距离,1500,米需要的时间实际值均高于线性模型的理论值,而中间的,400,米、,800,米、,1000,米需要的时间实际值均低于线性模型的理论值,.,它告诉我们,x,与,t,的关系可能为一曲线,且曲线是下凸的。具有这种性质的最简单曲线当属幂函数:,t,=,ax,b,它告诉我们,x,与,t,的关系可能为一曲线,且曲线是下凸的。,对上式二边取对数,ln,t,=,ln,a,+,b,ln,x,令,t,=,ln,t,a,=,ln,a,x,=,ln,x,得,t,=,a,+,bx,为一线性关系,具有这种性质的最简单曲线当属幂函数:,t,=,ax,b,用一元线性回归分析估计,a,、,b,,从而算出,最后可得,t,与,x,间的幂函数模型:,t,=0.48,x,1.145,当,x,=100,,,200,,,400,,,800,,,1000,,,1500,(米)时,,利用幂函数模型算出,t,的理论值分别为:,9.39,20.78,45.96,141.68, 211.29,328.88,比较计算结果可知:幂函数模型比线性回归模型更能确切地反映,t,与,x,间的关系。,5.3,多元线性回归简介,其中,b,0,,,b,1,,,,,b,p,, 为与,x,1,,,,,x,p,无关的未知参数。,假定要考察,p,个自变量,x,1,,,x,2,,,,,x,p,与因变量,Y,之间的相关关系。,设,这就是,p,元线性回归模型,对变量,x,1,,,x,p,Y,作,n,次观测得到样本值:,( ),i,=1,,,n,这里,y,1,,,,,y,n,独立、同分布,且有,为了简化数学处理,引进矩阵表示,记,则等式,i,=1,,,n,可表示为,用最小二乘法求未知参数的估计,即参数,应使,为最小,根据高等数学中求最小值的方法,可求得,b,0,,,b,1,,,,,b,p,的估计:,从而得到,Y,与,x,1,,,,,x,p,的经验回归方程:,类似于一元线性回归,多元线性回归模型的假设是否符合实际,同时需要进行假设检验。,另外,在实际问题中,影响因变量,Y,的因素往往很多,.,如果将它们都取作自变量,必然会导致所得到的回归方程很复杂。,因而,我们应剔除那些对,Y,影响较小的自变量,保留对,Y,有显著影响的自变量,以便我们对变量间的相关变化有更明确的认识。,在此我们对多元性回归分析作一简单介绍,.,在实际问题中多元线性回归的应用非常广泛,有兴趣的读者可以查阅有关的专门书籍。,5.4,方差分析,一、单因素方差分析,在实际问题中,影响一事物的因素往往是很多的。,例如,在化工生产中,有原料成分、原料剂量、催化剂、反应温度、压力、反映时间等因素,每一因素的改变都有可能影响产品的质量。,有些因素影响较大,有些影响较小,.,方差分析就是根据试验的结果进行分析,鉴别各有关因素对试验结果影响的有效方法。,在试验中,将要考察的指标称为试验指标,影响试验指标的条件称为,因素,因素所处的状态称为该因素的,水平,如果试验仅考虑一个因素,则称为,单因素试验,,否则称为,多因素试验,.,我们先讨论单因素试验,例,1,某消防队要考察,4,种不同型号冒烟报警器的反应时间(单位:秒)。今将每种型号的报警器,5,个安装在同一条烟道中,当烟量均匀时观测报警器的反应时间,得数据如下:,报警器型号,反 应 时 间,A,1,(甲型),5.2,6.3,4.9,3.2,6.8,A,2,(乙型),7.4,8.1,5.9,6.5,4.9,A,3,(丙型),3.9,6.4,7.9,9.2,4.1,A,4,(丁型),12.3,9.4,7.8,10.8,8.5,这里,试验的指标是报警器的反应时间,报警器为因素。,4,种不同型号的报警器是因素的,4,个不同水平。这是一个单因素试验,.,我们要考察:,各种型号的报警器的反应时间有无显著性差异?,如果各种型号的报警器的反应时间有显著性差异,那么何种型号的报警器最优?,上表中数据可看作来自,4,个不同总体(每个水平对应一个总体)的样本值,将各个总体均值依记为,则各型号报警器的反应时间有无显著性差异的问题相当于需检验假设,不全相等。,若再假定各总体均值为正态总体,且各总体方差相等,,那么这是一个检验同方差的多个正态总体均值是否相等的问题。,显然,检验假设,H,0,可以用前面所讲的,t,检验法,只要检验任何二个总体均值相等就可以了。,下面所要讨论的方差分析法就是解决这类问题的一种检验方法。,但是这样做要检验,3,次,比较繁琐,.,总体均值,样本均值,X,s2,X,22,X,12,X,s1,X,21,X,11,A,s,A,2,A,1,水平,观测值,设影响指标值的因素,A,有,s,个水平,A,1,,,A,2,,,,,A,s,在水平,A,i,(,i=1,s,)下,进行,次独立试验,得样本,X,ij,,,j,=1,,,,,n,i,:,假定水平,A,i,下的样本来自正态总体 ,,未知,且不同水平,A,i,下的样本独立,记,有,j,=1,,,n,i,i,=1,,,,,s,X,ij,相互独立,于是,为随机误差,由假设,在方差分析中,为了便于推广到多因素试验的情形,习惯上又有下列表示式:,j,=1,,,n,i,i,=1,,,,,s,其中,称 为总平均,称 为水平,A,i,的效应,,满足,现在,要检验,等价于检验,不全为零,下面从平方和的分解着手,导出上述假设,H,0,的检验方案,记,S,T,能反映全部试验数据之间的差异,因此称,S,T,为,总偏差平方和,由于,于是有平方和分解式:,S,T,=S,E,+S,A,其中,称,S,E,为,误差平方和,,,S,A,为因素,A,的平方和,S,E,反映了各水平,A,i,内由于随机误差而引起的抽样误差,S,A,反映了因素,A,的水平不同而引起的误差外加随机误差,定理,1,(,1,),(,2,),S,E,与,S,T,相互独立;,(,3,)当 时, 。,为了检验,取,F,F,(,s,-1,,,n,-,s,),当,H,0,成立时,由定理,1,,,直观上,当,H,0,成立时,由因素水平的不同引起的偏差相对于随机误差而言可以忽略不计,即,F,的值应较小;反之,若,F,值较大,自然认为,H,0,不成立。,若检验结果认为假设,H,0,不成立,则可用 作为 的点估计,或者对 进行区间估计。,由,得到:在显著性水平 下,H,0,的拒绝域:,计算,F,的值可用表,9-1,所示的方差分析表,n,-1,S,T,总和,n,-,s,S,E,误差,s,-1,S,A,因素,A,F,值,均方和,自由度,平方和,偏差来源,表,5-1,单因素方差方析表,来源,平方和,自由度,均方和,F,值,因素,A,56.29,3,18.76,F,=6.15,误差,48.77,16,3.05,在实际应用中,一般在 下若仍不能拒绝,H,0,时则接受原假设,H,0,例,2,在例,1,中,,s=4,n,1,=,n,2,=,n,3,=,n,4,=5,n,=20,,经计算列方差分析表如下:,查表,得,F,0.10,(,3.16,),=2.46,,,F,0.05,(,3.16,),=3.24,从而在显著性水平,下检验结果拒绝,H,0,由方差分析可知,,4,种型号的报警器的反应时间确有显著性差异,计算:,故,即反应时间较短的是甲,丙次之,二、双因素方差分析,。,假定要考察两个因素,A,、,B,对某项指标值的影响,因素,A,取,s,个水平,A,1,,,A,2,,,,,A,s,因素,B,取,r,个水平,B,1,,,B,2,,,,,B,r,在,A,、,B,的每对组合水平(,A,i,,,B,j,)上作一次试验,,试验结果为,X,ij,,,i,=1,,,,,s,;,j,=1,,,,,r,。,所有,X,ij,独立,数据列于下表:,X,sr,X,s2,X,s1,A,s,X,2r,X,22,X,21,A,2,X,1r,X,12,X,11,A,1,B,r,B,2,B,1,因素,B,因素,A,其中,要考察因素,A,、,B,是否指标值产生显著性影响?,设,则有,为随机误差,且,相互独立,i,=1,,,,,s,j,=1,,,r,再假定在水平组合(,A,i,B,j,)下的效应可以用水平,A,i,下的效应(记为 )与水平,B,j,下的效应(记为 )之和来表示,,即,其中,作假设,如果,H,01,成立,那么 与,i,无关,这表明因素,A,对指标值无显著影响,同样,作假设,如果,H,02,成立,则 与,i,无关,这表明因素,B,对指标值无显著影响,类似于单因素方差分析,通过下面的平方和分解式可以检验假设,H,01,,,H,02,记,通过简单推导可以证明下列平方和分解式:,S,A,是由因素,A,的不同效应和 引起的偏差,S,B,是由因素,B,的不同效应和 引起的偏差,而,S,E,表示由 引起的偏差,因此,可用比较,S,A,与,S,E,的值来检验假设,H,01,用比较,S,B,与,S,E,的值来检验假设,H,02,定理,2,(,1,),S,T,,,S,A,,,S,B,相互独立,且,(,2,),当,H,01,成立时,,(,3,),当,H,01,成立时,,由定理,2,于是有,所以,H,01,的拒绝域为,为显著性水平,类似地,可给出,H,02,的拒绝域:,其中,总和,误差,因素,B,因素,A,F,值,均方和,自由度,平 方 和,偏差,来源,表,5-2,双因素方差分析表,43,39.5,37.5,36,A,3,39.5,38,36.5,33.5,A,2,38.5,35.5,35,32,A,1,B,4,B,3,B,2,B,1,氧化锌,B,促进剂,A,例,3,在某种橡胶的配方中,考虑了,3,种不同的促进剂,,4,种不同的氧化锌,.,各种配方试验一次,测得,300%,定强如下:,问不同促进剂、不同份量氧化锌分别对定强有无显著性影响?,来源,平方和,自由度,均方和,F,值,因素,A,28.3,2,14.15,F,A,=36.3,因素,B,66.1,3,22.03,F,B,=56.5,误差,2.35,6,0.39,总和,96.75,11,解,由题意,影响定强这一指标值的因素有二个:促进剂,A,、氧化剂,B,s,=4,r,=3,,列出如下的方差分析表:,取,查表,得,F,0.05,(2,6)=5.14,F,0.05,(3,6)=4.76,比较可知,F,A,5.14,F,B,4.76,所以不同促进剂和氧化锌的不同份量对橡胶定强都有显著影响,在以上的双因素方差分析中,我们作了假定,:,如果此式不能成立,则需考虑二个因素,A,与,B,在不同水平组合下的交互作用。,对有交互作用方差分析感兴趣的读者可进一步阅读有关的书籍,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!