线性回归理论

上传人:悦** 文档编号:172649983 上传时间:2022-12-05 格式:DOCX 页数:23 大小:84.92KB
返回 下载 相关 举报
线性回归理论_第1页
第1页 / 共23页
线性回归理论_第2页
第2页 / 共23页
线性回归理论_第3页
第3页 / 共23页
点击查看更多>>
资源描述
第七章 线性回归分析管理中经常要研究变量与变量之间的关系,并据以做出决策。前面介绍的检验可以 确定两个变量之间是否存在着某种统计关系,但是如果检验说明两个变量之间存在着某 种关系,我们还是不能说明它们之间究竟存在什么样的关系。本章介绍的回归分析能够确定两个变量之间的具体关系和这种关系的强度。回归分 析以对一种变量同其他变量相互关系的过去的观察值为基础,并在某种精确度下,预测 未知变量的值。社会经济现象中的许多变量之间存在着因果关系。这些变量之间的关系一般可以分 为两类:一类是变量之间存在着完全确定的关系,即一个变量能被一个或若干个其他变 量按某种规律唯一地确定,例如,在价格P确定的条件下,销售收入Y与所销售的产 品数量之间的关系就是一种确定性的关系:Y=PX。另一类是变量之间存在着某种 程度的不确定关系。例如,粮食产量与施肥量之间的关系就属于这种关系。一般地说, 施肥多产量就高,但是,即使是在相邻的地块,采用同样的种子,施相同的肥料,粮食 产量仍会有所差异。统计上我们把这种不确定关系称为相关关系。确定性关系和相关关系之间往往没有严格的界限。由于测量误差等原因,确定性关 系在实际中往往通过相关关系表现出来;另一方面,通过对事物内部发展变化规律的更 深刻的认识,相关关系又可能转化为确定性关系。两个相关的变量之间的相关关系尽管是不确定的,但是我们可以通过对现象的不断 观察,探索出它们之间的统计规律性。对这类统计规律性的研究就称为回归分析。回归 分析研究的主要内容有:确定变量之间的相关关系和相关程度,建立回归模型,检验变 量之间的相关程度,应用回归模型进行估计和预测等。第一节 一元线性回归分析、问题的由来和一元线性回归模型例 7-1。某地区的人均月收入与同期某种耐用消费品的销售额之间的统计资料如表7-1 所示。现要求确定两者之间是否存在相关关系。表7-1年份1987198819891990199119921993199419951996人均收入1.61.82.33.03.43.84.54.85.25.4销售额(百万兀)4.75.97.08.210.5121313.51415如果作一直角坐标系,以人均收入x为横轴,销售额y为纵轴,把表7-1中的数ii 据画在这个坐标系上,我们可以看出两者的变化有近似于直线的关系,因此,可以用一 元线性回归方程,以人均收入为自变量,以销售额为因变量来描述它们之间的关系。即:y = a + b x + e(i = 1,2, , n)ii i其中:y是因变量y的第i个观察值,ix是自变量X的第i个观察值ia与b是回归系数,n 是样本容量,e 为对应于 Y 的第 i 个观察值的随机误差,这是一个随机变量。 i在上述线性模型中,自变量X是个非随机变量,对于X的第i个观察值X , Y的 i观察值y是由两个部分所组成的:bx和e,前者是一个常数,后者是一个随机变量, i i i所以也是一个随机变量。对于上述回归模型中的随机误差e要求满足如下的假设条件:i1、应当是服从正态分布的随机变量,即e满足“正态性”的假设。i2、e的均值为零,即玖e )=0,我们称e满足“无偏性”的假设。i i i3、e的方差等于b 2(e丿=e 2,这就是说,所有的e分布的方差都相同,即满足“共i i i i方差性”的假设。4、各个间相互独立,即对于任何两个随机误差e和:(丰j)其协方差等于零, 即,Cov(e ,e )=0, (i丰j)这称之为满足“独立性”的假设。ij综上所述,随机误差必须服从独立的相同分布。基于上述假定,随机变量的数学期望和方差分别是:E( y )= a + b x b 2(ie )=e2 iii由此: y N(a + b x ,e 2)ii i这就意味着,当X= x时,y是一个服从正态分布的随机变量的某一个取值。如果ii 不考虑式中的误差项,我们就得到简单的式子:y = a + b xii这一式子称为 Y 对 X 的回归方程。依据这一方程在直角坐标系中所作的直线就称 为回归直线。二、模型参数的估计和估计平均误差1、回归参数的估计 回归模型中的参数a与b在一般情况下都是未知数,必须根据样本数据(x,y ) ii 来估计。确定参数a与b值的原则是要使得样本的回归直线同观察值的拟合状态最好, 即要使得偏差最小。为此,可以采用“最小二乘法”的办法来解决。对应于每一个x ,根据回归直线方程(7-1)可以求出一个y,它就是y的一个估计iii值。估计值和观察值之间的偏差e =(y - y丿。有n个观察值就有相应的n个偏差。ii i要使模型的拟合状态最好,就是说要使n个偏差的总和最小。但为了计算方便起见,我 们以误差的平方和最小为标准来确定回归模型。这就要求ii-a -bx是个极小值。I根据微积分中的极值定理,要使上式取极值,其对a与b所求的偏导数应 为 0,即-a - bx )= 0i-a-bx )xii经整理后可得:Z y = na + bZ xZxiyxyii解上式Z-b = n=a Z x + bZ x 2ii可得:1 (Z x)Z y )iZ x 2 - 1 (Z x )2inZy Zxa =- - b iX=CZ x)/ = Z(x -xl =ZY =y ) nX2 - 1 (Z x)XXSXY= Z(x -x)( -y)=Zi1(Z x 匕)n i iSYY1 Jni于是,得到参数a与b的简单表达形式如下: b = S /S_XY _XXa = y - bx求出参数a与b以后,就可以得到回归模型 y = a + bx由此,只要给定了一个x值,就可以根据回归模型求得一个y来作为实际值y .的iii预测值。2、估计平均误差的计算对于给定的x,根据回归模型就可以求出y的预测值。但是用$来预测y的精iii入、y - yii度如何,产生的误差有多大是统计上所关心的。统计上用估计平均误差这个指标来度量 回归方程的可靠性,对回归方程进行评价。估计平均误差可以用第一章中所述的度量一 组观察值的离差的方法来度量。但是这次估计平均误差是根据观察值与回归直线的偏离 来计算的。一个回归模型的估计平均误差或剩余标准离差由下式定义:S=e1 Z ( ,n - 2值得注意的是上式中分母是用(n - 2)而不是(n - 1)或n去除,这是因为n个观察 值的数据点用于计算参数a与b时失去了 2个自由度,还余下(n-2)个自由度。运用估计平均误差可以对回归方程的预测结果进行区间估计。若观察值围绕回归直 线服从正态分布,且方差相等,则有68.27%的点落在土 S的范围内,有95.45%的点e落在土2S的范围内,有99.73%的点落在土 3S的范围内。ee三、回归模型的检验回归方程建立以后还需要检验变量之间是否确实存在线性相关关系,因为对回归参 数的求解过程并不需要事先知道两个变量一定存在相关关系。对一元线性回归模型的统 计检验包括两个内容:一是线性回归方程的显著性检验,二是对回归系数进行统计推断。下面我们分别讨论这两个问题。(一) 线性回归方程的显著性检验1、方差分解回归分析中需要分析使用Y与X之间的线性相关关系的估计模型y = a + bx来估 计y时所产生的误差和所减少的误差,这称为回归中的方差分析。若没有利用Y与X之间的相关关系来估计总体的均值,我们就会选择 y 的平均值 y 作为总体的估计值。由此而产生的误差是工(y -y)2,我们称之为“总离差平方和”,记为sst。若利 ii用 Y 与 X 之间的线性相关关系的估计模型去估计总体均值,则所产生的误差是 :工(y -y)2,我们称之为残差平方和,记为SSE。为了说明SST与SSE之间的关系, ii我们对SST进彳(分解。、SST = E(y -亍X=式-亍)+(y- y)=工 G - y) + 工(y - y )2 +i i i=工 t - y X + 工(y - y )2 + 0iii=工y丄+工(y y iii-yii若记 SSR= Nty - y 丄 SSE=工(yii则 SST = SSR + SSE图 7-1:三种误差之间的关系SSR反映了由于利用Y和X之间的线性回归模型y来估计Y的均值时,而不是简 i单地利用y来估计Y的均值时,使得总误差SST减少的部分,因此统计上称之为“可 解释误差”。SSE是利用Y与X之间的线性回归模型来估计Y的均值时仍然存在的误差,因此 称之为“不可解释误差”。于是,上式实际上就表示:总误差=可解释误差+不可解释误差图 7-1 直观地表示了三种误差之间的相互关系。2、相关分析对于任何给定的一组样本(x y )( i =1,2,口 )都可以用最小二乘法建立起一个线性ii回归模型,相应地就可以得到一条回归直线。但是,这样的一条回归直线并不是总有意 义的。只有当变量X与Y之间确实存在某种因果关系时,其回归直线才有意义。统计 学中要确定变量X和Y之间是否确实存在线性相关,通常利用相关系数来检验。相关 系数记作r或r 2,它能够较精确地描述两个变量之间线性相关的密切程度。相关系数可以定义为可解释误差SSR和总误差SST之比,即:r2= SSRSST=1 - SSESST它反映了由于使用了 Y与X之间线性回归模型来估计y.的均值而使离差平方和iSST减少的程度,从而表明Y与X之间线性相关程度及拟合模型的优良程度。r2与 SSR成正比。r2越大,说明Y与X之间的线性相关程度越高,也就说明模型的拟合 性能较优;r2越小,说明Y与X之间的线性相关程度越低,说明模型的拟合性能较差。 当相关系数用r来表示时不仅可以测定Y与X之间的相关程度,而且也可以表示相关 的方向。事实上,相关系数r也可以定义为:r = S亍XYXX YY从上述两个公式计算所得到的结果完全相同,意义也相同。但从r2计算r时为:r = :r 2要确定r的符号,就需要利用以下的关系:S厂r =xy = b 跖JS - SSV XX YY1 YY由此可见,r与b同号,可以根据b的符号来决定r的符号。从r2的计算公式可以 看出:r 2总是界于0与1之间的,即0 r 2 1O如果y = y,则SST=SSR,SSE=O, ii此时,r2=1o这时称为完全线性相关,模型的拟合程度最优。用Y 与 X之间的线性回 归模型来估计y时的总离差和完全可以用ssr来解释。如果y.二y,则sst=sse,iiSSR=0,因此,r2=0o这时,使用Y与X之间的线性回归模型没有能对任何的总离差 平方和SST作出任何解释,说明Y与X之间事实上无线性相关,模型的拟合程度最差。对r的不同的具体值,Y与X之间的相关关系分析如下:1) 当r =1时,称为完全线性正相关;当r =-1时,称为完全线性负相关。2) 当0 |r |0时称Y与X正相关。当r 0.9时,估计模型为”优”;0.8 r2 0.9时, 估计模型为”良”;0.6 r2 0.8时,估计模型为”一般”。r2 F,则拒绝零假设。我们认为X与Y之间存在线性相00关关系,否则接受H,认为X与Y之间没有线性相关关系。04、t 检验尽管相关系数r是对变量Y与x之间的线性关系密切程度的一个度量,但是相关 系数r是根据样本数据计算得到的,因而具有一定的随机性,样本容量越小,其随机性 就越大。因此也需要通过样本相关系数r对总体的相关系数P作出推断。由于相关系数r的分布密度函数比较复杂,实际应用中需要对r作变换。令r Jn - 2t二厂则统计量t服从t(n-2)分布。于是关于总体是否线性相关的问题就变成对总体相关系数P =0的假设检验,也就只要对统计量t进行t检验就行了。根据一组样本计算出上述t值,再根据问题所给定的显著性水平a和自由度n-2, 查t分布表,找到相应的临界值t。若2“ -J表明t在统计上是显著的,即总体的两个变量间存在线性关系。否则就认为两个变量间 不存在线性关系。5、DW检验回归模型中假设Cov(e., e j)=0,即随机项是独立的。这一假设是否成立,可以通ij过回归模型的误差序列是否相互独立来进行检验。若误差序列各项间相互独立,则序列 各项之间没有相关关系。若序列各项之间有相关关系,误差序列不满足线性回归模型的 基本假设,回归模型就不能表达变量Y与X之间的真实变动关系。D W(Durbin-Watson) 检验可以检验残差序列的相关性。其检验办法如下:1 )计算误差序列的d统计量(DW值)d 二工(e - eii-i2)根据给定的显著性水平a (通常为a =0.05或0.01),自变量个数k和样本数 据个数n查D、W表,得到d的下限值d和上限值d。lu3)判断。若d d4-du 则残差序列无自相关,各项间相互独立;若 0d d 或 4-d d4ll 表明残差序列存在正自相关或负自相关,各项之间不相互独立,DW检验未 通过;若d d d 或 4- d d 4- dl u u l 则无法断定是否存在自相关。线性回归模型产生残差序列自相关的原因有三种,第一是所选择的数学模型不适合,变量间不是线性关系而建立了线性模型。此时应进一步选择合适的数学模型。第二 是模型中所包含的自变量数目不合适,或是遗漏了某些重要的影响因素,或是包含了不 必要的其他因素。第三是序列中包含有很强的趋势分量。通常可以用迭代法或差分法进 行修正。经济指标的时间序列常常存在自相关现象,这一点特别要注意。(二)关于回归系数b的统计推断由于样本不同,回归系数a与b的值也不同,因此。回归系数a和b也是随机变量。 同时a和b是正态随机变量Y的线性组合,所以a和b也是服从于正态分布的随机变 量。1. 关于回归系数b的假设检验对正态随机变量b求数学期望和方差,可得E 丿=b(入)C 2CJ 2 0= eSxx一般情况下b 2未知,需要用其无偏估计量S 2来代替:ee讥()()根据t分布原理,样本统计量t =黑- b/:b 丿服从于自由度为(n-2)的t分布。于是要检验回归参数b是否等于某一假设值b的问题,也就转化为假设检验问题。 0设H : b = bo,竹:、勿丰bo, 计算统计量t = V? b0)b (b)判断原假设是否成立。当显著性水平为a时,查t分布表得t和t ,若a21-a2检验的程序是;2)3)1)t、t 或t t ,则拒绝H,反之接受H。 i-a2a2oo2. b的置信区间根据抽样分布定理,可以确定b的置信区间。因为P(t W t J t )=1 a1-ba1-a21 2所以,当置信度为1 a时,b的置信区间是b -1 - - c?(b), b + t ; c?(b)L a 21-a2第二节 多元线性回归分析一、多元线性回归模型多元线性回归分析是研究一个因变量与多个自变量之间线性相关关系的统计分析 方法。事实上,大量社会经济现象总是多个因素作用的结果。多元线性回归考虑到多个 自变量对因变量的影响,能够更真实地反映现象之间的相互关系,因此在实践中应用更 广。假设一个随机变量Y与m个非随机变量X之间存在线性相关关系,则它们之间的 关系可以用以下的线性回归模型来表示:Y =卩 + 卩 X + 卩 X + 卩 X + e0 1 1 2 2 m m其中:Y是因变量, )Xi ( = 1,2,m)是自变量,卩(=0,1,2,m )是模型的参数,称为偏相关系数。ie 是随机误差。对于上述模型中的非随机变量X .的第j个取值X Y的观察值Y由两部分组成:iijj(卩+卩X +卩X +卩X )和e。前者是个常数,后者是个随机变量,所以Y也01 12 2 m m jj是个随机变量。与一元线性回归模型同样地,我们也必须假设多元线性回(归模型)中的误差项必须满足正态性、无偏性、共方差性和独立性的条件。假设eNV), c 2丿,则E(Y) = (P + 卩 X + 卩 X +卩 X + e)01 12 2 m m=卩+卩X +卩X +卩X01 12 2 m mc2(Y)= c2(p + 卩 X + 卩 X + 卩 X + e)01 12 2 m m= 0 + c 2 (e ) = c 2由此可见:Y N (p +p X +p X +-+P X , c 201 122m m e二、参数估计般情况下都是未知数,多元线性回归模型的参数P (=)丄2,m )及c 2在 须根据样本数据(yj, jy%)来估计。x , x1j回归参数B , ( = 0,1,2,-m)的估计方法还是”最小二乘法”。根据样本数据 Q , x ,x,,x丿来估计卩(Z = 0,1,2,m)时使得产生残差的平方和J1j 2 j mjiQ =巧-Jjj+ B xx01 1 jm mj取极小值。为此,对Q分别求B到m+1个方程。QQ0Q B0d Q=0QB1i = 0,1,2,m )的偏导数,并令其等于零,由此,可以得QQ0k因书写较烦,不一一列出。若对于自变量X ,X,,X和因变量Y共有n组观察数据。x表示自变量X的 12 miki第k次观察值,-.表示因变量Y的第i次观察值。令:lij=(x - x Xx - x ) C, j = 1,2,m)ikk 1i jk jli0l00亍(x 一 丁)(一 -)ik 1Yn (ykikikC = 1,2,m)k=1-1另X =厶兀i n ikk 1-1另y = nyk= 1,2,. m)Y(i = 0,1,2,m )可以由下列方程组求出:1101202 = Y (y yej j一 m 一 1)则回归系数BiI B+1B+/BII 11221mm1B+1B+1B2112222 mm=lm01 B + 1 B +1 Bm1 1 m2 2 mm m常数项B = Y - Y B - X0i i多元线性回归模型中的另一个常数是Y的方差C2。因为多元线性回归模型中有 jem+1个回归参数要估计,所以Q2的无偏估计量应当是:e三、多元回归中的方差分析和显著性检验与一元线性回归模型同样地,我们在得到多元线性回归模型以后也需要对模型中所 包含的变量是否确实与因变量之间存在线性相关关系,以及回归模型的拟合效果如何进 行分析检验。多元回归中的方差分析和显著性检验可分为几个部分,首先是对总离差平 方和以及回归离差平方和进行分解,分别测定Y与m个自变量X之间总体上的相关程 度以及Y与某个或者若干个自变量X的相关程度,并分别引进多元相关系数和偏相 关系数的概念。然后,用 F 检验进行总相关检验和偏相关的检验。在此基础上再进行 残差分析。(一)总离差平方和的分解和多元相关系数与一元线性回归时一样,我们也可以定义多元线性回归的总离差平方和SST,并把 它分解为SSR和SSE两部分SST= Y & - Y=m Y)+(Y -Y)与一元线性回归时一样我们也把上式记作SST=SSR+SSE其中:Y = B + p x +B xxj 0 1 1 j2 2 j m mj根据上述分解式我们也可以定义多元相关系数r2:r2 = SSR- Y ) 工C - Y ) = 1- Y (y - y/ 工(y - y)2SST j j j ji ii iSSE=1 SST.( A它反映了由于使用Y与m个X之间的线性回归模型用Y.来估计E*丿,而使总离 差平方和SST减少的程度,从而表明了 Y与X之间的线性相关程度及拟合模型的优良 程度.SSR越大,r2越大,说明Y与X之间的线性相关程度越高,说明线性模型的拟 合优度越高;反之SSR越小,r2越小,说明Y与m个X的线性相关度越低,即线性 模型的拟合优度越低。r2的计算公式说明0 r2 2时,回归系数的符号可能有正有负,难以确定,因此,我们规定多元相关系数总 是为正的,r= + ; r 2由此说明多元相关系数不能说明Y与K个X之间的线性相关方向,仅仅说明了它们 之间的线性相关程度.(二)回归离差平方和与偏相关系数在多元线性回归模型中,如果增加与Y相关的某个自变量X,贝ySSR随之增加,而 SSE随之减少.因此,SSR还可以被进一步分解.例如,若原回归模型中只包括自变量 x ,x ,x,若模型中增加了与Y相关的另一个自变量x 以后,使SSR增加的那部1 2 kk +1分称为“ x 的净增回归平方和”,并定义为SSR(x /x ,x ,x )。于是k+1 .k +112kSSRVxx , x,x 丿=SSR( x , x,x )SSR( x , x,x )k+1 1 2k1 2k+r1 2k=SSE( x , x,x ) SSE( x , x,x )1 2k1 2k+1由此我们得出对于变量x 的偏相关系数的计算公式:k+1x )k+1SSE(x,x,x ) SSE(x,x,r = 、12k12-+1yxk+iSSE x,x,x 丿*12k它反映了把自变量x 纳入模型以后使得原模型的残差平方和SSR(x,x,x ) k+11 2k减少的程度。某一变量的偏相关系数越大,说明Y与这一变量的偏相关程度越大,反之, 某一变量的偏相关系数越小,说明Y与这一变量的偏相关程度越小。(三) 多元回归模型的F检验对于一元回归方程而言,对自变量X的系数作是否为零的假设检验也就等价于对 整个回归模型进行了显著性检验。但对多元回归模型而言,对回归模型中各个系数分别 进行的显著性检验与对整个回归方程的显著性检验是不同的。因此,我们既需要对整个 回归方程进行显著性检验,也需要对回归模型中各个系数分别进行显著性检验。1、总相关的 F 检验对整个回归方程进行显著性检验通常采用F检验,即检验Y与K个X之间整体上是否 存在显著的线性相关关系,此时检验的步骤如下:1) 建立假设原假设H0 :卩二卩2二二卩二0备择假设H : 不全为0(i二1,2,,n丿1i事实上,在所有的自变量X中,只要有一个X与Y之间存在显著线性相关,那么Y 与K个X之间的相关系数就不等于0.反过来若Y与K个X之间的相关系数不是零,在K个中必有一个不为零。2) 计算检验统计量F-1)MSRMSESSR。, xSSE C , x,1 2F是两个平均离差平方和(方差)之比,可以证明如果代正确,分子MSR的数学期望 等于MSE的数学期望,即E(MSR)=E(MSE)=2,F服从自由度为K和(N-M-1)的F分布。如果H为假,E(MSR)E(MSE)。因此,如果H。正确,F值将接近于1;如H。为假,则 F值将大大超过1。3) 判断Ho是否成立。当显著性水平确定为a,自由度为K和N-K-1时,查F分布表 得F。如果F三F,则拒绝H。说明Y与K个X之间总的来说存在显著性相关,接受H。aa00说明Y与K个X之间不存在显著性相关。2、偏相关的F检验偏相关检验的目的在于检验新加入模型的X是否与Y存在显著的线性相关。通过总 相关的F检验表明Y与K个自变量X在整体上存在显著的线性相关,但并不意味着各个X 都与Y存在显著的线性相关,偏相关是检验在丫与(K-1 )个乂存在显著的线性相关的条件 下,X是否与Y存在显著的线性相关,即X进入模型后对减少模型的残差平方和是否KK有显著的作用。偏相关检验的步骤是:1)提出原假设H :备择假设H:0上述假设也可写作H : 0 =0,H : p丰00 K 1 K)-SSR(x ,x,x ) k _11 2L,x,x丿12 k (n - k -1)SSRx x , x,x )=k1 2k-1SSE (x , x,x 丿12 k (n - k -1)2)计算检验统计量F:SSRxx , x,xF =i_2SSE3)判断H是否成立。当显著性水平为a时,查F分布表求出F (分子自由度为1, 0a分母自由度为N-K-1)。如果F三F,则拒绝原假设,说明Y与X之间存在显著偏相关, aK反之,接受原假设,说明Y与X之间不存在显著偏相关。K四、多元回归模型的残差分析前面关于回归模型的参数估计和检验都是建立在一系列的理论假设基础之上的,但 是在实际问题中,总体的实际情况是否与基本假设相符还需要验证。此时最简单的方法 就是残差散点图分析。1、线性与非线性前面所讨论的回归模型都是假设Y与X之间存在线性相关关系,然后应用样本数 据建立起它们之间的线性回归模型的。但是如果总体中Y与乂尺之间的相关关系并非是 线性的,则模型的假设就不成立。应用模型来进行估计和预测就不可能得出有用的结果。要检验Y与X之间是否存在线性相关关系,可以用残差散点图来分析残差 e = Ki(Y-)的散布情况。我们以残差e为纵座标,以估计值Y为横座标,在直角座标 j j i j系上依次绘出点(Y , e )o分析观察点的散布情况。如果观察点随机地散布在横线e =0 j i i 的周围,说明总体符合线性相关关系的假设是正确的。如果观察点的散布显示一定的规 律性或系统性,则说明总体变量不符合线性相关关系的假设。图7-2就是用来分析线性 与非线性的一个残差散点图。如果总体变量不符合线性相关关系的假设则应根据具体情况重新建立模型。此时可 考虑建立合适的非线性模型。对于某些非线性模型可以进行变量转换,转换成线性模型 再重新进行估计。图7-2 线性与非线性的残差散点图比较2、共方差与异方差 在建立线性回归模型时,我们假设随机误差 e 具有相同的方差,即共方差。我们i 也可以通过残差散点图来验证总体是否符合共方差性的假设。以残差 e 为纵座标,以 i估计值为横座标,在直角座标系上依次绘出点(Y ,e )。分析观察点的散布情况。如 ji果观察点随机地散布横线e =0的周围,说明总体基本符合共方差性的假设。如果观察i点随 的增大而扩散或聚集,说明总体不符合共方差性的假设。图7-3就是用来分析共 方差与异方差的一个残差散点图。图7-3 共方差与异方差的残差散点图比较如果总体出现异方差迹象就需要通过采用适当的变量转换可望使方差趋于稳定,再 利用回归模型进行估计和预测。3、独立与非独立回归模型还假设随机误差e之间相互独立,即Cov(e ,e )=0 (i丰j)。我们也可以ii j通过残差散点图来验证总体是否符合独立性的假设。以残差 e 为纵座标,以估计值为 i横座标,在直角座标系上依次绘出点(Y ,e )。对于与时间有关的样本数据则最好以ji时间t为横轴。分析观察点的散布情况。如果观察点随机地、无规则地散布在横线e =0i的周围,说明总体基本符合独立性的假设。如果观察点在横线e =0的周围显示出周期 i 性或趋势性的变化,则说明总体不符合独立性的假设。图7-4就是用来分析独立与非独 立的一个残差散点图。图7-4 独立与非独立的残差散点图比较如残差散点图显示残差之间不独立,则可以寻求把合适的自变量加入模型以消除残 差的非独立现象。如果这一办法仍无法消除残差间的非独立性,则可以采用“一价差分 法”,做变量转换,然后重新估计模型的参数。4、正态与非正态 回归模型还假设随机误差 e 服从正态分布。要检验总体残差是否满足正态分布的i要求要通过建立标准残差E = j 的直方图来检验。从理论上说,E应服从标准正 态分布,即EN(0,1)。所以应有近50%的E为正,50%的E为负;68%的E落 在-1与+1之间, 96%的 E 落在-2与+2之间。如果画出标准残差的直方图则应如图7-5的 标准正态残差分布图所示。若这一条件满足就说明总体基本符合正态性的假设。如果样 本的容量不大时,&在理论上应服从于自由度为(N-K-1)的t分布。所以,对应于(N-K-1) 的t分布,如果有50%的值位于t 和t 之间,有95%的值位于t 和t 之间,说0.250.750.0250.975明总体基本符合正态性的假设。图7-5 标准正态残差分布图5、多重共线性 在应用回归模型时,如果自变量中有两个或两个以上的自变量之间存在着线性或几 乎完全线性相关的关系就会产生多重共线性现象。在多重共线性现象的情况下用最小二 乘法估计模型的参数就会不稳定。此时当模型中增加或减少一个变量时已在模型中的变 量的系数也会变化。在多重共线性现象较严重的情况下,解释回归参数估计量的含义就 没有什么实际意义了,而且会引起误导或导致错误的结论。如果自变量完全线性相关, 那么,其参数就成为不确定的了。当然,也不能要求自变量之间完全不相关,即相关系数为零。此时,变量为正交变 量,这时就不必用复回归方法求参数了,每个参数0 可以用相应的自变量作简单回归 来估计即可。事实上,这两种极端是很少遇到的。大多数情况下,自变量之间存在一定 程度的相关关联。实际上在多重共线性现象不太严重时,并不会影响回归模型的估计和 预测的准确性。解决多重共线性问题的方法是剔除一些重复变量重新进行估计。练习题7-1 零售商为了解每周的广告费与销售额之间的关系,记录了如下统计资料: 广告费 X (万)402025203050402050402550销售额 Y (百万)385 400 395 365 475 440 490 420 560 525 480 510画出散点图,并在Y对X回归为线性的假定下,用最小二乘法算出一元回归方程。7-2 下表是经济发展水平不同的八个国家人均年能源消耗量(折合成标准煤,单 位kg)和人均年国民生产总值的数据。试求(1) Y对X的线性回归方程;( 2) 对所求方程作显著性检验(显著性水平为 0.05)(3) 对人均年生产总值 3000 美元的国家预测其人均年能源消耗量的范围 (a = 005 )。7-3设对某产品的价格P与供给量S的一组观察数据如下表,据此确定随机变量 S 对价格 P 的回归方程。价格 P (百元)23456810121416供给量 S (吨)1520253035456080801107-4 依据下列统计资料,我们能否断定这一企业的利润水平和它的广告费用之间 存在线性关系( a = 0.05 )。广告费用(万元) 10108881212121111利润(万元) 1001502001802503002803103203007-5 随机抽取某城市居民的12个家庭,调查收入与支出的的情况,得到家庭月收 入(单位:元)的下表数据。试判断支出与收入间是否存在线性相关关系?请求出支出 与收入间的线性回归方程(a = 005 )。收入8209301050130014401500160018002000270030004000支出7508509201050122012001300145015602000200024007-6某城市19751993年的购买力Y (单位:万元)对职工人数X (单位:万1人),平均工资X (单位:元),存款X (单位:亿元)进行多元线性回归分析的部 23分结果如下:样本容量n=19,回归方程为y=652.964 + 1.3085x + 0.7276x + 83.0258x123(300.858) (0.348) (0.3206) (41.8466)(1)说明回归方程中各系数的含义;(2)判断线性回归方程中那些系数是显著不为零的(a = 005 )。(3) 预测当 x =700,17-7 上题中的变量 x=0.7608,x =1000 , x =4 时的平均购买力 y 。23x, x 之间的相关系数如下:23=0.4639,x= 0.9078, , ,1 2 2 3 1 3说明上题中的线性回归分析可能存在什么问题?
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸设计 > 毕设全套


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!