资源描述
118,第五章 模型的建立与估计中的问题及对策,第五章 模型的建立与估计中的问题及对策,本章内容,第一节 误设定,第二节 多重共线性,第三节 异方差性,第四节 自相关,本章内容,OLS,估计量令人满意的性质,是根据一组假设条件而得到的。在实践中,如果某些假设条件不能满足,则,OLS,就不再适用于模型的估计。下面列出实践中可能碰到的一些常见问题:,l,误设定(,Misspecification,或,specification error,),l,多重共线性(,Multicollinearity,),l,异方差性(,Heteroscedasticity,或,Heteroskedasticity,),l,自相关(,Autocorrelation,),l,随机解释变量(,Stochastic explanatory variables),本章将对上述问题作简要讨论,主要介绍问题的后果、检测方法和解决途径。,OLS估计量令人满意的性质,是根据一组假设条件而得,第一节 误设定,采用,OLS,法估计模型时,实际上有一个隐含的假设,即模型是正确设定的。这包括两方面的含义:函数形式正确和解释变量选择正确。在实践中,这样一个假设或许从来也不现实。我们可能犯下列三个方面的错误:,选择错误的函数形式,遗漏有关的解释变量,包括无关的解释变量,从而造成所谓的“误设定”问题。,第一节 误设定,一,.,选择错误的函数形式,这类错误中比较常见的是将非线性关系作为线性关系处理。函数形式选择错误,所建立的模型当然无法反映所研究现象的实际情况,后果是显而易见的。因此,我们应当根据实际问题,选择正确的函数形式。,一. 选择错误的函数形式,我们在前面各章的介绍中采用的函数形式以线性函数为主,上一章还介绍了因变量和解释变量都采用对数的双对数模型,下面再介绍几种比较常见的函数形式的模型,为读者的回归实践多提供几种选择方案。这几种模型是:,半对数模型,双曲函数模型,多项式回归模型,我们在前面各章的介绍中采用的函数形式以线性函数为,1.,半对数模型,半对数模型指的是因变量和解释变量中一个为对数形式而另一个为线性的模型。因变量为对数形式的称为,对数,-,线性模型,(log-lin model),。解释变量为对数形式的称为,线性,-,对数模型,(lin-log model),。我们先介绍前者,其形式如下:,对数,-,线性模型中,斜率的含义是,Y,的百分比变动,即解释变量,X,变动一个单位引起的,因,变量,Y,的百分比变动。这是因为,利用微分可以得出:,1. 半对数模型,这表明,斜率度量的是解释变量,X,的单位变动所引起的因变量,Y,的相对变动。将此相对变动乘以,100,,就得到,Y,的百分比变动,或者说得到,Y,的增长率。由于对数,-,线性模型中斜率系数的这一含义,因而也叫,增长模型,(growth model),。增长模型通常用于测度所关心的经济变量(如,GDP,)的增长率。例如,我们可以通过估计下面的半对数模型,得到一国,GDP,的年增长率的估计值,这里,t,为时间趋势变量。,这表明,斜率度量的是解释变量X的单位变动所引起的因,线性,-,对数模型的形式如下:,与前面类似,我们可用微分得到,因此,这表明,上式表明,,Y,的绝对变动量等于 乘以,X,的相对变动量。因此,线性,-,对数模型通常用于研究解释变量每变动,1%,引起的因变量的绝对变动量是多少这类问题。,线性-对数模型的形式如下: 上式表明,Y的绝对变动量等于,2.,双曲函数模型,双曲函数模型的形式为:,不难看出,这是一个仅存在变量非线性的模型,很容易用重新定义的方法将其线性化。,双曲函数模型的特点是,当,X,趋向无穷时,,Y,趋向 ,反映到图上,就是当,X,趋向无穷时,,Y,将无限靠近其渐近线(,Y =,)。,双曲函数模型通常用于描述著名的恩格尔曲线和菲利普斯曲线。,2. 双曲函数模型,3.,多项式回归模型,多项式回归模型通常用于描述生产成本函数,其一般形式为:,其中,Y,表示总成本,,X,表示产出,,P,为多项式的阶数,一般不超过四阶。,多项式回归模型中,解释变量,X,以不同幂次出现在方程的右端。这类模型也仅存在变量非线性,因而很容易线性化,可用,OLS,法估计模型。,3. 多项式回归模型,二,.,遗漏有关的解释变量,模型中遗漏了对因变量有显著影响的解释变量的后果是:将使模型参数估计量不再是无偏估计量。,三,.,包括无关的解释变量,模型中包括无关的解释变量,参数估计量仍无偏,但会增大估计量的方差,即增大误差。,注,有关上述两点结论的说明请参见教科书,P112-113,。,二. 遗漏有关的解释变量,四,.,选择解释变量的四条原则,在模型设定中的一般原则是尽量不漏掉有关的解释变量。因为估计量有偏比增大误差更严重。但如果方差很大,得到的无偏估计量也就没有多大意义了,因此也不宜随意乱增加解释变量。,在回归实践中,有时要对某个变量是否应该作为解释变量包括在方程中作出准确的判断确实不是一件容易的事,因为目前还没有行之有效的方法可供使用。尽管如此,还是有一些有助于我们进行判断的原则可用,它们是:,四. 选择解释变量的四条原则,选择解释变量的四条原则,1.,理论: 从理论上看,该变量是否应该作为解释变,量包括 在方程中?,2. t,检验:该变量的系数估计值是否显著?,3.,: 该变量加进方程中后, 是否增大?,4.,偏倚: 该变量加进方程中后,其它变量的系数,估计值是 否显著变化?,如果对四个问题的回答都是肯定的,则该变量应该包括在方程中;如果对四个问题的回答都是“否”, 则该变量是无关变量,可以安全地从方程中删掉它。这是两种容易决策的情形。,选择解释变量的四条原则如果对四个问题的回答都是肯定的,则该变,但根据以上原则判断并不总是这么简单。在很多情况下,这四项准则的判断结果会出现不一致。例如,有可能某个变量加进方程后, 增大,但该变量不显著。,在选择变量的问题上,应当坚定不移地根据理论而不是满意的拟合结果来作决定,对于是否将一个变量包括在回归方程中的问题,理论是最重要的判断准则。如果不这样做,产生不正确结果的风险很大。,在这种情况下,作出正确判断不是一件容易的事,处理的原则是将理论准则放在第一位。,但根据以上原则判断并不总是这么简单。在很多情况下,*,五、模型的选择,上一段讨论了某个解释变量应否包括在模型中的几条原则。实践中,要解决的一个问题是如何从大量的潜在解释变量的集合中选择一个最合适的子集,以得到一个正确设定的模型。,上个世纪六十年代后相当一段时间,人们使用逐步回归法来解决解释变量的选择问题。这种由计算机机械挑选变量的做法如今已不流行了。目前比较通行的做法是从少量精心设定的备选模型中选择一个。,计量经济学家就此提出了很多基于统计学的选择标准,我们这里讨论其中几种,如表,5,1,所示,。,*五、模型的选择,令,RSS,j,表示第,j,个模型(有,k,j,个解释变量)的残差平方和,并定义,为第,j,个模型的的 估计值。我们 用表示包含全部,k,个解释变量的模型的 估计值。,令RSSj表示第j个模型(有kj个解释变量)的残差平,表,5,1,选择回归模型的准则,准则 计算公式,表51 选择回归模型的准则准则,1.,准则,希尔(,Theil,)的 准则基于如下假设:所考虑的模型中有一个是正确模型。对于正确模型, ,对于不正确模型, 。因此,,,选择 最小的模型一般就能选出正确模型。由于 最小化与 最大化是一回事,我们习惯上称该准则为 最大准则。,这个准则的主要问题是,一个包括正确模型的所有解释变量但同时也包括一些无关变量的模型也会给出,,在这种情况下,我们所选择的其实并非正确模型。当备选模型包含大量无关变量时,选出正确模型的概率较低。,1. 准则,2.,基于预测的均方误差最小的三个准则,希尔的准则是基于回归的标准误差最小,下列三个准则则是基于预测的均方误差(,MSE,)最小。这三个准则是:,马娄斯(,Mallows,)的 准则,霍金(,Hocking,)的 准则,阿美米亚(,Amemiya,)的,PC,准则,假设正确的方程有,k,个解释变量,我们考虑的方程有 个解释变量,问题是如何选择,k,1,以及具体的,k,1,个解释变量的集合。在上述三个预测准则中,这是通过使的均方误差 达到最小实现的,其中 是,Y,的未来值,而 是预测值。,2. 基于预测的均方误差最小的三个准则,上述三个准则都是基于预测的均方误差最小,但在估计预测的均方误差时采用的假设有所不同,因而形成各自的计算公式,孰优孰劣,并无定论,在实践中可根据所用软件提供的输出结果选用其中一个作为模型选择的准则。具体做法是比较备选的几个模型的,、 或,PC,值,选其中最小的即可。,在三个预测准则的情况下,我们感兴趣的是改善预测的,MSE,,只要能改善,可以去掉某些变量,即便是正确模型中包括它们也在所不惜。,上述三个准则都是基于预测的均方误差最小,但在估计预测,3.,赤池信息准则(,AIC,),赤池信息准则(,Akaikes Information Criterion,AIC,)是一个更一般的准则,它可以应用于任何一个可用极大似然法估计的模型。对于我们这里的应用,,AIC,的计算公式为,与赤池信息准则类似的还有施瓦茨信息准则(,Schwarz information criterion,,,SIC,):,上述两个准则与前述准则 一样,可用于模型选择,其值也是越小越好。,3. 赤池信息准则(AIC),六,.,检验误设定的,RESET,方法,前面给出了选择解释变量的四条原则。可是,有时这些原则不能提供足够的信息使研究人员确信其设定是最恰当的,在这种情况下,可考虑使用一些更正规的检验方法来比较不同估计方程的性质。这类方法相当多,这里就不一一列出,仅介绍拉姆齐(,J. B. Ramsey,)的回归设定误差检验法(,RESET,法, Regression Specification Error Test,)。,六. 检验误设定的RESET方法,RESET,检验法的思路,RESET,检验法的思路是在要检验的回归方程中加进 等项作为解释变量,然后看结果是否有显著改善。如有,则可判断原方程存在遗漏有关变量的问题或其它的误设定问题。,直观地看,这些添加的项是任何可能的遗漏变量或错误的函数形式的替身,如果这些替身能够通过,F,检验,表明它们改善了原方程的拟合状况,则我们有理由说原方程存在误设定问题。,另一方面,等项形成多项式函数形式,多项式是一种强有力的曲线拟合装置,因而如果存在(函数形式方面的)误设定,则用这样一个装置可以很好地代表它们,。,RESET检验法的思路,RESET,检验法的步骤,拉姆齐,RESET,检验的具体步骤是:,(1),用,OLS,法估计要检验的方程,得到,(2),由上一步得到的值 (,i=1,2,n,),计算 ,然后用,OLS,法估计:,(3),用,F,检验比较两个方程的拟合情况(类似于上一章中联合假设检验采用的方法),如果两方程总体拟合情况显著不同,则我们得出原方程可能存在误设定的结论。使用的检验统计量为:,RESET检验法的步骤,其中:,RSS,M,为第一步中回归(有约束回归)的残差平方和,,RSS,为第二步中回归(无约束回归)的残差平方和,,M,为约束条件的个数,这里是,M=3,。,应该指出的是,拉姆齐,RESET,检验仅能检验误设定的存在,而不能告诉我们到底是哪一类的误设定,或者说,不能告诉我们正确的模型是什么。但该方法毕竟能给出模型误设定的信号,以便我们去进一步查找问题。另一方面,如果模型设定正确,,RESET,检验使我们能够排除误设定的存在,转而去查找其它方面的问题。,其中:RSSM为第一步中回归(有约束回归)的残差平方和,RS,第二节 多重共线性,应用,OLS,法的一个假设条件是;矩阵,X,的秩,=K+110,作为存在严重多重共线性的标准,特别在解释变量多的情形应当如此。,需要指出的是,所有,VIF,值都低,并不能排除严重多重共线性的存在,这与使用相关系数矩阵检验的情况相似。,(3)分析多重共线性的程度,四 解决多重共线性的方法,思路:加入额外信息。 具体方法有以下几种:,增加数据,对模型施加某些约束条件,删除一个或几个共线变量,将模型适当变形,1,增加数据,多重共线性实质上是数据问题,因此,增加数据就有可能消除或减缓多重共线性,具体方法包括增加观测值、利用不同的数据集或采用新的样本。,四 解决多重共线性的方法1增加数据,例:需求函数,Y,t,=,1,+,2,X,t,+,3,P,t,+ u,t,在时间序列数据中,收入(,X,)和价格(,P,)往往是高度相关的,用时间序列数据估计往往会产生多重共线性。然而,在横截面数据中,则不存在这个问题,因为某个特定时点,P,为常数。如果取一横截面样本(如从,5000,个家庭取得的数据),则可用来估计,Y,i,=,1,+,2,X,i,+ u,i,然后将得到的估计值 作为一个约束条件(,2,=,)施加于时间序列数据的回归计算中,即估计,Y,t,-,X,t,=,1,+,3,P,t,+ u,t,,得到,, 。,例:需求函数Yt = 1+2Xt+3Pt+ ut,2,对模型施加某些约束条件,在存在多重共线性的模型中,依据经济理论施加某些约束条件,将减小系数估计量的方差,如在,CobbDouglas,生产函数中加进规模效益不变的约束,可解决资本和劳动的高度相关而引起的多重共线性问题。,3,删除一个或几个共线变量,这样做,实际上就是利用给定数据估计较少的参数,从而降低对观测信息的需求,以解决多重共线性问题。删除哪些变量,可根据假设检验的结果确定。,应注意的是,这种做法可能会使得到的系数估计量产生偏倚,因而需要权衡利弊。,2对模型施加某些约束条件,4,将模型适当变形,例,1,某商品的需求函数为:,其中:,Q =,需求量,,X =,收入,,P =,该商品的价格,,P,*,=,替代商品的价格,在实际数据中,,P,和,P,*,往往呈同方向变动,它们之间高度相关,模型存在多重共线性。,如果我们仅要求在知道两种商品的相对价格变动时,对需求量进行预测,则可将需求函数变为:,就可以解决多重共线性问题。,4将模型适当变形,例,2,有滞后变量的情形,Y,t,=,1,+,2,X,t,+,3,X,t,-,1,+ u,t,一般而言,,X,t,和,X,t,1,往往高度相关,将模型变换为:,Y,t,=,1,+,2,(,X,t,-,X,t,1,),+,3,X,t,-,1,+ u,t,其中,3,=,3,+,2,经验表明:,X,t,和,X,t,1,的相关程度要远远小于和,X,t,和,X,t,1,的相关程度,因而这种变换有可能消除或减缓多重共线性。,例2有滞后变量的情形,5,主成分法,可将共线变量组合在一起形成一个综合指数,(,变量,),,用它来代表这组变量。构造综合指数的最常用方法是主成分法。主成分法的计算相当复杂,这里不做介绍。,主成分的特点是,各主成分之间互不相关,并且,用很少几个主成分就可以解释全部,X,变量的绝大部分方差,因而在出现多重共线性时,可以用主成分替代原有解释变量进行回归计算,然后再将所得到的系数还原成原模型中的参数估计值。,5主成分法 主成分的特点是,各主成分之间互不相关,五,.,处理多重共线性问题的原则,1.,多重共线性是普遍存在的,轻微的多重共线性问题可不 采取措施。,3.,如果模型仅用于预测,则只要拟合好,可不处理多重共线性问题,存在多重共线性的模型用于预测时,往往不 影响预测结果。,2.,严重的多重共线性问题,一般可根据经验或通过分析回归结果发现。如影响系数的符号,重要的解释变量,t,值很低。要根据不同情况采取必要措施。,五. 处理多重共线性问题的原则3. 如果模型仅用于预测,,(,1,),E(u,t,)=0, t=1,2,n.,扰动项均值为,0,(,2,),Cov(u,i,u,j,) = E(u,i,u,j,) =0, ij.,扰动项相互独立,(,3,),Var(u,t,) = E(u,t,) =,2,t=1,2,n.,常数方差,(,4,),u,t,N(0,2,).,正态性,对于(,1,),我们可论证其合理性。而第(,4,)条,也没有多大问题。大样本即可假定扰动项服从正态分布。而对于(,2,),(,3,)两条,则无法论证其合理性。实际问题中,这两条不成立的情况比比皆是。下面将讨论它们不成立的情况,即异方差性和自相关的情形。,第三节 异方差性,回顾我们应用,OLS,法所需假设条件,其中大部分是有关扰动项的统计假设,它们是:,(1)E(ut)=0, t=1,2,n.,一 异方差性及其后果,1,定义,若,Var(u,t,) =,=,常数的假设不成立,即,Var(u,t,) = ,常数,则称扰动项具有异方差性。,2,什么情况下可能发生异方差性问题?,解释变量取值变动幅度大时,常数方差的假设往往难以成立。异方差性主要发生在横截面数据的情况,时间序列问题中一般不会发生,除非时间跨度过大。,一 异方差性及其后果2什么情况下可能发生异方差性问题?,例:,Y,i,=,+,X,i,+ u,i,其中:,Y=,指定规模和组成的家庭每月消费支出,X=,这样的家庭的每月可支配收入,设,X,的,N,个观测值取自一个家庭可支配收入的横截面样本。某些家庭接近于勉强维持生存的水平,另一些家庭则有很高的收入。,不难设想,低收入家庭的消费支出不大可能离开他们的均值,E(Y),过远,太高无法支持,太低则消费将处于维持生存的水平之下。因此,低收入家庭消费支出额的波动应当较小,因而扰动项具有较小的方差。而高收入家庭则没有这种限制,其扰动项可能有大得多的方差。这就意味着异方差性,。,例:Yi = +Xi+ ui 不难设想,低收入家庭的,3,异方差性的后果,(,1,)参数估计量不再具有最小方差的性质,异方差性不破坏,OLS,估计量的无偏性,但不再是有效的。,事实上,异方差性的存在导致,OLS,估计量既不是有效的,也不具有渐近有效性。,这有两层含义。首先,小样本性质,BLUE,的丧失意味着存在着另外的线性无偏估计量,其抽样方差小于,OLS,估计量的方差。其次,渐近有效性这一大样本性质的丧失,意味着存在着另外的一致估计量,其抽样分布当样本容量增大时,向被估计的回归参数收缩的速度要比,OLS,估计量快。,3异方差性的后果,(,2,)系数的显著性检验,更为严重的是,在异方差性的情况下,,矩阵主对角元素不再是,OLS,估计量方差的无偏估计量,从而导致系数的置信区间和假设检验结果不可信赖。,例如在双变量模型中,如果 倾向于低估的真实方差,则置信区间可能要比实际的窄,给我们一个错误信息,好象得到的点预测值很精确。同样,在异方差性的情况下,假设检验也会以错误的结果将我们带入歧途。例如,被检验的系数实际上不是统计上显著的,而由于矩阵 的主对角元素低估了,OLS,估 计量的相应方差,检验结果却表明其显著。,(2)系数的显著性检验,二 异方差性的检验,异方差性后果的严重性意味着我们在实践中必须了解是否存在异方差性。,常用的检验方法有:,斯皮尔曼等级相关检验法,(Spearman Rank Relation test),戈德弗尔德,匡特检验法,(Goldfeld Quandt test),格里瑟检验法,(,Glesjer test,),帕克检验法,(,Park test,),怀特检验法,(Whites General Heteroscedasticity test),布鲁奇帕根检验法,(Breusch-Pagan Test),二 异方差性的检验,1.,戈德弗尔德,匡特检验法,基本思路:假定 随,Y,t,的数值大小变动。,检验步骤:,(,1,)将数据分为三组:小,Y,t,值组,中,Y,t,值组,大,Y,t,值组(数据项大致相等),(,2,)对小,Y,t,值组估计模型,给出,(,3,)对大,Y,t,值组估计模型,给出,1.戈德弗尔德匡特检验法,(,4,),H,0,:,H,1,: (或 ),检验统计量为,F,0,=,F,(,n,3,-k-1, n,1,-k-1,),若,F,0,F,c,,则拒绝,H,0,,存在异方差性。,(4) H0:,例:,S=+Y + u,其中:,S=,储蓄,Y=,收入,设,1951,60,年,,=0.01625,1970,79,年,,=0.9725,F,0,= 0.9725/0.01625=59.9,查表得,: d.f.,为(,8,,,8,)时,,5% F,c,=3.44,F,0,F,c,因而,拒绝,H,0,。,结论:存在异方差性。,例:S=+Y + u 其中:S=储蓄 Y=收入,2.,怀特检验法,(Whites General Heteroscedasticity Test),怀特提出的检验异方差性的方法在实践中用起来很方便,下面用一个三变量线性模型扼要说明其检验步骤。设模型如下:,White,检验步骤如下:,(,1,)用,OLS,法估计(,1,)式,得到残差,e,i,;,(,2,)进行如下辅助回归,即残差平方对所有原始变量、变量平方以及变量交叉积回归,得到,R,2,值,;,2. 怀特检验法(Whites General Heter,(,3,)进行假设检验,原假设,H,0,:不存在异方差性(即方程(,2,)全部,斜率系数均为零),备择假设,H,1,:存在异方差性,(,即,H,0,不成立,),怀特证明了下面的命题:,在 原假设,H,0,成立的情况下,从(,2,)式得到的,R,2,值与观测值数目(,n,)的乘积(,n R,2,)服从,自由度为,k,的,2,分布,自由度,k,为,(2),式中解释变量的个数。即,n,R,2,2,(k),因此,怀特检验的检验统计量就是,n R,2,,其抽样分布为自由度为,k,的,2,分布。,检验步骤类似于,t,检验和,F,检验。,(3)进行假设检验,例,5.7,根据,2006,年内地,31,省市的数据,研究文化娱乐支出,ama,与人均可支配收入,income,和文化娱乐价格,priceama,之间的关系,建立回归模型,得到如下估计结果:,Ama = 1661.54+ 0.135income -20.64priceama,t: (14.44) (-1.18),由于各个省市的收入差距比较大,文化娱乐支出的差距也会比较大,因此可能存在异方差性。下面通过,white,检验来判断是否存在异方差性。,例5.7 根据2006年内地31省市的数据,研究文化娱乐支,先对该模型作,OLS,回归,得到残差;,然后做如下辅助回归:,这里,X,1i,= income, X,2i,= priceama,使用,EViews,软件,得到辅助回归的 ,因此,(,3,) 检验,:不存在异方差性,:存在异方差性,查表,在,5%,的显著性水平下,自由度为,5,的 值为,11.07,,因为,11.07,,所以拒绝原假设,结论是存在异方差性。,先对该模型作OLS回归,得到残差;,3,布鲁奇,-,帕根检验法,设模型,满足扰动项均值为,0,的假设,因而,OLS,估计量无偏且一致。检验该模型是否存在异方差性的原假设为:,3布鲁奇-帕根检验法满足扰动项均值为0的假设,因而OLS估,如果 不成立,则 的期望值可以表示为诸解释变量的函数,简单的方法是假定线性函数:,其中,v,是均值为,0,的误差项。这里的因变量 是原回归方程(,5.15,)中误差项的平方。,同方差性的原假设(,5.16,)转换为:,要检验此假设,可用我们在第四章中介绍的检验全部斜率系数为,0,的,F,检验,唯一的问题是作为因变量的 无法观测,可以用原模型(,5.15,)回归得到的,OLS,残差平方和 代替之,要估计的方程变为:,如果 不成立,则 的期望值可以表示为诸解释变,相应的检验统计量为,其中 是(,5.19,)式回归得到的决定系数,以区别于原方程(,5.15,)回归的决定系数 。,我们也可以计算,LM,检验统计量来检验原假设(,5.18 ):,此检验通常称为,布鲁奇,-,帕根异方差性检验,(,BP,检验)。,相应的检验统计量为其中 是(5.19)式回归得到的决,下面总结一下,BP,检验的步骤:,(,1,)用,OLS,法估计模型(,5.15,),得到,OLS,残差序列 ,计算序列 ;,(,2,)对方程(,5.19,)执行,OLS,回归,保存该回归的,值;,(,3,)计算,F,或,LM,统计值,若大于临界值,则拒绝原假设,判断存在异方差性。,下面总结一下BP检验的步骤:,三 广义最小二乘法,1,消除异方差性的思路,基本思路:变换原模型,使经过变换后的模型具有同方差性,然后再用,OLS,法进行估计。,对于模型,Y,t,=,0,+,1,X,1t,+,k,X,kt,+ u,t,(,1,),若扰动项满足,E(u,t,) = 0,,,E(u,i,u,j,) = 0, ij,,,但,E(u,t,2,) =,t,2,常数,.,也就是说,该模型只有同方差性这一条件不满足,则只要能将具有异方差性的扰动项的方差表示成如下形式:,三 广义最小二乘法,由于,所以变换后模型的扰动项的方差为常数,可以应用,OLS,法进行估计,得到的参数估计量为,BLUE,。但这里得到的,OLS,估计量是变模后模型(,2,)的,OLS,估计量。对于原模型而言,它已不是,OLS,估计量,,称为广义最小二乘估计量(,GLS,估计量)。,其中 为一未知常数, 表示一组已知数值,则用,t,去除模型各项,得变换模型,:,其中 为一未知常数, 表示一组已知数值,则用,2,广义最小二乘法,(Generalized least squares),下面用矩阵形式的模型来推导出,GLS,估计量的一般计算公式。,设,GLS,模型为,Y,=,X,+,u,(,1,),满足,E(,u,),=,0,,,E(,uu,),=,2,,,X,非随机,,X,的秩,=K+1,n,其中,为正定矩阵。,2广义最小二乘法(Generalized least s,根据矩阵代数知识可知,对于任一正定矩阵,,存在着一个满秩(非退化,非奇异)矩阵,P,,使得,用,P,-1,左乘原模型(,1,)(对原模型进行变换):,令,Y,*,=,P,-1,Y,,,X,*,=,P,-1,X,,,u,*,=,P,-1,u,,得到,Y,*,=,X,*,+,u,*,(,2,),下面的问题是,模型(,2,)的扰动项,u,*,是否 满足,OLS,法的基本假设条件。,根据矩阵代数知识可知,对于任一正定矩阵,存在着一个满秩,我们有,我们有,这表明,模型(,2,)中的扰动项,u,*,满足,OLS,法的基本假设,可直接用,OLS,估计,估计量向量,这就是广义最小二乘估计量(,GLS,估计量) 的公式,该估计量是,BLUE,。,从上述证明过程可知,我们可将,GLS,法应用于,为任意正定矩阵的情形。,这表明,模型(2)中的扰动项u*满足OLS法的基本假设,可直,如果只存在异方差性,则,其中,我们显然有,如果只存在异方差性,则其中我们显然有,经济管理模型及财务知识分析对策课件,四、解决异方差问题的方法,1.,可行广义最小二乘法(,FGLS,法),广义最小二乘法从理论上解决了扰动项存在异方差性的情况下模型的估计问题,但在实践中是否可行呢,?,从,GLS,估计量的公式可知,要计算,GLS,估计值,我们必须知道 矩阵。而实际问题中 矩阵极少为已知。因此,在实践中直接应用,GLS,法基本上不可行。,四、解决异方差问题的方法,但在很多情况下,我们可以根据实际问题提供的信息估计 矩阵,再应用,GLS,法,这种方法称为,可行广义最小二乘法,(,Feasible Generalized Least Squares,FGLS,)。,例如在仅存在异方差性的情况下,如果在实际问题中,研究人员确信可以准确估计异方差性的结构,如扰动项方差与某个解释变量成正比,就可以采用,FGLS,法。由于,FGLS,法的核心是估计 矩阵,因此亦称为,估计的广义最小二乘法,(,Estimated Generalized Least Squares,EGLS,)。,但在很多情况下,我们可以根据实际问题提供的信息估计,FGLS,法的第一步是确定异方差性的具体形式,也就是找出决定扰动项方差与某组已知数值之间关系的函数形式,然后用这个关系得到每个扰动项方差的估计值,从而得到 矩阵的估计值 ,最后计算,FGLS,估计量 :,FGLS法的第一步是确定异方差性的具体形式,也就是找出,例,1,Y,t,=,1,+,2,X,t,+ u,t,t=1,2,n.,其中,Y=,家庭消费支出,X=,家庭可支配收入,我们在前面已分析过,高收入家庭有较大的扰动项方差,因此不妨假定扰动项方差与可支配收入成正比,即,Var(u,t,)=,X,t, t=1,2,n.,式中,是一未知常数,由于,X,t,为已知,相当于 ,而,相当于 ,因此,应用,GLS,法,即可得出,的,FGLS,估计量。,例1 Yt = 1+2Xt+ ut t=1,2,在上例中我们假设扰动项方差与解释变量的取值成正比,这种假设是否真正合理呢?根据经验和分析做出的这种假设,虽然有一定道理,但未免显得过于武断,这方面还可做一些比较细致的工作。,Glesjer,检验法不仅可检验异方差性的存在,还可用于提供有关异方差形式的进一步信息,对于确定,矩阵很有用,下面我们扼要说明格里瑟检验法的思路和步骤。,经济管理模型及财务知识分析对策课件,格里瑟检验法的思路,格里瑟检验法的思路是假定扰动项方差与解释变量之间存在幂次关系,方法是用 对被认为与扰动项方差有关的解释变量回归,确定 和该解释变量的关系。由于与该解释变量之间关系的实际形式是未知的,因此需要用该解释变量的不同幂次进行试验,选择出最佳拟合形式。,具体步骤如下:,格里瑟检验法的思路,(1),因变量,Y,对所有解释变量回归,计算残差,e,t,(,t=1,2,n,),(,2,) 对所选择解释变量的各种幂次形式回归,如,然后利用决定系数,选择拟合最佳的函数形式。,(,3,)对,1,进行显著性检验,若显著异于,0,,则表明存在异方差性,否则再试其它形式。,(1)因变量Y对所有解释变量回归,计算残差et,例,2,Y,t,=,1,+,2,X,1t,+,k,X,kt,+ u,t,假设我们根据经验知道扰动项方差与,X,jt,有关,并用,格里瑟法试验,得出:,则,在大多数应用中,由于通过矩阵运算计算相对复杂,因而对于仅存在异方差性的问题,通常采用另一种等价的方法,加权最小二乘法,(,WLS,)。,例2 Yt = 1+2X1t+k Xk,加权最小二乘法,对于仅存在异方差性的问题,其,矩阵是一个对角矩阵,即,在这种情况下应用,广义最小二乘法,也就是在原模型两端左乘,矩阵,变换,原模型,再对,变换,后的模型应用普通最小二乘法进行估计。,加权最小二乘法变换原模型,再对变换后的模型应用普通最小二乘法,这种作法实际上等价于在代数形式的原模型,Y,t,=,0,+,1,X,1 t,+,k,X,k t,+ u,t,的两端除以,t,,得,变换,模型:,相当于在回归中给,因变量和解释变量的每个观测值都赋予一个与相应,扰动项的方差相联系的权数,,然后再对这些变换后的数据进行,OLS,回归,因而被称为,加权最小二乘法,(,WLS,法, Weighted Least Squares,)。,这种作法实际上等价于在代数形式的原模型相当于在回归中给因变量,加权最小二乘法是,FGLS,法的一个特例,在,矩阵为对角矩阵这种特殊情形下,我们既可以直接应用矩阵形式的可行,广义最小二乘,估计量公式得到,FGLS,估计值,亦可避开矩阵运算,采用,加权最小二乘法,得到其,WLS,估计值,两者结果完全相同,无论你称之为,FGLS,估计值还是,WLS,估计值,二者是一码事。,例,:,其中:,Y=R&D,支出,,X=,销售额,采用美国,1988,年,18,个行业的数据估计上述方程,结果如下(括号中数字为,t,值):,加权最小二乘法是FGLS法的一个特例,在 矩,这里是横截面数据,由于行业之间的差别,可能存在,异方差性。,假设,应用,格里瑟法试验,得到,异方差性形式为:,将原模型(,1,)的两端除以 ,得,假设 应用格里瑟法试验,得到异方差性形式为:将原模型(,用,OLS,法估计(,2,)式,,结果如下(括号中数字为,t,值):,与(,1,)式的结果比较,两个方程斜率系数的估计值相差不大,但,采用,WLS,法估计的比直接用,OLS,法估计的系数更为显著。,经济管理模型及财务知识分析对策课件,2.,仍采用,OLS,法估计系数, 但采用,OLS,估计量标准误差的异方差性一致估计值代替其,OLS,估计值,怀特(,H. White,)在,1980,年提出的产生,OLS,估计量的异方差性一致标准误差的方法,为解决异方差性问题提供了另一种途径。,怀特的贡献是解决了异方差性造成系数的置信区间和假设检验结果不可信赖的问题,该后果是由于方差的,OLS,估计量不再是无偏估计量而造成的。,2. 仍采用OLS法估计系数, 但采用OLS估计量标准误差的,我们用简单线性回归模型对怀特方法作一说明。在异方差的情况下, 的方差是,可以证明, 将涉及所有的 ,而不是一个共同的 。这意味着回归软件包所报告的 作为 的方差估计值有两个错误。,第一,它用的不是方差的正确公式(,5.25,);,第二,它用 估计一个共同的 ,而事实上诸 是不同的。,我们用简单线性回归模型对怀特方法作一说明。在异方差的,怀特的方法是在(,5.25,)式中用 取代 ,这里 是第,i,个,OLS,残差,即,请注意,我们并不能用 得到 的一致估计量,因为在这种情况下,每个要估计的参数仅有一个观测值,当样本增大时,未知的的数目也在同步增加。怀特得到的是 的一致估计量,它是 的加权平均。同样的分析适用于多元回归,OLS,估计量的情况,在这种情况下,用怀特方法得到的第,K,个,OLS,回归系数的方差的异方差性一致估计值由下式给出:,怀特的方法是在(5.25)式中用 取代 ,这,其中 是从 对方程中所有其它解释变量回归得到的,OLS,残差 的平方, 为原多元回归模型的第,i,个,OLS,残差。很多回归软件包提供诸方差的怀特异方差性一致估计值以及对应的稳健,t,统计值(,robust t-statistics,)。例如,使用,EViews,,先点击,Quick,,选择,Estimate Equation,,再击,Options,,从下拉菜单中选其中的一个选项,White,,即可得到诸方差的异方差性一致估计值。,经济管理模型及财务知识分析对策课件,通过使用诸方差的怀特异方差性一致估计值代替其,OLS,估计值,我们解决了异方差性造成系数的置信区间和假设检验结果不可信赖的问题,从而也就解决了在异方差性存在的情况下能否使用,OLS,法估计方程的问题。,结论是我们仍可用,OLS,法估计方程的系数,因为尽管存在异方差性,系数的,OLS,估计量毕竟还是无偏和一致估计量,应该说还是具有良好性质的估计量。只不过方差,-,协方差矩阵不能再用,OLS,法估计,而要采用怀特之类的方法,得到一致估计量,如怀特的异方差性一致估计量。,通过使用诸方差的怀特异方差性一致估计值代替其OLS估,这类估计量的性质不是“最好”,但它们对于某些假设条件(在这里是同方差性)的违背不敏感,这类的估计量称为,稳健估计量,(,robust estimators,)。,与我们前面介绍的,FGLS,法相比,本段介绍的解决异方差性的方法的优越之处在于,不需要知道异方差性的具体形式。因此,在异方差性的基本结构未知的情况下,建议仍采用,OLS,法估计系数,而采用其方差的稳健估计量,如怀特的异方差性一致估计量。,这类估计量的性质不是“最好”,但它们对于某些假设,第四节 自相关,一 定义,若,Cov(u,i, u,j,) = E(u,i,u,j,) =0, ij,不成立,即线性回归模型扰动项的方差,协方差矩阵的非主对角线元素不全为,0,,则称为扰动项自相关,或序列相关(,Serial Correlation,)。,二 自相关的原因及后果,1,原因,自相关主要发生在时间序列数据的情形,因而亦称为序列相关,主要有以下两种原因:,第四节 自相关二 自相关的原因及后果,(,1,)冲击的延期影响(惯性),在时间序列数据的情况下,随机冲击(扰动)的影响往往持续不止一个时期。例如,地震、洪水、罢工或战争等将在发生期的后续若干期中影响经济运行。,微观经济中也与此类似,如一个工厂的产量,由于某种外部偶然因素的影响(如某种原材料的供应出了问题),该厂某周产量低于正常水平,那么,随后的一周或几周中,由于这种影响的存在或延续,产量也很可能低于正常水平(即扰动项为负)。,不难看出,观测的周期越长,这种延期影响的严重性就越小,因此,年度数据比起季度数据来,序列相关成为一个问题可能性要小。,(1)冲击的延期影响(惯性),(,2,)误设定,如果忽略了一个有关的解释变量,而该变量是自相关的,则将使扰动项自相关,不正确的函数形式也将导致同样后果。在这些情况下,解决的方法是纠正误设定。本章后面将介绍的纠正自相关的方法都不适用于这种情况的自相关。,2,后果,自相关的后果与异方差性类似。,(,1,)在扰动项自相关的情况下,尽管,OLS,估计量,仍为无偏估计量,但不再具有最小方差的性质,即不是,BLUE,。,(,2,),OLS,估计量的标准误差不再是真实标准误差,的无偏估计量,使得在自相关的情况下,无法,再信赖回归参数的置信区间或假设检验的结果。,2后果,三 自相关的检验,1,检验一阶自相关的德宾,沃森检验法(,DurbinWatson test,),(,1,)一阶自相关,自相关的最简单模式为:,其中,称为自相关系数(,-11,),这种扰动项的自相关称为一阶自相关,即扰动项仅与其前一期的值有关。,0,正自相关,0,负自相关,=0,无自相关,三 自相关的检验,在一阶自相关,模式,中,假定,t,具有以下性质:,E(,t,) = 0 , E(,t,) =,2,=,常数,,E(,i,j,)=0, i,j,t,服从正态分布。,在计量经济学中,具备上述性质的量称为白噪声(,White noise,),表示为,t,= White noise,或,t,=,白噪声,在一阶自相关模式中,假定t具有以下性质:,(,2,)德宾,沃森检验法,(Durbin,Watson d test),统计软件包和研究报告在提供回归结果时通常都给出,DW,(或,d,)统计量的值,该统计量是从,OLS,回归的残差中计算得来的,它被用于一阶自相关的检验,计算公式为:,(2)德宾沃森检验法(DurbinWatson d te,DW,和一阶自相关系数,的估计值之间存在以下近似关系(具体推导过程见书上,P135,136),:,DW 2 - 2,由于,-1 1,,因而,0 DW 4,。,不难看出,直观判断准则是,当,DW,统计量接近,2,时,则无自相关,,DW,值离,2,越远,则自相关存在的可能性越大。,DW和一阶自相关系数的估计值之间存在以下近似关系,DW,检验的缺陷,我们当然期望有一张能够给出相应的,n,、,k,和,值下各种,DW,临界值的表(就象,t,检验,,F,检验一样),使得我们可以按常规假设检验那样根据临界值作出判断。,不幸的是,,DW,统计量的分布依赖于解释变量的具体观测值(即依赖于,X,矩阵)。因此不象,t,、,F,检验那样,有一张能够给出,DW,临界值的表。,为解决这一问题,德宾,和,沃森证明,,DW,统计量的真实分布位于两个极限分布之间,这两个分布分别称为下分布和上分布,如下图所示:,DW检验的缺陷,概率,密度,下分布 上分布,0 A B C D DW,值,每个分布的,95%,临界水平用,A,,,B,,,C,,,D,表示。,每个分布的95%临界水平用A,B,C,D表示。,现假设,DW,统计量的值位于,A,的左边,则不管这种情况下的,DW,统计量服从何种分布(上,下或中间),无自相关的原假设将被拒绝。,与此类似,若,DW,统计量的值位于,D,的右边,则亦可拒绝无自相关的原假设。,若,DW,统计量的值位于,B,和,C,之间,则可接受原假设。而当,DW,统计量的值位于,A,和,B,之间或,C,和,D,之间时,则无法得出结论。上述分析可以概括为:,DW,D,存在自相关,BDW
展开阅读全文