资源描述
第四章多重共线性Multi-Collinearity,计量经济学,引子:国内生产总值增加会减少财政收入吗?,为了分析各主要因素对国家财政收入的影响,建立财政收入(亿元)(CZSR)为被解释变量,财政支出(亿元)(CZZC)、国内生产总值(亿元)(GDP)、税收总额(亿元)(SSZE)等为解释变量的计量模型。数据样本时期:1978年-2011年的统计数据。设定的理论模型为:采用普通最小二乘法得到以下估计结果,财政收入模型的EViews估计结果,可决系数为0.99979,校正的可决系数为0.99977,模型拟合很好。模型对财政收入的解释程度高达99.9%。F统计量为47897.29,说明0.05水平下回归方程整体上很显著。t检验结果表明,各个解释变量对财政收入的影响均显著,但是国内生产总值对财政收入的回归系数的符号为负,即经济增长反而会使财政收入减少。这显然与理论分析和实践经验不相符。为什么会出现这样的异常结果?如果模型设定和数据真实性没问题,问题会出在哪里呢?,模型估计与检验结果分析,第四章多重共线性,本章讨论五个问题:什么是多重共线性多重共线性的经济背景多重共线性产生的后果多重共线性的检验多重共线性的补救措施,一、多重共线性的含义,或者说,时,表明在数据矩阵中,至少有一个列向量可以用其余的列向量线性表示,则说明存在完全的多重共线性。,对于解释变量,如果存在不全为0的数,使得则称解释变量之间存在着完全的多重共线性,完全的多重共线性,不完全的多重共线性,,解释变量间毫无线性关系,变量间相互正交。这时已不需要作多元回归,每个参数j都可以通过Y对Xj的一元回归来估计。,二、产生多重共线性的背景,多重共线性产生的经济背景主要有几种情形:1.经济变量之间具有共同变化趋势。时间序列数据:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降横截面数据:变量变化与发展规模有关,例如在生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小2.模型中包含滞后变量。例如,消费=f(当期收入,前期收入)3.样本数据自身的原因。抽样取值有限,三、多重共线性产生的后果,如果存在完全共线性,则(XX)-1不存在,无法得到唯一的参数估计量。,1、完全共线性下参数估计量无意义,OLS估计量为:,X1和X2前的参数1、2并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响。1、2已经失去了应有的经济含义,于是经常表现出似乎反常的现象:例如1本来应该是正的,结果恰是负的。,这时,实际只能确定综合参数1+2的估计值,近似共线性下,可以得到OLS参数估计量,但参数估计量方差的表达式为,由于|XX|0,引起(XX)-1主对角线元素较大,使参数估计值的方差增大,OLS参数估计量非有效,亦会使变量的显著性检验和预测检验失去意义,2、不完全共线性下估计量方差偏大,四、多重共线性的检验,本节基本内容:简单相关系数检验法方差扩大(膨胀)因子法直观判断法逐步回归法,两个问题(1)是否存在(2)哪些变量存在?,1、简单相关系数检验法,判断规则:一般而言,如果每两个解释变量的简单相关系数(零阶相关系数)比较高,例如大于0.8,则可认为存在着较严重的多重共线性。,计算解释变量之间的相关系数或相关矩阵,注意:较高的简单相关系数只是多重共线性存在的充分条件,而不是必要条件,2、方差扩大(膨胀)因子法,统计上可以证明,,的方差可表示为,(VarianceInflationFactor),即,其中是Xj关于其余解释变量的辅助回归的可决系数,经验规则,方差膨胀因子越大,表明解释变量之间的多重共性越严重。反过来,方差膨胀因子越接近于1,多重共线性越弱。经验表明,方差膨胀因子10时,说明解释变量与其余解释变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计。,3、直观判断法,1.当增加或剔除一个解释变量,或者改变一个观测值时,回归参数的估计值发生较大变化2.一些重要的解释变量的回归系数的标准误差较大,在回归方程中没有通过显著性检验时3.有些解释变量的回归系数所带正负号与定性分析结果违背时4.模型的可决系数较高,F检验显著,回归系数的方差较大,t值较小,即在统计上均不显著。,根据经验,通常以下情况的出现可能是由于存在多重共线性,4、逐步回归检测法,逐步回归的基本思想将变量逐个的引入模型,每引入一个解释变量后,都要进行检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入而变得不再显著时,则将其剔除。以确保每次引入新的变量之前回归方程中只包含显著的变量。在逐步回归中,高度相关的解释变量,在引入时会被剔除。因而也是一种检测多重共线性的有效方法。,五、多重共线性的补救措施,本节基本内容:修正多重共线性的经验方法逐步回归法,1、修正多重共线性的经验方法,(1).剔除变量法把方差扩大因子最大者所对应的自变量首先剔除再重新建立回归方程,直至回归方程中不再存在严重的多重共线性。注意:若剔除了重要变量,可能引起模型的设定误差。,(2).增大样本容量如果样本容量增加,会减小回归参数的方差,标准误差也同样会减小。因此尽可能地收集足够多的样本数据可以改进模型参数的估计。问题:增加样本数据在实际计量分析中常面临许多困难。,(3).变换模型形式(一般适用于时间序列数据)一般而言,差分后变量之间的相关性要比差分前弱得多,所以差分后的模型可能降低出现共线性的可能性,此时可直接估计差分方程。问题:差分会丢失一些信息,差分模型的误差项可能存在序列相关,可能会违背经典线性回归模型的相关假设,在具体运用时要慎重。,(4).利用非样本先验信息通过经济理论分析能够得到某些参数之间的关系,可以将这种关系作为约束条件,将此约束条件和样本信息结合起来进行约束最小二乘估计。,(5).横截面数据与时序数据并用首先利用横截面数据估计出部分参数,再利用时序数据估计出另外的部分参数,最后得到整个方程参数的估计。注意:这里包含着假设,即参数的横截面估计和从纯粹时间序列分析中得到的估计是一样的。,(6).变量变换变量变换的主要方法:(1)计算相对指标(2)将名义数据转换为实际数据(3)将小类指标合并成大类指标(4)对数变换变量数据的变换有时可得到较好的结果,但无法保证一定可以得到很好的结果。,2、逐步回归法,(1)用被解释变量对每一个所考虑的解释变量做简单回归。(2)以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按对被解释变量贡献大小的顺序逐个引入其余的解释变量。(a)若新变量的引入改进了和检验,且回归参数的t检验在统计上也是显著的,则在模型中保留该变量。,(b)若新变量的引入未能改进和检验,且对其他回归参数估计值的t检验也未带来什么影响,则认为该变量是多余变量。(c)若新变量的引入未能改进和检验,且显著地影响了其他回归参数估计值的数值或符号,同时本身的回归参数也通不过t检验,说明出现了严重的多重共线性。(d)已被引入回归方程的变量在引入新变量后,也可能失去重要性而被剔除。,六、案例分析,一、研究的目的要求提出研究的问题为了规划中国未来国内旅游产业的发展,需要定量地分析影响中国国内旅游市场发展的主要因素。二、模型设定及其估计影响因素分析与确定影响因素主要有国内旅游人数,城镇居民人均旅游支出,农村居民人均旅游支出,并以铁路里程作为相关基础设施的代表理论模型的设定其中:第t年全国国内旅游收入,数据的收集与处理,1994年2011年中国旅游收入及相关数据,该模型,,,可决系数较高,F检验值225.85,明显显著。但是当,时,、,OLS估计的结果,不仅X5的系数不显著,而且X3、X5的符号与预期相反,这表明可能存在严重的多重共线性。,计算各解释变量的相关系数,表明各解释变量间确实存在严重的线性关系,将每个解释变量分别作为被解释变量对其余的解释变量进行辅助回归,回归所得到的可决系数和方差扩大因子的数值见下表。,经验表明,方差扩大因子VIFj10时,通常说明该解释变量与其余解释变量之间有严重的多重共线性,这里X2、X5的方差扩大因子远大于10,表明存在严重多重共线性问题。,三、消除多重共线性,将各变量进行对数变换,再对以下模型进行估计,结果:1.可决系数很高2.F检验显著性高3.系数都显著4.所有解释变量的符号都与实际意义相符,最后消除多重共线性的结果,四、回归结果的解释与分析,该模型,可决系数很高,F检验值1540.78,明显显著。所有系数估计值高度显著。,另一案例中国粮食生产函数,根据理论和经验分析,影响粮食生产(Y)的主要因素有:农业化肥施用量(X1);粮食播种面积(X2)成灾面积(X3);农业机械总动力(X4);农业劳动力(X5),已知中国粮食生产的相关数据,建立中国粮食生产函数:Y=0+1X1+2X2+3X3+4X4+4X5+u,1、用OLS法估计上述模型:,R2接近于1;给定=5%,得F临界值F0.05(5,12)=3.11F=638.415.19,故认上述粮食生产的总体线性关系显著成立。但X4、X5的参数未通过t检验,且符号不正确,故解释变量间可能存在多重共线性。,(-0.91)(8.39)(3.32)(-2.81)(-1.45)(-0.14),2、检验简单相关系数,发现:X1与X4间存在高度相关性。,列出X1,X2,X3,X4,X5的相关系数矩阵:,3、找出最简单的回归形式,可见,应选第1个式子为初始的回归模型。,分别作Y与X1,X2,X3,X4,X5间的回归:,(25.58)(11.49)R2=0.8919F=132.1DW=1.56,(-0.49)(1.14)R2=0.075F=1.30DW=0.12,(17.45)(6.68)R2=0.7527F=48.7DW=1.11,(-1.04)(2.66)R2=0.3064F=7.07DW=0.36,4、逐步回归,将其他解释变量分别导入上述初始回归模型,寻找最佳回归方程。,回归方程以Y=f(X1,X2,X3)为最优:,5、结论,第四章小结,1.多重共线性是指各个解释变量之间有准确或近似准确的线性关系。2.多重共线性的后果:如果各个解释变量之间有完全的共线性,则它们的回归系数是不确定的,并且它们的方差会无穷大。如果共线性是高度的但不完全的,回归系数可估计,但有较大的标准误差。回归系数不能准确地估计。,3.诊断共线性的经验方法:(1)表现为可决系数异常高而回归系数的t检验不显著。(2)变量之间简单相关系数。多个解释变量时,较低的零阶相关也可能出现多重共线性,需要检查偏相关系数。(4)如果高而偏相关系数低,则多重共线性是可能的。(5)用解释变量间辅助回归的可决系数判断。,4.降低多重共线性的经验方法:(1)利用外部或先验信息;(2)横截面与时间序列数据并用;(3)剔除高度共线性的变量(如逐步回归);(4)数据转换;(5)获取补充数据或新数据;(6)选择有偏估计量(如岭回归)。经验方法的效果取决于数据的性质和共线性的严重程度。,THANKS,第四章结束了!,
展开阅读全文