资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第二部分,实践中的回归分析,基本假定违背:,不满足基本假定的情况,。,(,1,)模型设定有偏误;所选模型是正确设定的,(,2,)解释变量之间存在,多重共线,性;,(,3,)随机误差项序列存在,异方差,性;,(,4,)随机误差项序列存在,序列相关,性。,所选模型是正确设定的,解释变量之间不存在完全线性关系,误差项方差为常数,误差项之间不相关,基本假定,基本假定,基本假定,基本假定,第八章 多重共线性,Multi-Collinearity,一、多重共线性的性质,二、多重共线性的实际后果,三、多重共线性的诊断,四、克服多重共线性的方法,五、案例,一、多重共线性的性质,1,、完全多重共线性,2,、近似(不完全)多重共线性,对于模型,Y,i,=,0,+,1,X,1i,+,2,X,2i,+,k,X,ki,+,i,i=1,2,n,其基本假设之一是解释变量是互相独立的。,如果某两个或多个解释变量之间出现了相关性,则称为,多重共线性,(Multicollinearity),。,完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。,一个怪模型,商场销售额,=,B,1,营业面积,+,B,2,店员人数,+,B,3,铺租,+,B,4,宣传费用,+,u,i,何以怪?,这样阐述事物,越说越乱,与其说是,“,解释,”,,毋宁是,“,蛊惑,”,生产函数的多重共线性,如果技術不变,劳动与资本投入会是等比例的。比如,每增加一部缝纫机,就要增加一个工人。此时,投入品之间是完全共线性,即等比例变化。,多途径投放广告,销售额的变动到底来自哪种广告形式,无法区分。各广告形式之间经常存在共线性。,为什么不能容忍多重共线性?,一个模型中的某个变量违背常识。比如某些积极因素被,“,算,”,成了消极因素,模型应该儘量简捷,奥卡姆剃刀:如无必要,毋增实体,产生多重共线性的背景,经济变量之间具有共同变化趋势,哲学观点:事物是普遍联繫的。联繫的紧密程度有所不同。多重共线性会经常出现,如果一个回归方程之中,幾个自变量之间具有比较强的相关性,则自变量之间可以互相解释,我们可以只留下一个自变量:,设,y=x,1,+x,2,+c,其中,,x,1,=ax,2,则,y=ax,2,+x,2,+c=(a+1)x,2,+c,模型中包含滞後变量,利用截面数据建模也可能出现多重共线性,经济学理论有“互补品”与“替代品”,样本数据自身的原因,心理学家的调查数据经常出自大学生,8.1,多重共线性的性质,The nature of,multicollinearity,表,8-1,中,x2,每上升1,,x3,会下降2,这是完全的共线性,它们之间的函数关係是,x,3,=300-2x,2,,,也就是说,,x,3,一列数字,“,完全,”,可以由,x,2,取代,反之亦然。这时,无法按表12-1中的资料对回归方程进行估计,当解释变量之间存在完全线性相关或者完全多重共线性时,我们不可能獲得所有参数的惟一估计值。既然我们不能獲得它们的惟一估计值,也就不能根据某一样本做任何统计推论,在完全多重共线性的情况下,不可能对多元回归模型中的某一单个回归系数进行估计和假设检验,如果在解释变量,X,1,,X,2,,X,k,中,存在线性关係。,解释变量间的线性关係存在时,存在不全为零的常数,这種关係为完全多重共线性,变量间的相关係数为1。实际上更多的情况是,解释变量间有不完全的线性关係:存在不全为零的数:,其中,v,i,为随机项。解释变量间存在的完全或不完全的线性关係称为多重共线性。由於经济变量自身的性质,多重共线性或强或弱,普遍存在。,假定,1,0,,8.2,接近或者不完全多重共线性的情形,The case of near,or imperfect,multicollinearity,X,4,的绝大部分信息包含在,x,2,中,,x,2,幾乎完全是重複信息,这样得到的回归方程很怪:在整体上存在较好的解释能力,但在每一个解释变量上却出现违背常识的现象,多重共线性的示意图,OLS,估计量的方差与协方差,OLS,估计量的方差与协方差提供了估计量,b,置信程度的信息。各样本间越是近似,其统计量的变异程度就越小,根据这种样本估计的参数就越准確,r,23,是,T,个,X,T2,值和,X,T3,值的相关系数,影响,b,2,的方差的因素,OLS,估计量的变异程度受什么因素影响,误差项,u,的方差,2,越大,,OLS,估计量的变异程度越大,样本量越大,,OLS,估计量的变异程度越小。,var(b,2,),公式中的,T,大,分母也大,,var(b,2,),就小,自变量对均值的变异程度越大,,OLS,估计量的变异程度越小,X,2,和,X,3,之间的相关系数越大,,b,2,的方差也越大。如果,X,2,和,X,3,完全相关,,r,23,=1,,,var(b,2,),无法计算,如果存在,c,1,X,1i,+,c,2,X,2i,+,c,k,X,ki,=0,i,=1,2,n,其中,:,c,i,不全为,0,如果,存在,c,1,X,1i,+,c,2,X,2i,+,c,k,X,ki,+,v,i,=0,i,=1,2,n,其中,c,i,不全为,0,,,v,i,为随机误差,项,1,、解释变量间存在,完全共线性,(,perfect multicollinearity,),2,、近似(,不完全、高度),共线性,(,near/imperfect/high multicollinearity,),不可能获得所有参数的唯一估计值及根据样本进行任何统计推断。,OLS,估计量仍是最优线性无偏估计量,注意:,除非是完全共线性,多重共线性并不意味着任何基本假设的违背;,因此,即使出现较高程度的多重共线性,,OLS,估计量仍具有线性性等良好的统计性质。,问题在于,,即使,OLS,法仍是最好的估计方法,它却不是“完美的”,尤其是在统计推断上无法给出真正有用的信息。,OLS,估计量仍是最优线性无偏估计量,但这不代表单个样本估计值的性质(如方差最小等),多重共线性本质上是一个样本(回归)现象。,存在不完全多重共线性,时,参数估计值的方差与标准差变大,容易使通过样本计算的,t,值小于临界值,,误导作出参数为,0,的推断,可能将重要的解释变量排除在模型之外,概念:方差膨胀因子,根据,P76,第四章有:,R,2,增加,b,2,和,b,3,的方差(或标准差)增加(或膨胀),多,重共线性使参数估计值的方差增大,,,1/(1-R,2,),为,方差膨胀因子,(Variance Inflation Factor,VIF),当,完全不共线,时,R,2,=,0,当,近似共线,时,0,R,2,8,或,10,时,多重共线性显著,且,X,i,为多餘变量,.,如果多个变量的方差膨胀因子都比较大,选最大的方差膨胀因子的变量为多餘的,.,8.6,多重共线性必定不好吗,Is,multicollinearity necessarily bad?,如果研究是为了用模型来预测解释变量的未来均值,则多重共线性本身未必是一件坏事,如果研究不仅仅是为了预测,而且还要可靠地估计所选模型的各个参数,则严重的共线性将是一件,“,坏事,”,,因为它将导致估计量的标准差增大,如果是为了比较准確地估计一组系数(例如,两个系数的和或者差),那么,即使存在多重共线性,也能够达到目的,三、多重共线性的诊断,(,1,)检验多重共线性是否存在及度量共线性的程度;,(,2,)估计多重共线性的范围,即判断哪些变量之间存在共线性。,(,1,)没有度量多重共线性的单一方法;,(,2,)具有的是一些经验法则,即是在具体应用中能够提供判断存在多重共线性的一些线索。,任务:,注意:,1,、对,多个解释变量的模型,采用综合统计检验法,若,在,OLS,法下:,R,2,与,F,值较大,但,t,检验值较小,说明各解释变量对,Y,的联合线性作用显著,但各解释变量间存在共线性而使得它们对,Y,的独立作用不能分辨,故,t,检验不显著。,三、多重共线性的诊断,R,2,值较高,但解释变量,t,值统计显著的不多。,这是共线性的典型特征,首先,检验多重共线性是否存在(,1,)(,2,),2,、对两个解释变量的模型,采用简单相关系数法,对,多个解释变量的模型,,,计算这些解释变量两两之间的相关系数,如果有些,相关系数很高,(,如超过,0.8),,,则可能认为存在较为严重的共线性,。,三、多重共线性的诊断,求出,X,1,与,X,2,的简单相关系数,r,,若,|r|,接近,1,,则说明两变量存在较强的多重共线性。,但是,这一标准并不可靠,,有时候,两两相关系数可能较低,但仍可能存在共线性。,进一步确定哪些变量引起的,3,、从属回归或辅助回归(判定系数检验法),Step1,:使模型中每一个解释变量分别以其余解释变量为解释变量进行回归(这些回归称为从属回归或辅助回归,Ste:2,:首先观察这些辅助回归相应的拟合优度(或判定系数)的大小;然后对这些辅助回归进行,F,检验,H,0,:,R,j.,2,=0,X,ji,=,1,X,1i,+,2,X,2i,+,L,X,Li,若拒绝原假设则说明,Xj,与其他解释变量之间存在显著的线性关系。,3,、从属回归或辅助回归(判定系数检验法),R,j,2,:,第,j,个解释变量对其他解释变量的回归方程的判定系数,若存在较强的共线性,R,j,2,较大且接近于,1,(,1-R,j,2,)较小,因此,给定显著性水平,,计算,F,值,并与相应的临界值比较,来判定是否存在相关性。,从而,F,j,的值较大。,四、克服多重共线性的方法,1,、排除引起共线性的变量,找出引起多重共线性的解释变量,将它排除出去。,(补充),逐步回归法:,以,Y,为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计,根据拟合优度的变化决定新引入的变量是否独立,若拟合优度变化显著,,则说明新引入的变量是一个独立解释变量;,若拟合优度变化很不显著,,则说明新引入的变量与其它变量之间存在共线性关系,两难:共线性;设定误差,2,、获取额外的数据或新的样本,3,、重新考虑模型,4,、参数的先验信息,5,、变量变换,增加样本可改善共线性问题,但有困难,四、克服多重共线性的方法,然先验信息难以获得,且其准确性易遭质疑,名义变量变为实际变量、采用变量的差分形式,作业,做在书上:,8.18.12,;,自行思考:,8.148.18,、,做在作业本上:,8.20,、,8.23,、,8.24,、,8.27,上机:,8.22,、,8.28,
展开阅读全文