第八章多重共线性：解释变量相关会有什么后果(精品)

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第二部分,实践中的回归分析,基本假定违背：,不满足基本假定的情况,。,（,1,）模型设定有偏误；所选模型是正确设定的,（,2,）解释变量之间存在,多重共线,性；,（,3,）随机误差项序列存在,异方差,性；,（,4,）随机误差项序列存在,序列相关,性。,所选模型是正确设定的,解释变量之间不存在完全线性关系,误差项方差为常数,误差项之间不相关,基本假定,基本假定,基本假定,基本假定,第八章多重共线性,Multi-Collinearity,一、多重共线性的性质,二、多重共线性的实际后果,三、多重共线性的诊断,四、克服多重共线性的方法,五、案例,一、多重共线性的性质,1,、完全多重共线性,2,、近似（不完全）多重共线性,对于模型,Y,i,=,0,+,1,X,1i,+,2,X,2i,+,k,X,ki,+,i,i=1,2,n,其基本假设之一是解释变量是互相独立的。,如果某两个或多个解释变量之间出现了相关性，则称为,多重共线性,(Multicollinearity),。,完全共线性的情况并不多见，一般出现的是在一定程度上的共线性，即近似共线性。,一个怪模型,商场销售额,=,B,1,营业面积,+,B,2,店员人数,+,B,3,铺租,+,B,4,宣传费用,+,u,i,何以怪？,这样阐述事物，越说越乱，与其说是,“,解释,”,，毋宁是,“,蛊惑,”,生产函数的多重共线性,如果技術不变，劳动与资本投入会是等比例的。比如，每增加一部缝纫机，就要增加一个工人。此时，投入品之间是完全共线性，即等比例变化。,多途径投放广告，销售额的变动到底来自哪种广告形式，无法区分。各广告形式之间经常存在共线性。,为什么不能容忍多重共线性？,一个模型中的某个变量违背常识。比如某些积极因素被,“,算,”,成了消极因素,模型应该儘量简捷,奥卡姆剃刀：如无必要，毋增实体,产生多重共线性的背景,经济变量之间具有共同变化趋势,哲学观点：事物是普遍联繫的。联繫的紧密程度有所不同。多重共线性会经常出现,如果一个回归方程之中，幾个自变量之间具有比较强的相关性，则自变量之间可以互相解释，我们可以只留下一个自变量：,设,y=x,1,+x,2,+c,其中，,x,1,=ax,2,则,y=ax,2,+x,2,+c=(a+1)x,2,+c,模型中包含滞後变量,利用截面数据建模也可能出现多重共线性,经济学理论有“互补品”与“替代品”,样本数据自身的原因,心理学家的调查数据经常出自大学生,8.1,多重共线性的性质,The nature of,multicollinearity,表,8-1,中,x2,每上升1，,x3,会下降2，这是完全的共线性，它们之间的函数关係是,x,3,=300-2x,2,，,也就是说，,x,3,一列数字,“,完全,”,可以由,x,2,取代，反之亦然。这时，无法按表12-1中的资料对回归方程进行估计,当解释变量之间存在完全线性相关或者完全多重共线性时，我们不可能獲得所有参数的惟一估计值。既然我们不能獲得它们的惟一估计值，也就不能根据某一样本做任何统计推论,在完全多重共线性的情况下，不可能对多元回归模型中的某一单个回归系数进行估计和假设检验,如果在解释变量,X,1,，X,2,，X,k,中，存在线性关係。,解释变量间的线性关係存在时，存在不全为零的常数,这種关係为完全多重共线性，变量间的相关係数为1。实际上更多的情况是，解释变量间有不完全的线性关係：存在不全为零的数：,其中,v,i,为随机项。解释变量间存在的完全或不完全的线性关係称为多重共线性。由於经济变量自身的性质，多重共线性或强或弱，普遍存在。,假定,1,0，,8.2,接近或者不完全多重共线性的情形,The case of near,or imperfect,multicollinearity,X,4,的绝大部分信息包含在,x,2,中，,x,2,幾乎完全是重複信息,这样得到的回归方程很怪：在整体上存在较好的解释能力，但在每一个解释变量上却出现违背常识的现象,多重共线性的示意图,OLS,估计量的方差与协方差,OLS,估计量的方差与协方差提供了估计量,b,置信程度的信息。各样本间越是近似，其统计量的变异程度就越小，根据这种样本估计的参数就越准確,r,23,是,T,个,X,T2,值和,X,T3,值的相关系数,影响,b,2,的方差的因素,OLS,估计量的变异程度受什么因素影响,误差项,u,的方差,2,越大，,OLS,估计量的变异程度越大,样本量越大，,OLS,估计量的变异程度越小。,var(b,2,),公式中的,T,大，分母也大，,var(b,2,),就小,自变量对均值的变异程度越大，,OLS,估计量的变异程度越小,X,2,和,X,3,之间的相关系数越大，,b,2,的方差也越大。如果,X,2,和,X,3,完全相关，,r,23,=1,，,var(b,2,),无法计算,如果存在,c,1,X,1i,+,c,2,X,2i,+,c,k,X,ki,=0,i,=1,2,n,其中,:,c,i,不全为,0,如果,存在,c,1,X,1i,+,c,2,X,2i,+,c,k,X,ki,+,v,i,=0,i,=1,2,n,其中,c,i,不全为,0,，,v,i,为随机误差,项,1,、解释变量间存在,完全共线性,（,perfect multicollinearity,）,2,、近似（,不完全、高度）,共线性,（,near/imperfect/high multicollinearity,）,不可能获得所有参数的唯一估计值及根据样本进行任何统计推断。,OLS,估计量仍是最优线性无偏估计量,注意：,除非是完全共线性，多重共线性并不意味着任何基本假设的违背；,因此，即使出现较高程度的多重共线性，,OLS,估计量仍具有线性性等良好的统计性质。,问题在于,，即使,OLS,法仍是最好的估计方法，它却不是“完美的”，尤其是在统计推断上无法给出真正有用的信息。,OLS,估计量仍是最优线性无偏估计量,但这不代表单个样本估计值的性质（如方差最小等）,多重共线性本质上是一个样本（回归）现象。,存在不完全多重共线性,时,参数估计值的方差与标准差变大,容易使通过样本计算的,t,值小于临界值，,误导作出参数为,0,的推断,可能将重要的解释变量排除在模型之外,概念：方差膨胀因子,根据,P76,第四章有：,R,2,增加,b,2,和,b,3,的方差（或标准差）增加（或膨胀）,多,重共线性使参数估计值的方差增大,，,1/(1-R,2,),为,方差膨胀因子,(Variance Inflation Factor,VIF),当,完全不共线,时,R,2,=,0,当,近似共线,时,0,R,2,8,或,10,时,多重共线性显著,且,X,i,为多餘变量,.,如果多个变量的方差膨胀因子都比较大,选最大的方差膨胀因子的变量为多餘的,.,8.6,多重共线性必定不好吗,Is,multicollinearity necessarily bad?,如果研究是为了用模型来预测解释变量的未来均值，则多重共线性本身未必是一件坏事,如果研究不仅仅是为了预测，而且还要可靠地估计所选模型的各个参数，则严重的共线性将是一件,“,坏事,”,，因为它将导致估计量的标准差增大,如果是为了比较准確地估计一组系数(例如，两个系数的和或者差)，那么，即使存在多重共线性，也能够达到目的,三、多重共线性的诊断,（,1,）检验多重共线性是否存在及度量共线性的程度；,（,2,）估计多重共线性的范围，即判断哪些变量之间存在共线性。,（,1,）没有度量多重共线性的单一方法；,（,2,）具有的是一些经验法则，即是在具体应用中能够提供判断存在多重共线性的一些线索。,任务：,注意：,1,、对,多个解释变量的模型，采用综合统计检验法,若,在,OLS,法下：,R,2,与,F,值较大，但,t,检验值较小，说明各解释变量对,Y,的联合线性作用显著，但各解释变量间存在共线性而使得它们对,Y,的独立作用不能分辨，故,t,检验不显著。,三、多重共线性的诊断,R,2,值较高，但解释变量,t,值统计显著的不多。,这是共线性的典型特征,首先，检验多重共线性是否存在（,1,）（,2,）,2,、对两个解释变量的模型，采用简单相关系数法,对,多个解释变量的模型,，,计算这些解释变量两两之间的相关系数，如果有些,相关系数很高,(,如超过,0.8),，,则可能认为存在较为严重的共线性,。,三、多重共线性的诊断,求出,X,1,与,X,2,的简单相关系数,r,，若,|r|,接近,1,，则说明两变量存在较强的多重共线性。,但是，这一标准并不可靠,，有时候，两两相关系数可能较低，但仍可能存在共线性。,进一步确定哪些变量引起的,3,、从属回归或辅助回归（判定系数检验法）,Step1,：使模型中每一个解释变量分别以其余解释变量为解释变量进行回归（这些回归称为从属回归或辅助回归,Ste:2,：首先观察这些辅助回归相应的拟合优度（或判定系数）的大小；然后对这些辅助回归进行,F,检验,H,0,：,R,j.,2,=0,X,ji,=,1,X,1i,+,2,X,2i,+,L,X,Li,若拒绝原假设则说明,Xj,与其他解释变量之间存在显著的线性关系。,3,、从属回归或辅助回归（判定系数检验法）,R,j,2,:,第,j,个解释变量对其他解释变量的回归方程的判定系数,若存在较强的共线性,R,j,2,较大且接近于,1,（,1-R,j,2,）较小,因此，给定显著性水平,，计算,F,值，并与相应的临界值比较，来判定是否存在相关性。,从而,F,j,的值较大。,四、克服多重共线性的方法,1,、排除引起共线性的变量,找出引起多重共线性的解释变量，将它排除出去。,（补充）,逐步回归法：,以,Y,为被解释变量，逐个引入解释变量，构成回归模型，进行模型估计,根据拟合优度的变化决定新引入的变量是否独立,若拟合优度变化显著,，则说明新引入的变量是一个独立解释变量；,若拟合优度变化很不显著,，则说明新引入的变量与其它变量之间存在共线性关系,两难：共线性；设定误差,2,、获取额外的数据或新的样本,3,、重新考虑模型,4,、参数的先验信息,5,、变量变换,增加样本可改善共线性问题，但有困难,四、克服多重共线性的方法,然先验信息难以获得，且其准确性易遭质疑,名义变量变为实际变量、采用变量的差分形式,作业,做在书上：,8.18.12,；,自行思考：,8.148.18,、,做在作业本上：,8.20,、,8.23,、,8.24,、,8.27,上机：,8.22,、,8.28,

展开阅读全文

第八章 多重共线性：解释变量相关会有什么后果(精品)

最新文档

第八章多重共线性：解释变量相关会有什么后果(精品)