《多重共线性》PPT课件.ppt

上传人:za****8 文档编号:13193749 上传时间:2020-06-07 格式:PPT 页数:39 大小:758.01KB
返回 下载 相关 举报
《多重共线性》PPT课件.ppt_第1页
第1页 / 共39页
《多重共线性》PPT课件.ppt_第2页
第2页 / 共39页
《多重共线性》PPT课件.ppt_第3页
第3页 / 共39页
点击查看更多>>
资源描述
第八章多重共线性,多重共线性,多重共线性及其影响多重共线性的发现和检验多重共线性的克服和处理,引子:发展农业和建筑业会减少财政收入吗?,为了分析各主要因素对财政收入的影响,建立财政收入模型:其中:CS财政收入(亿元);NZ农业增加值(亿元);GZ工业增加值(亿元);JZZ建筑业增加值(亿元);TPOP总人口(万人);CUM最终消费(亿元);SZM受灾面积(万公顷)数据样本时期1978年-2003年(资料来源:中国统计年鉴2004,中国统计出版社2004年版),财政收入模型的EViews估计结果,可决系数为0.995,校正的可决系数为0.993,模型拟合很好。模型对财政收入的解释程度高达99.5%。F统计量为632.10,说明0.05水平下回归方程整体上显著。t检验结果表明,除了工业增加值和总人口以外,其他因素对财政收入的影响均不显著。农业增加值和建筑业增加值的回归系数是负数。农业和建筑业的发展反而会使财政收入减少吗?!这样的异常结果显然与理论分析和实践经验不相符。若模型设定和数据真实性没问题,问题出在哪里呢?,模型估计与检验结果分析,一、多重共线性及其分类,多重共线性及其分类完全多重共线性近似多重共线性,多重共线性的概念,对于模型Yi=0+1X1i+2X2i+kXki+ii=1,2,n其基本假设之一是解释变量是互相独立的。,如果某两个或多个解释变量之间出现了相关性,则称为多重共线性(Multicollinearity)。,如果存在c1X1i+c2X2i+ckXki=0i=1,2,n其中:ci不全为0,则称为解释变量间存在完全共线性(perfectmulticollinearity)。,如果存在c1X1i+c2X2i+ckXki+vi=0i=1,2,n其中ci不全为0,vi为随机误差项,则称为近似共线性(approximatemulticollinearity)或交互相关(intercorrelated)。,注意:完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。但无论是解释变量之间严格的线性关系还是较严重的近似线性关系,都会给多元线性回归分析造成严重的不利影响,甚至导致回归模型完全失效。,(一)多重共线性的理论后果,OLS估计量仍保持BLUE性质(高斯-马尔科夫定理仍然成立)完全多重共线性导致参数的OLS估计量无法求出(也可以理解为方差无穷大)。近似多重共线性导致参数的OLS估计量的方差大幅提高,二、多重共线性的后果,1.虽是线性无偏且最小方差,但其方差是一个非常大的数值,故其估计的精度下降;,2.回归系数的置信区间加宽,导致接受零假设的可能性增大,从而t检验失效,3.R2可能很大,F统计值也很高;,4.最小二乘估计量及其标准差都对数据的微小变化非常敏感;5、模型预测置信区间加宽,预测方差加大,以至失去预测的意义,(二)多重共线性的实际后果(理论后果的具体表现),二、多重共线性的后果,完全多重共线性及其危害,严格多重共线性不是由于数据原因引起,通常是由于模型把有严格联系的变量引进同一个模型,或者由于虚拟变量设置不当(如陷入虚拟变量陷阱的情况)而引起的。对模型的最小二乘估计量为如果存在完全共线性,则不存在,无法得到参数的估计量。,以三变量回归模型为例:回归方程为:,则求参数最小二乘估计量的正规方程组为:,设和两个变量之间有严格的线性关系则也成立,把该关系式代入上述正规方程组中的第二个式子,可得,很显然,这个方程和原正规方程组中的第一个式子相同,这时方程组不再只有一组解而有无穷组解,这就意味着,被解释变量究竟受哪些变量的影响无法识别。完全多重共线性使多元线性回归模型的参数估计失败,回归分析无法进行。,完全多重共线性是由于在模型设定时把严格联系的变量引进同一个模型,或者是由于虚拟变量设置不当引起的。因此对完全共线性的处理比较简单,只需要针对性的修改模型,放弃和调整引起完全共线性的部分变量即可。注意,不能放弃形成线性关系的所有解释变量,否则造成解释变量缺落,使模型失去研究意义。,近似多重共线性的原因,近似多重共线性既与变量选择有关,也与数据有关。虽然由于解释变量的选择不当,把内在相关性较强的变量引进同一个模型,是导致近似多重共线性的重要原因,但近似多重共线性更经常的原因是经济数据的共同趋势。如:时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。,近似多重共线性的影响,近似多重共线性不会导致参数估计失效,最小二乘参数估计能够得到唯一解。在模型存在多重共线性的情况下,参数的最小二乘估计仍然是最小方差线性无偏估计。但参数估计量的方差的绝对水平会随着多重共线性程度的提高急剧上升。因此,强的近似多重共线性会对多元回归的有效性产生严重的不利影响。如果用记为变量的离差平方和,记为变量对其余K-1个解释变量的回归平方和,表示原模型第k个解释变量对其余K1个解释变量回归的决定系数,那么的方差可以写成,近似多重共线性的影响,如果第k个解释变量与其余K1个解释变量完全没有相关性,那么。当第k个解释变量与其他解释变量之间有相关性时,。当第k个解释变量与其他解释变量之间有很强的相关性时,接近于1,此时,(一)多重共线性问题的诊断原则:,多重共线性是一个样本问题,即使在总体中诸X变量没有逻辑和理论上的线性关系,但在具体的样本仍可能有线性关系。多重共线性的根源是解释变量之间的样本相关性,因此分析解释变量之间的样本相关性,进行单相关或多元相关性的分析检验,是发现和判断多重共线性问题的基本方法多重共线性的发现和判断是克服和处理多重共线性问题的基础。,三、多重共线性的诊断,(二)多重共线性问题的诊断方法,1、初步诊断:R2值高而显著的t比率少,2、单相关检验:检验回归元两两之间的相关系数,3、多元相关检验:检查偏相关,它只是充分条件而不是必要条件,偏相关系数不能保证对多重共线性提供一个准确的指南。,4、辅助回归:做每个解释变量对其他剩余变量的回归并计算相应的R2值。其中的每一个回归都被称为是从属或者辅助回归。,(二)多重共线性问题的诊断方法,5、容许度与方差膨胀因子,(二)多重共线性问题的诊断方法,6、其他一些方法:比如主成分分析法等,多重共线性表现形式和原因很多,并且由于数据问题导致的多重共线性具有隐蔽性,使多重共线性的发现和判断比较困难。多重共线性的发现和判断是克服和处理多重共线性问题的基础。多重共线性的根源是解释变量之间的相关性,因此分析解释变量之间的相关性,进行单相关或多元相关性的分析检验,是发现和判断多重共线性问题的基本方法。由于解释变量之间的相关性程度不一样,所以要确定模型确实存在比较严重的共线性问题就必须结合参数符号的估计、参数大小和显著性是否异常,或者参数估计是否表现出很大的不稳定性等来判断。,四、多重共线性的克服和处理,(一)增加样本容量(二)差分方程(三)模型修正(四)分步估计参数,(一)增加样本容量,由于近似多重共线性意味着对任意i都必须成立,因此若样本容量较小,近似多重共线性的可能性就较大;若样本容量大,近似多重共线性的可能性就小。但增加样本容量并不必然降低多重共线性,若增加的数据和原来的数据有基本相同的性质这时增加样本容量没有帮助。很多情况下无法增加新的样本,常见的替代方法是横截面与时间序列数据并用。(混合数据和面板数据),(二)差分方程,线性回归模型为且已知和之间存在多重共线性问题。作如下变换:改用差分方程进行回归,受多重共线性的影响比较小。,注意:用差分方程解决多重共线性问题可能会导致误差项出现序列相关。运用差分模型往往会使参数估计的方差变大,样本容量减小。如果原模型既有多重共线性问题,又有较强的一阶正自相关,那么差分方法可以同时消除多重共线性和序列相关的影响。,(二)差分方程,(三)模型修正,1、删减解释变量2、逐步回归法3、先验信息参数约束,1、删减或合并解释变量,引起多重共线性的原因中其一是在模型中引入过多的、有内在联系的解释变量,在这种情况下,如果删掉一些与其它解释变量意义相近的变量,可以起到降低多重共线性的作用。如资产和流动资产,收入和财富之间就常有很强的相关性,在他们都对被解释变量有显著影响时,可只选择其中一个。,2、逐步回归法,以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。根据拟合优度的变化决定新引入的变量是否独立。如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量;如果拟合优度变化很不显著,则说明新引入的变量与其它变量之间存在共线性关系。,3、先验信息参数约束,例:生产函数,经对数变换为:如果预先知道所研究的经济有规模报酬不变的性质,即函数中的参数满足就可以克服多重共线性。,(四)分步估计参数,例:研究需求规律的模型可以先求出下面模型中参数的估计值。前一个模型变为整理这个模型可以得到从而估计出和的估计值和,得到克服了多重共线性的回归直线,案例分析,一、研究的目的要求提出研究的问题为了规划中国未来国内旅游产业的发展,需要定量地分析影响中国国内旅游市场发展的主要因素。二、模型设定及其估计影响因素分析与确定影响因素主要有国内旅游人数X2,城镇居民人均旅游支出X3,农村居民人均旅游支出X4,并以公路里程次X5和铁路里程X6作为相关基础设施的代表理论模型的设定其中:Yt第t年全国国内旅游收入,数据的收集与处理,数据来源:中国统计年鉴2004,该模型,,,可决系数很高,F检验值173.3525,明显显著。但是当,时,、,不仅、系数的t检验不显著,而且系数的符号与预期的相反,这表明很可能存在严重的多重共线性。,OLS法估计的结果,计算各解释变量的相关系数,表明各解释变量间确实存在严重的多重共线性,消除多重共线性,采用逐步回归法检验和解决多重供线性问题。分别作Y对X2、X3、X4、X5、X6的一元回归,的大小排序为:X3、X6、X2、X5、X4。,以X3为基础,顺次加入其他变量逐步回归,过程从略,最后消除多重共线性的结果,这说明,在其他因素不变的情况下,当城镇居民人均旅游支出和农村居民人均旅游支出分别增长1元时,国内旅游收入将分别增长4.21亿元和3.22亿元。在其他因素不变的情况下,作为旅游设施的代表,公路里程每增加1万公里时,国内旅游收入将增长13.63亿元。,回归结果的解释与分析,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!