第六章-多重共线性问题ppt课件

上传人:94****0 文档编号:240689487 上传时间:2024-04-30 格式:PPT 页数:65 大小:1.28MB
返回 下载 相关 举报
第六章-多重共线性问题ppt课件_第1页
第1页 / 共65页
第六章-多重共线性问题ppt课件_第2页
第2页 / 共65页
第六章-多重共线性问题ppt课件_第3页
第3页 / 共65页
点击查看更多>>
资源描述
项目6 多重共线性问题项目6 多重共线性问题1我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l1知识目标:多重共线性的含义、原因及其后果;多重共线性的检验方法包括相关矩阵法、辅助回归模型检验、方差膨胀因子法等;多重共线性的修正包括改变模型形式、删除自变量、减少参数估计量的方差等几类方法。l2能力目标:理解多重共线性的含义;理解多重公共线产生的原因与后果;掌握多重共线性的检验方法与应用;掌握多重共线性的修正方法与应用。【学习目标】【学习目标】【学习目标】2我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物【情景写实】l经济学家在研究人们的消费水平时,发现除了收入因素外,人们的财富也是决定消费的一项重要的因素。但从收入与财富的实际数据分析,可得出两者具有很强的相关性:富有的人一般收入也较高。从理论上看收入与财富可以成为解释消费水平的两个变量,但实际却很难将收入与财富对消费水平的影响分离开来。l因此,在建立线性回归模型时,自变量之间的相关性是确定模型自变量的一个重要因素。【情景写实】经济学家在研究人们的消费水平时,发现除了收入因3我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物任务6.1 多重共线性问题概述l多元线性回归模型中假定任意自变量之间没有明确的线性关系。如果回归模型中自变量之间存在线性相关性,则称模型存在多重共线性的问题。多重共线性违背了多元回归模型的基本假定,将影响模型回归系数的普通最小二乘估计。任务6.1 多重共线性问题概述4我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l对于一个回归模型,为模型的个自变量,如果其中的某两个或多个自变量之间存在完全或准确的线性相关性,则称该模型存在多重共线性。多重共线性分为完全多重共线性与不完全多重共线性两种类型。l当自变量之间存在完全的线性相关性时,称为完全多重共线完全多重共线性性。用数学方法解释为,存在不全为零的数 ,使得下式成立:l表明模型中至少有一个自变量可以用其他自变量的线性组合表示。l当自变量之间存在近似的线性相关性时,称为不完全多重共不完全多重共线性线性。用数学方法解释为,存在不全为零的数 ,使得下式成立:l其中 为随机误差项。表明模型中至少存在一个自变量可由其它自变量的线性组合与随机误差项 共同表示。一、多重共线性的含义一、多重共线性的含义对于一个回归模型,为模型的个自变量,如5我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物【相关链接】l我国居民家庭对电力的需求模型我国居民家庭对电力的需求模型l建立一个我国居民家庭电力需求量模型,以居民人均居住面积和人均可支配收入指数为解释变量。下表是一组相关数据:【相关链接】我国居民家庭对电力的需求模型6我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l观察表中的数据发现居民年人均可支配收入指数 越高相应的人均居住面积 越大,说明两者可能存在较强的相关性。根据数据我们对 和 进行相关性分析,得出它们的相关系数为 。l将对进行回归,得到:,分析结果表明居民收入与居住面积之间有高度的线性相关性。说明以居民收入和居住面积为说明以居民收入和居住面积为解释变量的居民电力需求模型存在不完全多重解释变量的居民电力需求模型存在不完全多重共线性。共线性。观察表中的数据发现居民年人均可支配收入指数 越高相应的7我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物二、多重共线性的原因二、多重共线性的原因l在现实情况中,除了人为构造的数据以外,完全多重共线性是几乎不存在的。较常见的是不完全多重共线性的问题,也就是模型自变量之间存在近似或高度的相关性。这种多重共线性问题产生的原因可能有以下几点。二、多重共线性的原因在现实情况中,除了人为构造的数据以外,完8我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l(1)模型中所包含的一些自变量同时随时间呈 现增减变化,具有相同的时间趋势。如在经济繁 荣时期,社会的收入、消费、投资、通货膨胀率、就业率等经济因素都呈上升趋势;经济萧条时,这些因素又都呈下降趋势。说明这些基本经济因素之间存在较强的共线性,若将它们同时引入到同一个回归模型中作为自变量,会导致非常严重的多重共线性问题。l(2)数据采集的范围有限,或采集的样本量小于模型的自变量个数。如在罕见疾病的研究过程中,由于病情罕见、病因又相当复杂,而只能在少数的患者身上采集大量的变量信息。(1)模型中所包含的一些自变量同时随时间呈(2)数据采集的范9我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l(3)模型中的一些变量是另外一些变量的滞后变量。例如杜森贝利相对收入假设消费函数,其简化形式为:l其中,、分别为第 期、第 期的消费支出,为第 期的收入,为随机误差项。杜森贝利相对收入理论假设 与期的消费支出具有较强的相关性。显然,第 期的收入 与 期的消费支出 具有较强的相关性。(3)模型中的一些变量是另外一些变量的滞后变量。例如杜森贝利10我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l(4)实际中模型的一些自变量之间存在密切的关系。例如建立一个服装需求模型,模型以消费者收入与服装价格为解释变量。在现实生活中,收入较高的消费者购买的服装价格也相对较高;反之亦然。说明消费者收入与服装价格之间存在较强的线性相关性,模型存在多重共线性问题。(4)实际中模型的一些自变量之间存在密切的关系。例如建立一个11我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物三、多重共线性的后果三、多重共线性的后果l在多元回归模型中,不管存在完全多重共线性,还是不完全多重共线性,都会对模型回归系数的普通最小二乘估计产生严重的影响。下面以二元线性回归模型为例进行说明。三、多重共线性的后果在多元回归模型中,不管存在完全多重共线性12我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l(一)完全多重共线性的情况下,模型回归系数的普通最小二乘参数估计值无法确定,并且估计量的方差为无穷大。二元线性回归模型的基本形式如下:由第三章中的结论可知回归系数的普通最小二乘估计量及其方差分别为:(一)完全多重共线性的情况下,模型回归系数的普通最小二乘参数13我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l若模型存在完全多重共线性,则模型自变量 与的相关系数 ,并且存在不为零的常数,使得 ,代入上述估计量及其方差中得:l可见 无法确定,且 。同理 也无法确定,且若模型存在完全多重共线性,则模型自变量 与的相关系数 14我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物(二)不完全多重共线性情况下,对模型(二)不完全多重共线性情况下,对模型的可能产生的后果主要有以下几点:的可能产生的后果主要有以下几点:(1)不完全多重共线性问题存在的情况下,模型回归系数的普通最小二乘估计量存在,并且仍然是最优线性无偏估计量。也就是说在回归系数的所有线性无偏估计量中,普通最小二乘估计量的方差是最小的。但是方差在不完全多重共线性的影响下变大,使得估计量的可靠度降低。(二)不完全多重共线性情况下,对模型的可能产生的后果主要有以15我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l以上述的二元线性回归模型为例,回归 系数的普通最小二乘估计量的方差为:l引入方差膨胀因子方差膨胀因子(variance-inflating factor,VIF),定义为:l推广 到元回归模型中,模型回归系数估计量 的l方差为:l其中方差膨胀因子为:l其中 代表自变量变量 对其余自变量做回归模型的拟合优度。l则 的方差可表示为:以上述的二元线性回归模型为例,回归 系数的普通最小二乘估计16我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l根据方差膨胀因子 的表达式,可以看出 与 的方差成正比,能够反映估计量 的方差的增长速度。若二元回归模型存在不完全多重共线性,则自变量 与 的相关系数 。当线性相关的程度越大,即相关系数 越接近1时,方差膨胀因子 越大并趋于无穷。此时普通最小二乘估计量 的方差也迅速增大,同时趋于无穷。根据方差膨胀因子 的表达式,可以看出 与 的17我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l(2)回归系数的普通最小二乘估计量的经济含义不合理。如普通最小二乘估计量 的意义是:在自变量 维持不变的情况下,自变量 每变化一个单位时因变量 的均值的变化率。然而,模型在存在不完全多重共线性的问题时,自变量 和 是高度线性相关的。因此无法做到保持变量 不变的情况下,只变化变量 的值。也就是说此时反映的是自变量 和 对因变量 的共同影响,而不是 对 的独立影响,并且没有方法能够度量 中自变量 、对因变量的 各自影响的大小。因此,失去了原本的经济含义。(2)回归系数的普通最小二乘估计量的经济含义不合理。如普通最18我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l(3)回归模型的拟合优度 较大,但是变量的显著性检验 值变小,不显著的可能性变大。如对变量 进行显著性检验,原假设为 ,检验统计量 值为 。如前所述,当自变量 、存在高度线性相关,并且相关程度越来越高时,的方差和标准差迅速增大,从而使得 值变小,接受原假设的可能性增大,即变量无法通过显著性检验的概率增大。(3)回归模型的拟合优度 较大,但是变量的显著性检验 19我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物【相关链接】l多重共线性的后果多重共线性的后果l引用相关链接6.1中我国居民家庭电力需求模型的数据,以居民人均居住面积和人均可支配收入指数为解释变量,电力需求量为因变量建立二元回归模型,Eviews6.0运行结果如下表:【相关链接】多重共线性的后果20我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l由回归结果得到二元回归方程为:l模型的拟合优度 ,总体的 检验显著。自变量的 检验结果只有自变量 是显著的,而自变量 的显著性检验 值为 (不显著),这意味着只有收入 对居民的电力需求量 有显著影响,而人均居住面积 对电力需求量 没有显著的影响。由回归结果得到二元回归方程为:21我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物任务任务6.2 多重共线性的检验多重共线性的检验l在意识到多重共线性可能产生的后果之后,该如何解决多重共线性问题呢?这之前我们首先需要明确模型中是否存在多重共线性问题,也就是找到检验多重共线性是否确切存在的方法。在6.1节中我们以简单的二元回归模型为例,对多重共线性问题作出说明,可以发现检验二元线性回归模型的多重共线性方法比较简单,只需计算两个解释变量的相关系数,判断是否达到高度相关的程度。那么,如何检验多元线性回归模型中是否存在多重共线性,即检验是否存在两个或多个自变量存在完全或高度线性相关?这将涉及到更复杂的多个自变量之间的相关性问题。任务6.2 多重共线性的检验在意识到多重共线性可能产生的22我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物一、多重共线性的检验方法一、多重共线性的检验方法l多重共线性本质上是一种样本特征,而不是总体特征。它是基于我们对解释变量的非实验数据的研究所得出的结果,更确切地说样本决定了模型中多重共线性的程度。因此,目前检验多重共线性的多种方法,其实是基于样本数据研究的一些经验规则,并没有一种被普遍接受。下面我们主要介绍以下几种常见方法。一、多重共线性的检验方法多重共线性本质上是一种样本特征,而不23我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l考察多元线性回归模型的回归结果,如果模型的拟合优度 值很大(超过0.8),但是模型的多个或全部解释变量的 检验结果不显著,说明模型可能存在多重共线性问题。这是线性回归模型存在多重共线性问题的一个“经典”标志。如相关链接6.2中,我国居民家庭电力需求模型存在多重共线性,模型的拟合优度 ,而两个解释变量中居民人均居住面积 的 检验结果却不显著。1.值大而显著的 值比率少考察多元线性回归模型的回归结果,如果模型的拟合优度 值很24我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物2.相关矩阵法l检验多重共线性的另一种较普遍的方法是利用模型自变量的相关矩阵。对于多元线性回归模型:l则模型自变量 的相关系数矩阵为:2.相关矩阵法检验多重共线性的另一种较普遍的方法是利用模型自25我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l其中 是自变量 与 的相关系数。显然每个自变量都与自身完全相关,因此相关系数矩阵 对角线上的元素值均为1。而矩阵非对角线上的元素则包含所有自变量两两之间的相关系数,如果这些相关系数中存在部分相关系数绝对值大于0.8,说明该相关系数涉及的两个自变量之间存在高度线性关系,那么模型就存在不完全多重共线性。其中 是自变量 与26我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 但是我们仔细思考又会发现一个问题,相关系数矩阵反映的是两两自变量之间的相关程度,那么如果相关矩阵 上的所有元素的绝对值均小于0.8,能够说明该模型不存在多重共线性吗?答案是不能。这是由于矩阵 中的所有相关系数绝对值小于等于0.8,只能说明模型中所有自变量两两之间不相关,并不代表模型的三个或者三个以上的自变量之间不存在高度相关关系,因此不能说明此时模型不存在多重共线性问题。这就是相关矩阵法的局限所在。但是我们仔细思考又会发现一个问题,相关系27我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物3.辅助回归模型检验l根据多重共线性的性质,即模型中至少存在一个自变量可以由其他自变量的准确或近似线性组合表示。那么如果我们找出一个或者多个自变量与其他自变量的这种准确或近似的线性关系的话,就能l够说明模型存在多重共线性。因此,考虑做每一个自变量对其他自变量的线性回归模型,并计算出相应的拟合优度,这样的回归模型称为辅助回辅助回归模型归模型。3.辅助回归模型检验根据多重共线性的性质,即模型中至少存在一28我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l模型的形式如下:l其中 ;。辅助回归模型的拟合优度记为 。做模型中的每个自变量对其他自变量的线性回归模型,得到 个回归模型及相应的拟合优度 。如果这个回归模型中存在较大的拟合优度(大于0.8),并且模型的总体 检验显著,则说明该模型中作为因变量的 可由其他自变量的近似线性组合表示,即模型存在多重共线性问题。模型的形式如下:29我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物4.方差膨胀因子法l前面我们已经介绍了方差膨胀因子VIF,当自变量间的共线性程度越大时,VIF值也随之增大。所以有部分学者也利用方差膨胀因子来检验多重共线性问题。一般来说,当VIF10时,表明VIF涉及的两个变量存在高度线性相关,模型存在不完全多重共线性。l方差膨胀因子法是度量模型共线性程度的经验法则之一。但是这种方法也存在一定的弊端。从多元回归模型最小二乘估计量 的方差表达式可知,的值同时决定于 、VIF值的大小。那么一个高的VIF值并不代表估计量 的方差值也会高,它可以被一个较小的值 和一个较大的值 抵消掉。也就是说一个较高的方差膨胀因子,能够说明模型较高程度的多重共线性问题,但是并不一定会使得模型回归系数估计量的方差也变大。4.方差膨胀因子法前面我们已经介绍了方差膨胀因子VIF,当自30我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物二、多重共线性检验的应用二、多重共线性检验的应用l前面介绍了几种比较普遍的多重共线性检验方法,下面我们以我国旅游市场收入模型为例,运用上述几种方法检验模型中的多重共线性问题。根据研究分析,我国国内旅游收入的影响因素主要有:国内旅游人数,城镇居民人均旅游支出,农村居民人均旅游支出,公路里程,铁路里程。已知我国1994-2003年的旅游收入及相关因素的统计数据,如下表6.3所示,建立我国旅游市场收入模型,检验模型是否存在多重共线性。二、多重共线性检验的应用前面介绍了几种比较普遍的多重共线性检31我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物【相关链接】【相关链接】容容 许许 度度l我们将方差膨胀因子的倒数称为容许度容许度(tolerance,TOL),即l显然容许度值介于0和1之间。当 值越大时,相关系数 越小,说明模型中变量的共线性程度越小。反之,如果 越小,则相关系数 越大,说明模型中变量的共线性程度越大。因此,我们也可以利用容许度值来判断模型共线性程度的高低。【相关链接】32我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l利用Eviews6.0软件,以我国国内旅游收入为因变量,国内旅游人数,城镇居民人均旅游支出,农村居民人均旅游支出,公路里程,铁路里程为自变量建立多元线性回归模型,模型的回归结果为:表6.4 我国旅游市场收入模型回归结果利用Eviews6.0软件,以我国国内旅游收入为因变量,国内33我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物第六章-多重共线性问题ppt课件34我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l由表6.4的回归结果得到模型的回归方程为:由表6.4的回归结果得到模型的回归方程为:35我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物运用前面介绍的四种方法检验模型的多重共线运用前面介绍的四种方法检验模型的多重共线性:性:l方法一:方法一:值大而显著的值比率少值大而显著的值比率少 根据表6.4的回归结果可知,模型回归的拟合优度为 ,总体 的检验显著。但是模型的五个自变量的 检验中,自变量 、的回归系数不显著。并且按照现实经验,旅游收入 与 铁路里程 成正相关关系。而回归结果自变量 的回归系数为负数,与现实相反。这些现象表明模型可能存在较严重的多重共线性问题。运用前面介绍的四种方法检验模型的多重共线性:方法一:值大36我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物方法二:相关矩阵法方法二:相关矩阵法l运用Eviews6.0软件计算出模型自变量的相关系数矩阵为:从相关系数矩阵可以看出,模型中的各自变量之间普遍存在较强线性相关性,说明该模型存在较严重的多重共线性问题。方法二:相关矩阵法运用Eviews6.0软件计算出模型自变量37我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物方法三:辅助回归模型检验建立每个自变量对其他自变量的辅助回归模型得到的回归结果分别为:l(1)对 的回归方程为:l(2)对 的回归方程为:方法三:辅助回归模型检验建立每个自变量对其他自变量的辅助38我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物(3)对 的回归方程为:(4)对 的回归方程为:(3)对 的回归方程为:(4)39我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l(5)对 的回归方程为:从上述的辅助回归结果可知,除了自变量 对 的回归模型拟合优度 较小,并且模型总体没有通过 检验。其他四个回归模型的拟合优度均较高,并且模型总体均通过 检验。由此说明模型自变量 之间存在较高的线性相关性,模型存在较严重的多重共线性。(5)对 40我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物方法四:方差膨胀因子法l将方法三中得到的辅助回归模型的各拟合优度代入下式:l计算得到的方差膨胀因子值分别为:可以看出,除了 ,其余的方差膨胀因子值均大于10,表明模型中存在较严重的多重共线性问题。方法四:方差膨胀因子法将方法三中得到的辅助回归模型的各拟合优41我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物任务任务6.3 6.3 多重共线性的修正多重共线性的修正l多重共线性的检验方法主要研究了模型是否存在多重共线性以及共线性程度高低的问题。那么接下来该如何修正多重共线性呢?在研究这个问题之前,我们首先要明确多重共线性的存在对模型而言并不都是不利的。如果我们建立回归模型的目的在于预测,那么只要模型的拟合效果好,即模型的拟合优度高,这样建立良好的预测模型的目的就达到了。而多重共线性的存在并不影响预测的效果,甚至可能有所帮助。任务6.3 多重共线性的修正多重共线性的检验方法主要研究42我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l例如在我国居民电力需求模型的研究中,电力需求量Y 对居民人均居住面积 和人均收入 的回归模型拟合优度 ,模型的拟合效果非常好。而单独建立对和对的回归模型拟合优度分别为0.9881、0.9440,可见在消除多重共线性的情况下,模型的拟合效果反而下降了。因此,如果我们的目的不是仅仅为了预测,而是为了进一步建立更加准确的回归模型,就必须修正多重共线性问题。例如在我国居民电力需求模型的研究中,电力需求量Y 对居民人均43我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物一、多重共线性的修正方法一、多重共线性的修正方法l由于多重共线性是一种样本现象,是某一特定样本的特征。因此,与多重共线性的检验方法一样,多重共线性的修正也没有一个确保无误的方法,而是一些经验规则。下面介绍几类主要方法。l1.1.改变模型的形式改变模型的形式 有时模型设定不当也会产生多重共线性问题,因此我们可以通过变换模型的函数形式或自变量形式来降低多重共线性的程度。一、多重共线性的修正方法由于多重共线性是一种样本现象,是某一44我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l(1 1)变换模型的函数形式)变换模型的函数形式,例如将线性回归模型转化为对数模型或者多项式模型。l多元线性回归模型的基本形式为:l转化为对数模型:l(2)改变模型自变量的形式)改变模型自变量的形式。一般而言,对于横截面数据可以采用相对数变量,时间序列数据则采用差分变量(1)变换模型的函数形式,例如将线性回归模型转化为对数模型或45我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物la)相对数变量)相对数变量l例如,某一商品需求模型,以商品需求量 为因变量,消费者可支配收入 、商品价格 、替代商品价格 为自变量,建立多元线性回归模型:l在实际中,商品价格 与替代商品价格 往往存在高度线性关系。此时可以采用商品价格与替代商品价格的相对价格 代替价格变量。用相对数变量替换后的商品需求模型转化为:l自变量替换后,相对价格 包含了所有价格信息对商品需求量的影响,有效地消除由于商品价格与替代商品价格引起的高度多重共线性问题。a)相对数变量46我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物lb)差分变量)差分变量l对于以时间序列数据为样本的线性回归模型,将模型中所有变量进行差分后形成新变量,然后建立新的线性回归模型:l其中,。一般地,时间序列数据经过差分后的变量之间线性关系程度会大大降低。所以用差分变量代替原始变量能够降低原模型的多重共线性程度。b)差分变量47我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物【相关链接】【相关链接】l改变模型的形式改变模型的形式l运用改变模型形式的方法处理相关链接6.1中我国居民家庭电力需求模型的多重共线性问题。l(1)考虑将模型变换为对数模型,对数模型的拟合结果如下表6.3.1所示:表6.3.1 电力需求对数模型拟合结果【相关链接】改变模型的形式表6.3.1 电力需求对数模型拟合48我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l对数模型拟合方程为:,l从拟合结果,可以发现对数模型也拥有很高的拟合优度,并且自变量与的回归系数均显著。说明通过改变原模型为对数模型之后,消除了模型中由于多重共线性而引起的值不显著的后果。对数模型拟合方程为:49我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l(2)由于模型涉及1985-1997年期间我国居民家庭电力需求相关统计数据,是一组时间序列数据,因此我们可以考虑用差分变量代替原始变量建立模型,模型拟合结果如下表6.3.2所示:表6.3.2 差分变量替换后的电力需求模型拟合结果(2)由于模型涉及1985-1997年期间我国居民家庭电力需50我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物新模型回归方程为:l从上述回归结果可以发现,经过差分变量替换原始变量之后,模型的拟合优度 很低,并且模型总体以及其中一个变量没有通过显著性检验。继续考察差分变量替换后,模型自变量相关关系的变化情况。差分变量 和 的相关系数为 ,而原自变量 和 的相关系数为 ,可见原变量经过差分后,它们之间已不存在了高度线性相关性。综合以上的实例分析,结果表明运用差分变量替换原变量的方法,能够大程度的降低变量的线性相关程度,从而消除模型的多重共线性。但是需要注意的是,用差分变量替换后的新模型回归结果不一定比原模型好。因此,我们要考虑建模的目的以及模型效果等因素,决定能否应用差分变量替换方法处理多重共线性问题。新模型回归方程为:从上述回归结果可以发现,经过差分变量替换51我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物2.删除自变量l(1)删除不重要的自变量)删除不重要的自变量l如果模型中存在对因变量没有显著影响的自变量,或者该自变量对因变量的影响能够被其他自变量所替代,那么这样的自变量可以直接删除。从而减少自变量信息的重叠,减弱模型多重共线性的程度。但是需要注意的是,在删除自变量时,必须从实际经济理论分析出发,确定该自变量相对不重要或可被替代。如果自变量删除不当,将会导致模型设定误差问题,即模型未被正确设定,从而严重影响模型参数估计结果。2.删除自变量(1)删除不重要的自变量52我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l(2)逐步回归法)逐步回归法删除引起共线性的自变量删除引起共线性的自变量l多重共线性问题的本质是模型中存在完全或高度线性相关的自变量,因此处理多重共线性一个直接的思路就是删除一个或多个引起共线性的自变量。逐步回归法是常用并较有效的删除共线性自变量的方法。逐步回归法的基本思想是先将因变量对每个自变量做线性回归方程,称为基本回归方程。根据基本回归方程的回归结果判断自变量对因变量的贡献大小,将贡献最大的自变量作为基础变量。然后逐一加入其他变量进行回归,每引入一个新的变量时,都要检验新建立的模型的拟合效果是否有显著提高;并且新模型中先前引入的自变量是否显著,如果不显著就将其剔除。从而保证回归方程中均为显著变量,直到没有显著的变量可以引入模型为止。然而,逐步回归法剔除自变量时,同样需要考虑实际的经济理论,以免产生模型设定误差问题。(2)逐步回归法删除引起共线性的自变量53我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物3.3.减少参数估计量的方差减少参数估计量的方差 l(1)增加样本量)增加样本量l由于多重共线性是一种样本特征,对于不同样本建立的模型,多重共线性的严重程度也可能不同。增大样本量可能能够减轻多重共线性引起的参数估计量方差变大的后果。例如对于二元线性回归模型,回归系数估计量的方差为:l一般而言,当样本量增大时,也会增大,从而起到减小 方差的作用,增大 估计的准确度。l但是在实际研究工作中,采集更多观测信息需要花费较大的成本,并且新增观测数据的产生过程较难与原来数据的产生保持一致。3.减少参数估计量的方差(1)增加样本量54我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l(2)岭回归法)岭回归法l岭回归法是由Hoerl在1962年首先提出,并在1970年与Kennanard共同合作发展起来的一种改良的最小二乘法。它是在普通最小二乘法的基础上,牺牲其无偏性,引入偏误,从而降低参数估计量的方差,以此来处理多重共线性产生的后果。(2)岭回归法55我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l多元回归模型的普通最小二乘估计量的形式为:l岭回归法在矩阵的主对角线元素上加上一组正常数,得到回归系数的岭回归估计量为:l其中矩阵 为单位矩阵;为大于0的常数,称为岭参数 多元回归模型的普通最小二乘估计量的形式为:56我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l岭回归在矩阵 上加上了对角线为正常数的矩阵 ,降低了矩阵 的病态程度,使得参数估计量 更稳定,降低了 的方差。岭回归法主要面临的问题是怎样确定正常数 ,目前 值的估计方法有多种,下面介绍由Hoerl和Kennanard在1975年介绍的一种估计方法。岭回归在矩阵 上加上了对角线为正常数的矩阵 57我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l对于多元回归模型:l首先对模型的因变量与自变量做标准化和中心化处理,得到处理后的变量为:,l其中 ,。运用处理后的变量建立回归模型:l得到新建模型的普通最小二乘估计量为,随机误差项的方差为估计量为。则正常数的估计量取为:对于多元回归模型:58我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物4.4.其他方法其他方法l除了上述几类方法外,处理多重共线性的方法还包括先验信息法、主成分分析法等。其中先验信息法是人们利用经济理论分析或历史的经验认识,获取模型有关的参数信息,减少模型的未知信息量,从而帮助处理多重共线性问题。例如对于居民家庭电力需求模型,如果过去的多次研究结果表明居民居住面积的回归系数均保持在稳定水平,并且是统计显著的。这样一来,我们在以现有数据为基础建立模型时,可以直接利用先验信息,代入模型中,从而直接避免了多重共线性的产生。另外,主成分分析法的基本思想是将原有自变量通过线性组合的方式,形成若干个能够反映总体信息的指标,再由因变量对这些主成分进行回归,建立新模型。这些主成分由原自变量通过不同的线性组合而成,组间差异大,大大消弱了共线性的程度。主成分分析法涉及多元统计分析中的方法,因此这里不再详述。4.其他方法除了上述几类方法外,处理多重共线性的方法还包括先59我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物二、修正多重共线性的应用二、修正多重共线性的应用l继续利用6.2节中我国1994-2003年的旅游收入相关统计数据,采用逐步回归分析法处理旅游收入模型中存在的多重共线性问题。具体做法如下:l(1)找出基础变量建立因变量对每个自变量的一元回归模型:二、修正多重共线性的应用继续利用6.2节中我国1994-2060我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物从上述的一元回归模型拟合结果,可知自变量对的贡献由大到小依次为,因此选作为基础变量。从上述的一元回归模型拟合结果,可知自变量对的贡献由大到小依次61我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物(2)逐一加入其他变量l依次加入变量 ,当加入的变量使得模型的拟合优度 有显著提高,并且新模型各变量显著,则保留新变量。若新模型存在不显著的变量,则剔除该不显著变量。若 没有显著提高,但是模型各变量均显著,则继续加入其它变量。从而找到最佳回归方程,具体过程如下(2)逐一加入其他变量依次加入变量 62我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物第六章-多重共线性问题ppt课件63我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物l在变量 的基础上,引入变量 。引入后的模型拟合优度有小幅度提高,但是 并不显著。说明加入 后模型存在多重共线性,因此剔除 。继续加入变量 ,同样不显著,同理剔除 。接下来加入变量 ,模型的拟合优度提高到0.9610,并且模型变量均显著,因此保留变量 。最后加入变量 ,加入后的模型拟合优度明显增大到0.9914,各变量均显著,保留变量 。最终得到最优的回归模型为:在变量 的基础上,引入变量 。引入后的模型拟合优64我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物第六章-多重共线性问题ppt课件65
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!