《逐步回归分析》PPT课件

上传人:san****019 文档编号:16150277 上传时间:2020-09-21 格式:PPT 页数:52 大小:2.74MB
返回 下载 相关 举报
《逐步回归分析》PPT课件_第1页
第1页 / 共52页
《逐步回归分析》PPT课件_第2页
第2页 / 共52页
《逐步回归分析》PPT课件_第3页
第3页 / 共52页
点击查看更多>>
资源描述
1,第6章 逐步回归分析,多元逐步回归方法的基本思路:自动地从大量的可供选择的变量中选取最重要的变量,据以建立回归分析的预测或者解释模型。 变量选取的根据是自变量对因变量作用程度的大小:保留作用程度大的变量,剔除作用小的变量。是否选取一个变量,定量判据之一就是相关系数。假定有m 个自变量,1 个因变量(用y 表示),则全部变量(包括自变量和因变量)之间的相关系数矩阵可以表作,6.1 基本原理,根据相关系数定义一个自变量的“贡献”系数,按照贡献系数的大小决定一个自变量的去留。式中Pj表示第j 个自变量对因变量的贡献系数,Rjy 表示第j 个自变量与因变量的相关系数,Rjj 表示相关系数矩阵对角线上第j 行第j 列元素 (j=1,2,m)。,第l 步计算的贡献系数表示为,在逐步回归分析过程中,我们不仅要引入贡献最大的自变量,同时要考虑剔除贡献最小的因变量。因此,变量的存留与否又涉及到另一个统计判据F 检验。设定一个显著性水平,查F 检验表,找到F 检验的临界值F。 在第l步计算中,假如第v个自变量的贡献系数最大,数值为,根据F 检验来判断该自变量是否应该被引入模型。式中h 为尚且没有被引入模型的变量序号,v 为选出的变量对应的原始变量序号(v=1,2,m)。计算变量引入的F 值判断公式如下,式中n 为样品个数,l 为计算步骤数, 为第v 个变量第l 步的贡献系数,Ryy 为因变量的自相关系数。,如果FinF,则在这个显著性水平下,该变量可以被引入模型,否则不要引入。,在第l 步计算中,如果第v 个自变量的贡献 系数为,则可以根据F 检验来判断该自变量包括已经引入的变量是否应该被剔除。计算变量剔除的F 值判断公式如下,如果Fout F,则在这个显著性水平下,该变量应该被剔除,否则就要保留。 在整个逐步回归计算过程中,变量的引入和剔除在两端同时进行。像这样循环往复地计 算,直到所有该引入的变量都被引入,该剔除的变量均被剔除为止。,6.2.1 数据准备,6.2 计算方法,借助一个简单的实例说明逐步回归分析的方法。问题是山东省淄博市旅游业的发展分析,我们想搞清楚哪些因素影响淄博市的旅游总收入(表6-2-1)。所能考虑的因素包括:国内游客数量、海外游客数量、第三产业的发展和人均GDP 数量(m=4)。从1995 年到2004年一共10 个年份的数据(n=10)。,这些因素都与旅游业总收入具有明确的关系。而且,作为自变量,它们彼此之间也有很强的关系。如果将这四个变量全部引入模型,就会导致多重共线性的问题。为了得到简约、可靠的模型,需要借助逐步回归分析技术。,为了更为有效地说明问题,我们对表6-2-1 的变量排列顺序稍作调整(表6-2-2),利用表6-2-2 的数据,容易计算相关系数,得到矩阵如下(表6-2-3)。逐步回归计算就是从这种相关系数矩阵出发的。将这个矩阵记为,首先设定F 统计量的临界值。取显著性水平=0.05,我们有m=4个自变量,n=10个观测值。不妨取回归自由度为4、剩余自由度为n-m-1=10-4-1=5的临界值为我们引入变量的F 值下限,即取Fc(in)=5.192。另一方面,假定一个变量被淘汰,则有m=3。我们取显著性水平=0.05、回归自由度为3、剩余自由度为n-m-1=10-3-1=6的F 临界值为剔除一个变量的上限,即取Fc(out)=4.757。,这一步的计算可以分解为如下几个步骤。,6.2.2 第一轮计算,(1)计算自变量的贡献系数,(2)找出最大和最小贡献系数及其对应的变量序号,显然, 等于0.98246最大,对应的变量序号v=1。因此,首先考虑引入的变量是国内游客数量x1; 等于0.92574最小,对应的变量序号v=4。故这一步可以考虑将人均GDP即变量x4剔除。,国内游客数量这个变量是否能被引入模型,还要进行一次F 检验。对于我们的问题,n=10,现在计算第l=1步。,(3)计算变量引入和剔除的F 统计量,根据,这个数值远远大于我们设定的临界值Fc(in)=5.192,因此变量x1可以被引入模型。,接下来考虑排除贡献系数最小的变量。但是否排除,要视Fout值而定。根据上述计算结果,0.92574最小,由式下面公式,这个数值高于剔除变量的F临界值4.757, 因此第一步不能剔除。,作为对比,可以计算出所有变量的F 变化值。例如,对于第二个变量“第三产业产值”,变量引入和剔除的F 值分别为,(4)相关系数矩阵变换,将 化为,假定第v个变量在第l步被引入,则相关系数矩阵的第v个元素称为主元。矩阵变换是围绕主元进行的。相关系数矩阵的变换公式如下,式中j、k分别为相关系数矩阵的行列编号。根据这个公式,第一步应该改变非主元所在的行、 列的元素( j v, k v),第二步改变主元所在的行的元素( j = v, k v),第三步改变主元 所在的列的元素( j v, k = v),第四步改变主元本身( j = v, k = v)。,首先变换非主元所在的行和列的元素。我们的主元在第j=1行、第k=1列,故非主元所在的元素为1行、1列以外的元素。例如,其余计算依此类推。,其次改变主元所在行的元素。我们的主元在第j=1行,故改变第1行的元素。例如,再次改变主元所在列的元素。我们的主元在第k=1列,故改变第1列的元素。例如,最后改变主元所在的元素。对于本轮计 算,主元实际不变:,这样,我们得到矩阵,在这个矩阵中,第1行最后一列的元素可以用于建立一元线性回归模型。如果我们只打算引入一个关系最密切的变量,则在数据标准化的情况下,可以建立如下模型,6.2.3 第二轮计算,(1)计算自变量的贡献系数,(2)找出最大和最小贡献系数及其对应的变量序号,从上面的计算结果可以看出,不考虑已经被引入模型的第一个变量,在剩余变量中0.01305为最大,对应的变量序号v=3。因此,第二次可能引入的变量是海外游客数量x3。同时,0.00043为最小,对应的变量序号v=4,可以考虑将其剔除。,(3)计算变量引入和剔除的F统计量,海外游客数量能否被引入模型,依然需要借助F 检验判决。现在计算第l=2步,因此应有,这个数值大于我们设定的临界值Fc(in)=5.192,因此变量x3可以被引入模型。当我们引入x1的时候,F 值为448.035;现在引入x3,F 值在原来的基础上增加了20.359。,在没有被引入也没有被排除的变量中,找到最小贡献系数,考虑剔除相应的变量。但是 是否剔除,依然要视F out值而定。根据上面的计算结果,第四个变量“人均GDP”的贡献系 数0.00043最小,其F out值为,因此,这个变量可以被剔除,不再考虑它的引入。,作为对比,不妨计算所有变量的F值,例如对于 第二个变量“第三产业产值”,我们有,为方便比较,给出全部的F 变化值,以供判断之用。全部计算结果列表如下(表6-2-6)。可以看出,已经引入的x1的F out值很高,当然不能剔除。,(4)相关系数矩阵变换,将 化为,首先变换非主元所在的行和列的元素。我们的主元在第j=3行、第k=3列,故非主元所在的元 素为3行、3列以外的元素。例如,其次改变主元所在行的元素。我们的主元 现在在第j=3行,故改变第3行的元素。例如,再次改变主元所在列的元素。我们的主元在 第k=3列,故改变第1列的元素。例如,最后改变主元所在的元素,这样,我们得到相关矩阵,6.2.4 第三轮计算,基于第二个相关系数矩阵的变换结果 计算各个自变量对因变量的贡献系数,方法与前面两轮完全一样。不同的是,每一步计算都是针对新的相关系数矩阵变换结果进行的。计算的贡献系数如表6-2-8所示,这一次第二个变量“第三产业产值”的贡献系数0.00126为最大。,但是,Fin值2.33927没有达到被引入的标准,而Fout值1.94939则达到被剔除的标准。如果我们继续引入新的变量,F值的变化将会很小,或者说F值的增加量很不显著。因此,可以考虑中止引入变量的计算,不再在模型中添加其他变量。至于已经引入的变量x1和x3,其Fout值都高于临界值,无需剔除。至此,整个变量引入剔除的过程可以结束。,到此为止,根据我们的选择标准,变量的引入和剔除计算过程可以结束。整个变量引入和剔除的过程可以用框图表示如下,6.2.5 参数估计和模型建立,计算模型的回归系数,建立回归分析模型。前面的第一个相关系数变换矩阵最后一列给出了引入一个变量时的标准化回归系数:0.99119,这个数值就是第一个自变量与因变量的相关系数。第二个相关系数变换矩阵给出了引入两个变量时的标准化回归系数:0.63341 和0.37558,二者之和接近于1。 如果我们需要的仅仅是解释模型而非预测模型,则我们的建模工作可以到此为止,得到模型,如果我们需要预测模型,则需要开展计算工作,将标准化回归参数转换为非标准化的回归系数。计算过程如下。,第一步,计算原始数据的协方差。,第二步,计算非标准化回归系数。,有了协方差矩阵,结合前面的相关系数矩阵第二步变换结果 ,就可以计算非标准化回归系数。注意我们的计算是从 开始的,引入一个变量时,相关系数矩阵变换为 ;引入两个变量时,相关系数矩阵变换为 。此后不再引入变量。因此,计算回归系数需要用到l=2时的相关系数矩阵变换结果 (表6-2-7)。,非标准化回归系数计算公式为,这里b0为截距,bj为第j个回归系数,l为计算步骤的编号数我们引入两个变量,l=2, 为相关系数矩阵第l=2步变换结果的最后一列的第j个元素对应于第j个被引入的变量,cyy为协方差矩阵对角线上的最后一个元素(右下角),cjj为协方差矩阵对角线上对应于第j个被引入变量的元素,。至于未被引入的变量,回归系数以0计算。,对于上述问题,我们引进了两个变量x1=国内游客数,x3=海外游客数。可见,j=1对应于国内游客数,j=3对应于海外游客数。于是可得,6.3 利用消元法进行相关矩阵变换,利用Gauss消元法对增广矩阵进行消元变换。,在相关系数矩阵 旁边增加一个并排的 (m+1)(m+1)=55单位矩阵主元在第1行第1列,且主元为1,用第1行的元素对其他行进行消元。,6.4 回归结果检验,基本结论:第一,通过逐步回归分析过程可知,在影响淄博市旅游收入的各种变量中,最直接的因素就是国内游客数和海外游客数。其他的如第三产业产值、人均GDP 等都是间接因素。第二,从标准化回归分析模型可以看出,国内游客对旅游总收入的影响高于海外游客对旅游总收入的影响。第三,利用非标准化的回归分析模型,我们可以对未来旅游收入作一些预测。比方说,如果我们能够预测2005 年的国内游客和海外游客数,就可以估计当年的旅游总收入是多少。,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!