现代统计分析方法与应用课件 第七章 自变量选择与逐步回归

上传人:1666****666 文档编号:59038436 上传时间:2022-03-01 格式:PPT 页数:64 大小:1.24MB
返回 下载 相关 举报
现代统计分析方法与应用课件 第七章 自变量选择与逐步回归_第1页
第1页 / 共64页
现代统计分析方法与应用课件 第七章 自变量选择与逐步回归_第2页
第2页 / 共64页
现代统计分析方法与应用课件 第七章 自变量选择与逐步回归_第3页
第3页 / 共64页
点击查看更多>>
资源描述
2022-1-20中国人民大学六西格玛质量管理研究中心1第第7章章 自变量选择与逐步回归自变量选择与逐步回归 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心2第第7章章 自变量选择与逐步回归自变量选择与逐步回归 在建立一个实际问题的回归模型时,首先碰到的问题便是在建立一个实际问题的回归模型时,首先碰到的问题便是如何确定回归自变量,一般情况,大都是根据所研究问题如何确定回归自变量,一般情况,大都是根据所研究问题的目的,结合实际问题理论罗列出对因变量可能有影响的的目的,结合实际问题理论罗列出对因变量可能有影响的一些因素作为自变量。一些因素作为自变量。 如果遗漏了某些重要的变量,回归方程的效果肯定不会好;如果遗漏了某些重要的变量,回归方程的效果肯定不会好; 如果担心遗漏了重要的变量,而考虑过多的自变量,在这如果担心遗漏了重要的变量,而考虑过多的自变量,在这些变量中,某些自变量对问题的研究可能并不重要,有些些变量中,某些自变量对问题的研究可能并不重要,有些自变量数据的质量可能很差,有些变量可能和其他变量有自变量数据的质量可能很差,有些变量可能和其他变量有很大程度的重叠。如果回归模型把这样一些变量都选进来,很大程度的重叠。如果回归模型把这样一些变量都选进来,不仅计算量增大好多,而且得到的回归方程稳定性也很差,不仅计算量增大好多,而且得到的回归方程稳定性也很差,直接影响到回归方程的应用。直接影响到回归方程的应用。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心3第第7章章 自变量选择与逐步回归自变量选择与逐步回归从从20世纪世纪60年代开始,关于回归自变量的选年代开始,关于回归自变量的选择成为统计学中研究的热点问题。统计学家择成为统计学中研究的热点问题。统计学家们提出了许多回归选元的准则,并提出了许们提出了许多回归选元的准则,并提出了许多行之有效的选元方法。本章从回归选元对多行之有效的选元方法。本章从回归选元对回归参数估计和预测的影响开始,介绍自变回归参数估计和预测的影响开始,介绍自变量选择常用的几个准则;扼要介绍所有子集量选择常用的几个准则;扼要介绍所有子集回归选元的几个方法;详细讨论逐步回归方回归选元的几个方法;详细讨论逐步回归方法及其应用。法及其应用。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心47.1 自变量选择对估计和预测的影响 一、全模型和选模型一、全模型和选模型 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心57.1 自变量选择对估计和预测的影响 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心67.1 自变量选择对估计和预测的影响 自变量的选择我们可以看成是对一个实际问题是用(自变量的选择我们可以看成是对一个实际问题是用(7.1)式全模型还是用(式全模型还是用(7.2)式选模型去描述。如果应该用()式选模型去描述。如果应该用(7.1)式全模型去描述实际问题,而我们误选了(式全模型去描述实际问题,而我们误选了(7.2)式选模型,)式选模型,这就说明我们在建模时丢掉了一些有用的变量;如果应该这就说明我们在建模时丢掉了一些有用的变量;如果应该选用(选用(7.2)式选模型,而我们误选了模型()式选模型,而我们误选了模型(7.1)式,这就)式,这就说明我们把一些不必要的自变量引进了模型。说明我们把一些不必要的自变量引进了模型。模型选择不当会给参数估计和预测带来什么影响模型选择不当会给参数估计和预测带来什么影响?下面我们下面我们将分别给予讨论。将分别给予讨论。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心77.1 自变量选择对估计和预测的影响 二、自变量选择对预测的影响二、自变量选择对预测的影响 关于自变量选择对预测的影响可以分成两种情况考虑,关于自变量选择对预测的影响可以分成两种情况考虑,第一种情况是全模型(第一种情况是全模型(7.1)式正确而误用了选模型)式正确而误用了选模型(7.2)式;第二种情况是选模型()式;第二种情况是选模型(7.2)式正确而误用)式正确而误用了全模型(了全模型(7.1)式。以下分别考虑这两种情况对回归)式。以下分别考虑这两种情况对回归的影响。的影响。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心87.1 自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况(一)全模型正确而误用选模型的情况 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心97.1 自变量选择对估计和预测的影响 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心107.1 自变量选择对估计和预测的影响 性质性质1和性质和性质2表明,当全模型(表明,当全模型(9.1)式正确时,而我们舍)式正确时,而我们舍去了去了m - p个自变量,用剩下的个自变量,用剩下的p个自变量去建立选模型个自变量去建立选模型(9.2)式,参数估计值是全模型相应参数的有偏估计,用)式,参数估计值是全模型相应参数的有偏估计,用其作预测,预测值也是有偏的。这是误用选模型产生的弊其作预测,预测值也是有偏的。这是误用选模型产生的弊端。端。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心117.1 自变量选择对估计和预测的影响 性质性质3和性质和性质4表明,用选模型去作预测,残差的方表明,用选模型去作预测,残差的方差比用全模型去作预测的方差小,尽管用选模型所差比用全模型去作预测的方差小,尽管用选模型所作的预测是有偏的,但得到的预测偏差的方差下降作的预测是有偏的,但得到的预测偏差的方差下降了。这说明尽管全模型正确,误用选模型是有弊也了。这说明尽管全模型正确,误用选模型是有弊也有利的。有利的。性质性质5说明即使全模型正确,但如果其中有一些自说明即使全模型正确,但如果其中有一些自变量对因变量影响很小或回归系数方差过大,我们变量对因变量影响很小或回归系数方差过大,我们丢掉这些变量之后,用选模型去预测,可以提高预丢掉这些变量之后,用选模型去预测,可以提高预测的精度。由此可见,如果模型中包含了一些不必测的精度。由此可见,如果模型中包含了一些不必要的自变量,模型的预测精度就会下降。要的自变量,模型的预测精度就会下降。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心127.1 自变量选择对估计和预测的影响 (二)(二) 选模型正确而误用全模型的情况选模型正确而误用全模型的情况 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心137.1 自变量选择对估计和预测的影响 一个好的回归模型,并不是考虑的自变量越多越好。在建一个好的回归模型,并不是考虑的自变量越多越好。在建立回归模型时,选择自变量的基本指导思想是立回归模型时,选择自变量的基本指导思想是“少而精少而精”。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心147.1 自变量选择对估计和预测的影响 哪怕我们丢掉了一些对因变量哪怕我们丢掉了一些对因变量y还有些影响的自变量,由选还有些影响的自变量,由选模型估计的保留变量的回归系数的方差,要比由全模型所估模型估计的保留变量的回归系数的方差,要比由全模型所估计的相应变量的回归系数的方差小。而且,对于所预测的因计的相应变量的回归系数的方差小。而且,对于所预测的因变量的方差来说也是如此。丢掉了一些对因变量变量的方差来说也是如此。丢掉了一些对因变量y有影响的有影响的自变量后,所付出的代价是估计量产生了有偏性。自变量后,所付出的代价是估计量产生了有偏性。然而,尽管估计量是有偏的,但预测偏差的方差会下降。另然而,尽管估计量是有偏的,但预测偏差的方差会下降。另外,如果保留下来的自变量有些对因变量无关紧要,那么,外,如果保留下来的自变量有些对因变量无关紧要,那么,方程中包括这些变量会导致参数估计和预测的有偏性和精度方程中包括这些变量会导致参数估计和预测的有偏性和精度降低。降低。自变量的选择有重要的实际意义。在建立实际问题的回归模自变量的选择有重要的实际意义。在建立实际问题的回归模型时,我们应尽可能剔除那些可有可无的自变量。型时,我们应尽可能剔除那些可有可无的自变量。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心157.2 所有子集回归所有子集回归一、所有子集的数目一、所有子集的数目 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心167.2 所有子集回归所有子集回归二、关于自变量选择的几个准则二、关于自变量选择的几个准则 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心177.2 所有子集回归所有子集回归在第五章,曾从数据与模型拟合优劣的直观考虑出发,认为在第五章,曾从数据与模型拟合优劣的直观考虑出发,认为残差平方和残差平方和SSE最小的回归方程就是最好的。还曾用复相关最小的回归方程就是最好的。还曾用复相关系数系数R来衡量回归拟合的好坏。来衡量回归拟合的好坏。但是当自变量子集在扩大时,残差平方和随之减少,而复判但是当自变量子集在扩大时,残差平方和随之减少,而复判定系数随之增大定系数随之增大 。如果按残差平方和越小越好的原则来选择自变量子集,或者如果按残差平方和越小越好的原则来选择自变量子集,或者为提高复相关系数,不论什么变量只要多取就行,则毫无疑为提高复相关系数,不论什么变量只要多取就行,则毫无疑问选的变量越多越好。这样由于变量的多重共线性,给变量问选的变量越多越好。这样由于变量的多重共线性,给变量的回归系数估计值带来不稳定性,加上变量的测量误差积累,的回归系数估计值带来不稳定性,加上变量的测量误差积累,参数数目的增加,将使估计值的误差增大。如此构造的回归参数数目的增加,将使估计值的误差增大。如此构造的回归模型稳定性差,使得为增大复相关系数模型稳定性差,使得为增大复相关系数R而付出了模型参数而付出了模型参数估计稳定性差的代价。估计稳定性差的代价。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心187.2 所有子集回归所有子集回归残差平方和、复相关系数或样本决定系数都不能作为选择变残差平方和、复相关系数或样本决定系数都不能作为选择变量的准则。量的准则。下面从不同的角度给出几个常用的准则。下面从不同的角度给出几个常用的准则。准则准则1 自由度调整复相关系数达到最大。自由度调整复相关系数达到最大。 准则准则2 赤池信息量赤池信息量AIC达到最小。达到最小。 上面我们从不同角度介绍了三个准则,自变量选择的准则上面我们从不同角度介绍了三个准则,自变量选择的准则还有一些,就不一一列举了。下面用一个例子,对所有回还有一些,就不一一列举了。下面用一个例子,对所有回归子集计算上述归子集计算上述3个准则,综合比较一下个准则,综合比较一下“最优最优”回归子集回归子集的选择。的选择。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心197.2 所有子集回归所有子集回归 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心207.2 所有子集回归所有子集回归 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心217.2 所有子集回归所有子集回归因为这个实际问题所涉及的自变量本来就较少,只有因为这个实际问题所涉及的自变量本来就较少,只有3个,所以从几个准则看到全模型是个,所以从几个准则看到全模型是“最优最优”的。这种情的。这种情况在自变量只有少数几个时是常见的,但当涉及的自变况在自变量只有少数几个时是常见的,但当涉及的自变量数目较多时,很少见到全模型是最优的。量数目较多时,很少见到全模型是最优的。我们讲的最优是相对而言,在实际问题的选模中,应综我们讲的最优是相对而言,在实际问题的选模中,应综合考虑,或根据实际问题的研究目的从不同最优角度来合考虑,或根据实际问题的研究目的从不同最优角度来考虑。考虑。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心227.2 所有子集回归所有子集回归如有时希望模型各项衡量准则较优,得到的模型又能如有时希望模型各项衡量准则较优,得到的模型又能给出合理的经济解释;有时只从拟合角度考虑;有时给出合理的经济解释;有时只从拟合角度考虑;有时只从预测角度考虑,并不计较回归方程能否有个合理只从预测角度考虑,并不计较回归方程能否有个合理解释;有时要求模型的各个衡量准则较优,而模型最解释;有时要求模型的各个衡量准则较优,而模型最好简单些,涉及变量少些;有时还看回归模型参数估好简单些,涉及变量少些;有时还看回归模型参数估计的标准误差大小等。因此,上述一些准则只给了我计的标准误差大小等。因此,上述一些准则只给了我们选择模型的一些参考,最终的选择既应依上述几个们选择模型的一些参考,最终的选择既应依上述几个准则作基本参考根据,又要考虑实际问题的性质和需准则作基本参考根据,又要考虑实际问题的性质和需要。要。三、用三、用SAS软件寻找最优子集软件寻找最优子集 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心237.2 所有子集回归所有子集回归利用利用sas软件得部分结果软件得部分结果 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心247.2 所有子集回归所有子集回归 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心257.2 所有子集回归所有子集回归 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心267.2 所有子集回归所有子集回归 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心277.3 逐步回归逐步回归 一、问题的提出及逐步回归的思想一、问题的提出及逐步回归的思想当可供选择的自变量不太多时,用前边当可供选择的自变量不太多时,用前边j讲过的方法可以求讲过的方法可以求出一切可能的回归方程,然后用几个选元准则去挑出出一切可能的回归方程,然后用几个选元准则去挑出“最好最好”的方程,但是当自变量的个数较多时,要求出所有可能的回的方程,但是当自变量的个数较多时,要求出所有可能的回归方程是非常困难的。归方程是非常困难的。 为此,人们提出了一些较为简便、实用、快速的选择为此,人们提出了一些较为简便、实用、快速的选择“最优最优”方程的方法。方程的方法。1、前进法、前进法前进法的思想是变量由少到多,每次增加一个,直至没有可前进法的思想是变量由少到多,每次增加一个,直至没有可引入的变量为止。引入的变量为止。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心287.3 逐步回归逐步回归 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心297.3 逐步回归逐步回归 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心307.3 逐步回归逐步回归 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心317.3 逐步回归逐步回归 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心327.3 逐步回归逐步回归 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心337.3 逐步回归逐步回归 2、后退法、后退法后退法与前进法相反,首先用全部后退法与前进法相反,首先用全部m个变量建立一个回归方程,个变量建立一个回归方程,然后在这然后在这m个变量中选择一个最不重要的变量,将它从方程中个变量中选择一个最不重要的变量,将它从方程中剔除。在第剔除。在第4章的回归系数的显著性检验中,用的就是这种思章的回归系数的显著性检验中,用的就是这种思想,把回归系数检验的想,把回归系数检验的F值最小者对应的自变量剔除值最小者对应的自变量剔除 。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心347.3 逐步回归逐步回归 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心357.3 逐步回归逐步回归 前进法和后退法显然都有明显的不足。前进法可能存在这样前进法和后退法显然都有明显的不足。前进法可能存在这样的问题,即不能反映引进新的自变量后的变化情况。因为某的问题,即不能反映引进新的自变量后的变化情况。因为某个自变量开始可能是显著的,但当引入其他自变量后它变得个自变量开始可能是显著的,但当引入其他自变量后它变得并不显著了,但是也没有机会将其剔除,即一旦引入,就是并不显著了,但是也没有机会将其剔除,即一旦引入,就是“终身终身”的。这种只考虑引入,而没有考虑剔除的做法显然的。这种只考虑引入,而没有考虑剔除的做法显然是不全面的。而且,我们在许多例子中会发现可能最先引入是不全面的。而且,我们在许多例子中会发现可能最先引入的某个自变量,当其他自变量相继引入后,它会变得对因变的某个自变量,当其他自变量相继引入后,它会变得对因变量量y很不显著。很不显著。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心367.3 逐步回归逐步回归 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心377.3 逐步回归逐步回归 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心387.3 逐步回归逐步回归 后退法的明显不足是,一开始把全部自变量引入回归方程,这后退法的明显不足是,一开始把全部自变量引入回归方程,这样计算量很大。如果有些自变量不太重要,一开始就不引入,样计算量很大。如果有些自变量不太重要,一开始就不引入,就可减少一些计算量。再就是一旦某个自变量被剔除,就可减少一些计算量。再就是一旦某个自变量被剔除,“一棍一棍子就把它打死了子就把它打死了”,它再也没有机会重新进入回归方程。,它再也没有机会重新进入回归方程。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心397.3 逐步回归逐步回归 然而在实际中很难碰到自变量间真正无关的情况,尤其是然而在实际中很难碰到自变量间真正无关的情况,尤其是经济问题中,所研究的绝大部分问题,自变量间都有一定经济问题中,所研究的绝大部分问题,自变量间都有一定的相关性。这就会使得随着回归方程中变量的增加和减少,的相关性。这就会使得随着回归方程中变量的增加和减少,某些自变量对回归方程的影响也会发生变化。这是因为自某些自变量对回归方程的影响也会发生变化。这是因为自变量间的不同组合,由于它们相关的原因,对因变量变量间的不同组合,由于它们相关的原因,对因变量y 的影的影响可能大不一样。如果几个自变量的联合效应对响可能大不一样。如果几个自变量的联合效应对y有重要作有重要作用,但是单个自变量对用,但是单个自变量对y的作用都不显著,那么前进法就不的作用都不显著,那么前进法就不能引入这几个自变量,而后退法却可以保留这几个自变量,能引入这几个自变量,而后退法却可以保留这几个自变量,这是后退法的一个优点。这是后退法的一个优点。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心407.3 逐步回归逐步回归 从前进法和后退法的思想及方法,以及我们看到它们的不足,人从前进法和后退法的思想及方法,以及我们看到它们的不足,人们比较自然地想构造一种方法,吸收前进法和后退法的优点,克们比较自然地想构造一种方法,吸收前进法和后退法的优点,克服它们的不足,把两者结合起来,这就有了逐步回归的思想。服它们的不足,把两者结合起来,这就有了逐步回归的思想。二、逐步回归法二、逐步回归法逐步回归的基本思想是逐步回归的基本思想是“有进有出有进有出”。具体做法是将变量一个一。具体做法是将变量一个一个引入,当每引入一个自变量后,对已选入的变量要进行逐个检个引入,当每引入一个自变量后,对已选入的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,要验,当原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除。引入一个变量或从回归方程中剔除一个变量,为逐步将其剔除。引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行回归的一步,每一步都要进行F检验,以确保每次引入新的变量检验,以确保每次引入新的变量之前回归方程中只包含显著的变量。这个过程反复进行,直到既之前回归方程中只包含显著的变量。这个过程反复进行,直到既无显著的自变量选入回归方程,也无不显著自变量从回归方程中无显著的自变量选入回归方程,也无不显著自变量从回归方程中剔除为止。剔除为止。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心417.3 逐步回归逐步回归 逐步回归的计算实施过程可以利用逐步回归的计算实施过程可以利用SPSS软件在计算机上自动软件在计算机上自动完成,我们要求关心应用的读者一定要通过前边的叙述掌握完成,我们要求关心应用的读者一定要通过前边的叙述掌握逐步回归方法的思想,这样才能用对用好逐步回归。逐步回归方法的思想,这样才能用对用好逐步回归。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心427.3 逐步回归逐步回归 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心437.3 逐步回归逐步回归 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心447.3 逐步回归逐步回归 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心457.3 逐步回归逐步回归 从逐步回归模型的结果来看,从逐步回归模型的结果来看,x8教育事业费支出对地区生产教育事业费支出对地区生产总值的提高有正的促进作用,加大教育事业费的支出可以极总值的提高有正的促进作用,加大教育事业费的支出可以极大的促进地区经济的发展;大的促进地区经济的发展;x13城市维护费支出对地区生产城市维护费支出对地区生产总值的提高也有正的促进作用,提高城市形象和加大基础设总值的提高也有正的促进作用,提高城市形象和加大基础设施建设才能吸引更多投资,进而促进地区经济的发展;施建设才能吸引更多投资,进而促进地区经济的发展; 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心467.3 逐步回归逐步回归 x10卫生经费支出对地区生产总值的提高起了负的作用,卫卫生经费支出对地区生产总值的提高起了负的作用,卫生经费支出的绩效难以衡量,其所提供的商品或劳务,不可生经费支出的绩效难以衡量,其所提供的商品或劳务,不可能以任何形式进入市场交换,也就不能创造直接的经济收益,能以任何形式进入市场交换,也就不能创造直接的经济收益,而且卫生经费支出是为国家创造或改善生产条件、增进社会而且卫生经费支出是为国家创造或改善生产条件、增进社会福利,满足人民卫生需要,更多的是体现了一种社会公平,福利,满足人民卫生需要,更多的是体现了一种社会公平,最主要的是我国人均卫生经费远远低于世界平均水平,在近最主要的是我国人均卫生经费远远低于世界平均水平,在近几年赶超世界平均水平过程中出现大量缺口,当前形势就是几年赶超世界平均水平过程中出现大量缺口,当前形势就是卫生经费支出大于卫生条件的提高所带来的经济收益;卫生经费支出大于卫生条件的提高所带来的经济收益; x2企业挖潜改造资金对地区生产总值的提高也起了负的作用,企业挖潜改造资金对地区生产总值的提高也起了负的作用,企业的改造所带来的经济效益不会短期内有较明显的效果,企业的改造所带来的经济效益不会短期内有较明显的效果,具有一定的延迟性,当年的表现就是支出大于收入。具有一定的延迟性,当年的表现就是支出大于收入。有时为了方便回归方程的实际解释可在逐步回归的几个子方有时为了方便回归方程的实际解释可在逐步回归的几个子方程中选择某个作为最终方程。程中选择某个作为最终方程。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心477.3 逐步回归逐步回归 逐步回归的选元过程是逐步回归方法的有进逐步回归的选元过程是逐步回归方法的有进有出的思想。这种有进有出的结果说明自变有出的思想。这种有进有出的结果说明自变量之间具有相关性,如果自变量之间是完全量之间具有相关性,如果自变量之间是完全不相关的,那么引入的自变量就不会再被剔不相关的,那么引入的自变量就不会再被剔除,而剔除的自变量也就不会再被引入,这除,而剔除的自变量也就不会再被引入,这时逐步回归方法与前进法的结果是相同的。时逐步回归方法与前进法的结果是相同的。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心487.4 实例与评注实例与评注 一、逐步回归实例分析一、逐步回归实例分析例例7.5 为了研究香港股市的变化规律,此为了研究香港股市的变化规律,此例以恒生指数为例,建立回归方程,分例以恒生指数为例,建立回归方程,分析影响股票价格趋势变动的因素。这里析影响股票价格趋势变动的因素。这里研究的股票价格指数,并非某一种股票研究的股票价格指数,并非某一种股票的价格,它是综合反映股票市场上所有的价格,它是综合反映股票市场上所有上市股票价格整体水平变化的指标。上市股票价格整体水平变化的指标。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心497.4 实例与评注实例与评注 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心507.4 实例与评注实例与评注 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心517.4 实例与评注实例与评注 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心527.4 实例与评注实例与评注香港作为国际金融中心之一,它的证券市场是高度向国际香港作为国际金融中心之一,它的证券市场是高度向国际开放的。事实上,开放的。事实上,1987年以前,香港证券市场上的股份所年以前,香港证券市场上的股份所有权有有权有50%以上掌握在外国经营机构手中,因此,从理论以上掌握在外国经营机构手中,因此,从理论上讲作为反映港币汇率水平的主要指标港汇指数应该与股上讲作为反映港币汇率水平的主要指标港汇指数应该与股票价格有高度相关,但事实并非如此。原因何在票价格有高度相关,但事实并非如此。原因何在? 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心537.4 实例与评注实例与评注观察观察19741988年的港汇指数值,可以看出除年的港汇指数值,可以看出除1981年、年、1982年出现大起大落外,港汇指数的波动一直处于比较平年出现大起大落外,港汇指数的波动一直处于比较平稳的状态,说明港币一直比较坚挺。稳的状态,说明港币一直比较坚挺。(至于至于1981年、年、1982年我们应把它视为特殊年份,年我们应把它视为特殊年份,1981年提出香港回归问题,年提出香港回归问题,1982年英首相访华,正是这一连串的政治事件造成了港币年英首相访华,正是这一连串的政治事件造成了港币汇率的大幅变动。汇率的大幅变动。)由于汇率波动不大,自然对股价不会产由于汇率波动不大,自然对股价不会产生很大的影响。生很大的影响。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心547.4 实例与评注实例与评注 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心557.4 实例与评注实例与评注 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心567.4 实例与评注实例与评注如果进一步作回归诊断,可以发现该回归模型满足正态性假如果进一步作回归诊断,可以发现该回归模型满足正态性假设,无异方差、无序列相关等。因此,运用该回归方程可以设,无异方差、无序列相关等。因此,运用该回归方程可以对恒生指数的变动成因作一些分析。对恒生指数的变动成因作一些分析。 影响恒生指数的主要因素为成交额、人均生产总值和房地产影响恒生指数的主要因素为成交额、人均生产总值和房地产买卖金额。成交额作为反映市场因素的主要指标对股票价格买卖金额。成交额作为反映市场因素的主要指标对股票价格有着重要的影响。香港股市上,成交额每增长有着重要的影响。香港股市上,成交额每增长100万港元,万港元,恒生指数上涨恒生指数上涨0.355个百分点。人均生产总值是反映经济状况个百分点。人均生产总值是反映经济状况的主要指标,它代表了经济环境对股票价格的影响,香港人的主要指标,它代表了经济环境对股票价格的影响,香港人均生产总值每上升均生产总值每上升100港元,恒生指数上涨港元,恒生指数上涨1.286个百分点。个百分点。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心577.4 实例与评注实例与评注另外,房地产买卖金额每增加另外,房地产买卖金额每增加100万港元,恒生指数上涨万港元,恒生指数上涨0.442个百分点,这是香港股市区别于其他股票市场的一大特个百分点,这是香港股市区别于其他股票市场的一大特色。香港的证券市场反映了香港的财政与贸易活动,但证券色。香港的证券市场反映了香港的财政与贸易活动,但证券市场的大部分资金却投入了房地产部门,因为不动产是香港市场的大部分资金却投入了房地产部门,因为不动产是香港投资商致富的主要源泉。因此,房地产事业相应地对股票市投资商致富的主要源泉。因此,房地产事业相应地对股票市场产生了重大影响,它的影响程度甚至强于其他所有因素。场产生了重大影响,它的影响程度甚至强于其他所有因素。所以说,这是香港股市的一大特色。所以说,这是香港股市的一大特色。 二、评注二、评注从本章从本章7.1讨论的自变量选择对参数估计和预测的影响来看,讨论的自变量选择对参数估计和预测的影响来看,自变量的选择是回归分析建模中的一个非常重要的基本问题。自变量的选择是回归分析建模中的一个非常重要的基本问题。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心587.4 实例与评注实例与评注在对一个实际经济问题建立回归模型时,首先根据经济理论在对一个实际经济问题建立回归模型时,首先根据经济理论和采集样本数据的条件限制,来定性地确定一些对所研究经和采集样本数据的条件限制,来定性地确定一些对所研究经济现象有重要影响的因素,这些因素就是所谓的自变量。济现象有重要影响的因素,这些因素就是所谓的自变量。由于我们认识水平的局限,从事物的表面很难分清哪些自变由于我们认识水平的局限,从事物的表面很难分清哪些自变量对因变量有重要影响,哪些自变量间存在着严重的相关性。量对因变量有重要影响,哪些自变量间存在着严重的相关性。而且通常可能会认为研究某个经济现象的回归问题,考虑的而且通常可能会认为研究某个经济现象的回归问题,考虑的越细越周到肯定会好,这样自然就会罗列出很多自变量。越细越周到肯定会好,这样自然就会罗列出很多自变量。 通过自变量选择对参数估计和预测的影响分析,我们得到的通过自变量选择对参数估计和预测的影响分析,我们得到的重要结论是,回归方程并非自变量越多越好,当一些对因变重要结论是,回归方程并非自变量越多越好,当一些对因变量影响不大的自变量进入回归方程后,反而会使参数估计的量影响不大的自变量进入回归方程后,反而会使参数估计的稳定性变差,预测误差的方差增大。因此,回归模型中应该稳定性变差,预测误差的方差增大。因此,回归模型中应该保留对因变量影响最显著的变量,即变量的个数和质量要求保留对因变量影响最显著的变量,即变量的个数和质量要求是是“少而精少而精”。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心597.4 实例与评注实例与评注由于变量之间的相关性,自变量间不同的组合对因变量由于变量之间的相关性,自变量间不同的组合对因变量y的的影响是不一样的,那么到底哪些自变量子集对应的回归方影响是不一样的,那么到底哪些自变量子集对应的回归方程是程是“最优最优”的方程,这就要根据我们介绍的几个衡量准的方程,这就要根据我们介绍的几个衡量准则在所有自变量子集中去挑选。则在所有自变量子集中去挑选。挑选挑选“最优最优”的回归方程就是选择的回归方程就是选择“最优最优”自变量子集。自变量子集。这里的最优打着引号实际上是指一个相对好的回归方程,这里的最优打着引号实际上是指一个相对好的回归方程,没有绝对的最优。我们所选的最优回归方程也是根据研究没有绝对的最优。我们所选的最优回归方程也是根据研究问题的性质和目的,用不同的准则来衡量的结果。同一个问题的性质和目的,用不同的准则来衡量的结果。同一个回归子集在不同的准则衡量下结果可能是不一样的。回归子集在不同的准则衡量下结果可能是不一样的。 选择哪一个回归子集,用哪一个衡量准则要根据我们研究选择哪一个回归子集,用哪一个衡量准则要根据我们研究问题的目的。回归模型常用的三个方面是:结构分析、预问题的目的。回归模型常用的三个方面是:结构分析、预测、控制。测、控制。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心607.4 实例与评注实例与评注如果我们想通过回归模型去研究经济变量之间的相互联系,如果我们想通过回归模型去研究经济变量之间的相互联系,即作结构分析,则在选元时可考虑适当放宽选元标准,给回即作结构分析,则在选元时可考虑适当放宽选元标准,给回归方程中保留较多的自变量,但这时需注意回归系数的正负归方程中保留较多的自变量,但这时需注意回归系数的正负号,看它们是否符合经济意义。如果我们希望回归方程简单号,看它们是否符合经济意义。如果我们希望回归方程简单明了,易于理解,则应采用较严的选元标准。明了,易于理解,则应采用较严的选元标准。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心617.4 实例与评注实例与评注在所研究的问题涉及的自变量较多时,即使针对某一给定在所研究的问题涉及的自变量较多时,即使针对某一给定的用途,根据某种准则也往往会发现自变量子集有几组几的用途,根据某种准则也往往会发现自变量子集有几组几乎同样乎同样“好好”,这时就要附加其他信息。整个选择过程应,这时就要附加其他信息。整个选择过程应该是注重实效,并要进行大量的主观判断。该是注重实效,并要进行大量的主观判断。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心627.4 实例与评注实例与评注有学者认为统计学是研究、分析数据的艺术,实际是说我们有学者认为统计学是研究、分析数据的艺术,实际是说我们不应过于依赖什么准则,不应单纯地机械搬用,在应用时还不应过于依赖什么准则,不应单纯地机械搬用,在应用时还应注意运用的技巧,综合各方面信息,选择应注意运用的技巧,综合各方面信息,选择“最优最优”回归模回归模型。型。还需说明的是,由所选择的自变量子集并不能完全决定要使还需说明的是,由所选择的自变量子集并不能完全决定要使用的模型,还必须作其他的判定,如自变量是否是线性的,用的模型,还必须作其他的判定,如自变量是否是线性的,是否要用变换的形式或者是否要用二次项,以及模型是否应是否要用变换的形式或者是否要用二次项,以及模型是否应该包含交互作用项。该包含交互作用项。 对对p个自变量的线性回归问题中如何选择出某种准则意义下个自变量的线性回归问题中如何选择出某种准则意义下的的“最优最优”回归方程,这方面的计算方法是十分重要的。从回归方程,这方面的计算方法是十分重要的。从20世纪世纪60至至70年代统计学家们十分关注这些问题。年代统计学家们十分关注这些问题。20世纪世纪60年代提出的一些算法,基本上只能处理含年代提出的一些算法,基本上只能处理含10至至12个自变量个自变量的回归问题。的回归问题。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心637.4 实例与评注实例与评注而而Furnial和和Wilson提出的算法较完美地解决了节省计算量、提出的算法较完美地解决了节省计算量、存储量以及减少计算误差的问题,它可以计算含存储量以及减少计算误差的问题,它可以计算含30多个自多个自变量的所有可能的子集回归,而所需的计算时间与逐步回变量的所有可能的子集回归,而所需的计算时间与逐步回归大体相当归大体相当 (参见参考文献参见参考文献10)。Furnial和和Wilson的方的方法尽管设计很巧妙,但对自变量多于法尽管设计很巧妙,但对自变量多于30的大型回归问题,的大型回归问题,计算量仍然是很大的。逐步回归目前被认为是研究多个自计算量仍然是很大的。逐步回归目前被认为是研究多个自变量建模较为理想的方法,运用该方法已有许多较为完美变量建模较为理想的方法,运用该方法已有许多较为完美的例子,因而今天逐步回归的应用已非常普遍。许多统计的例子,因而今天逐步回归的应用已非常普遍。许多统计软件都有逐步回归的子菜单可供选择。软件都有逐步回归的子菜单可供选择。 目录 上页 下页 返回 结束 2022-1-20中国人民大学六西格玛质量管理研究中心64
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!