第1章回归分析实验

上传人:Sc****h 文档编号:131256097 上传时间:2022-08-06 格式:DOC 页数:16 大小:430.50KB
返回 下载 相关 举报
第1章回归分析实验_第1页
第1页 / 共16页
第1章回归分析实验_第2页
第2页 / 共16页
第1章回归分析实验_第3页
第3页 / 共16页
点击查看更多>>
资源描述
第1章 回归分析实验 15第1章 回归分析实验目次1.1 线性回归模型1.2 非线性回归模型1.3 线性回归分析实验示范1.3.1 背景资料1.3.2 实验步骤分解1.4 非线性回归分析实验示范1.4.1 背景资料1.4.2 回归报告1.4.3 结果解释1.5 回归分析实验练习注记1参考文献附表11.1 线性回归模型考虑线性计量经济模型Yi=a0+b1X1i+bmXmi+ui (1-1)其中:a0为截距,为回归系数,为解释变量,它们是非随机变量,为随机扰动项。当时,模型1-1称为一元线性回归模型或单变量线性模型;当时,模型1-1称为多元线性回归模型。模型1-1的应用效果取决于模型的系数是否被有效确定,即与其估计系数的检验和模型的检验是否显著有关,而这些检验则必须满足一定的前提条件才行。在应用普通最小二乘法(OLS)做回归分析时,如果模型1-1满足以下假设:假设1-1 解释变量和随机扰动项线性无关:假设1-2 随机扰动项的期望为0:假设1-3 随机扰动项服从同方差分布: 假设1-4 随机扰动项没有自相关关系:假设1-5 随机扰动项服从正态分布:假设1-6 解释变量之间没有共线性关系,即任一个解释变量均不能被其余解释变量线性表示得到。那么,模型1-1的OLS估计量就是最优线性无偏估计量,估计系数的检验和模型的检验就是有效的。只要其中的任意一个假设没有得到满足,模型系数的OLS估计量就变成无效或不是最优线性无偏估计的了。OLS是线性回归模型系数估计的常用方法之一,其实,最大似然估计法(ML)也是常用方法之一。在满足六个假设前提下,除了ML方法估计残差项可能会导致渐进有偏估计以及低估值外,OLS和ML在系数的估计上是一致的,即均是无偏估计。模型1-1的回归检验,要做以下几个指标的估计和检验。回归方程的拟合优度主要是由多元判定系数和校正的多元判定系数来衡量。在一元回归模型中,曾指出判定系数解释了回归方程对样本的拟合能力或拟合的程度。表示回归平方和(SSR)与总离差平方和(SST)之比,即:校正的判定系数:SSE=SST-SSR系数估计量的检验,有以下统计量:模型1-1的F统计量检验。判定系数和有某种特定的关系,即:模型1-1的结构稳定性检验。Chow检验的目的是判断多元回归方程的结构稳定性问题。依统计学意义,对不同的局部时间序列数据的回归模型是否存在显著的差异?如果这种差异存在,就称关于整体时间序列数据的回归模型不是结构稳定的,否则就称为结构稳定的。假设模型1-1的随机扰动项且为随机扰动项的总体方差。现在把时间序列数据分成两个部分,其容量分别为和,假设已经建立起了以下两个回归模型: (1-2) (1-3)并且、和相互独立。为了检验模型1-2 和模型1-3是否相容,下面我们需要做Chow检验。Chow检验的基本假设:、和相互独立。第一步:求模型1-1的自由度为的残差平方和SSE;第二步:求模型1-2的自由度为的残差平方和SSE1;第三步:求模型1-3的自由度为的残差平方和SSE2;第四步:考虑到相互独立,置(Chow的F统计量) (1-4)则:第五步:给定显著性水平,如果,或,则说明回归模型存在结构不稳定;否则的话,不能否认回归模型的结构稳定性。Chow检验只能判明回归方程关于样本的回归分析是否存在结构不稳定的问题。如果Chow检验证实了回归方程关于样本的回归分析存在结构不稳定,那么是什么原因造成的呢?Chow检验不能给出任何具体答案。对于线性回归模型,结构稳定性问题来自于样本的结构不稳定性。如果存在两个点,至少有一个不是样本的端点,线性回归模型关于由这两个点所界定的样本的回归分析不存在结构稳定性问题,但是,当扩充样本使得新的样本包含其中一个点或全部两个点时,线性回归模型关于新样本的回归分析就存在结构稳定性问题,则称这个点或两个点为Chow节点。Chow节点的存在说明回归模型关于样本的回归分析存在结构不稳定问题。任意把样本分成两部分(注意每部分的样本容量至少应该保证该样本的回归分析能正常进行为准),求F统计量如式(1-4)所示,如果F检验不是显著的,则可断定不存在结构稳定性问题,否则说明结构稳定性问题是存在的。在作回归分析时,始终假设随机扰动项服从正态分布。实际情况是否如此,需要作进一步的检验。正态性的检验方法有许多,比如残差直方图、半对数图、JB检验等。1.2 非线性回归模型线性回归模型的“线性”有其特殊含义。一方面,模型的线性是指模型关于变量是线性的,另一方面,模型的线性是指模型关于每一项的系数或参数,是线性的。这里的非线性回归模型是指被解释变量关于解释变量是非线性的。通常见到的非线性模型有CobbDouglas生产函数、Philips双曲模型、Engel消费函数等。1.3 线性回归分析实验示范1.3.1 背景资料我国重工业增加值可能受到钢材进口、钢材产量和钢材出口的影响,其详细数据见附表1-1。假设Z表示我国重工业当月工业增加值(亿元),X表示钢材进口月均价格(美元/吨),Y表示当月钢材产量(万吨),W表示钢材出口(美元/吨)。如果它们之间存在以下计量关系: (1-5)其中:分别为截距和系数,为随机扰动项。问题:给出模型1-5的回归报告、随机扰动项的正态性检验和回归模型结构稳定性检验。1.3.2 实验步骤分解步骤1:回归报告如表1-1所示表1-1 回归报告列表变 量系 数 估 计标 准 误 差t统 计 量概 率a-2 751.96517.035 2-5.322 590*X-1.173 990.410 233-2.861 760.007 9续表变 量系 数 估 计标 准 误 差t统 计 量概 率Y1.623 8560.104 47115.543 60*W4.549 0550.976 4624.658 7110.000 1R2=0.968 882F统计量=290.6013Prob(F统计量)=0*注:“0*”表示小于万分之一。资料来源:表中数据是模型1-5应用于数据附表1-1得出的。步骤2:随机扰动项的正态性检验正态性检验的方法,这里采用残差图法和JB统计量检验法,如图1-1所示。35302520151050i3002001000-100-200400ei图1-1 正态性检验的残差图法 图1-1直观显示:随机扰动项是服从正态分布的。下面通过JB统计量进一步验证。JB统计量的定义为其中:n为样本容量,S为样本概率分布的偏度,K为样本概率分布的峰度。由此得到残差的频数柱状图及其数据指标,如图1-2所示。Series:eiSample 132Observations 32Mean-0.002 950Median-34.338 90Maximum360.624 1Minimum-202.379 6Std.Dev.145.979 9Skewness0.408 199Kurtosis2 218 336Jarque-Bera1.703 341Probability0.426 701-200 -100 0 100 200 300 40086420图1-2 残差概率分布图及其数据特征JB统计量为1.703341,由于JB统计量的检验服从自由度为2的检验,而在5%显著水平下,x2(2)等于5.99,由此说明零假设:JB=0不是统计显著的。因此,残差图和JB统计量检验均表明随机扰动项是服从正态分布的。 步骤3:模型回归分析的结构稳定性检验Chow检验是模型结构稳定性检验的常用方法之一。按照前面的Chow检验步骤,计算出Chow的F统计量,即F=0.702。但是F=(0.05,15,17)=2.308。由此断定模型的结构是稳定的。步骤4:实验结果解释回归报告显示:钢材的进出口和钢材的产量对我国的重工业增加值有着显著的影响力,钢材的产量和出口越多,重工业产值的增加就越多,钢材的进口越多,重工业增加值受到的抑制就越明显。钢材进出口和产量对重工业增加值的影响不仅是正规的,而且其结构也是稳定的。这就说明,钢材在我国重工业中占有重要的地位。这个例子说明一个事实:钢材的进口、出口和产量联合起来对我国重工业产业才会体现出各自的重要性。因为,如果把钢材的出口从模型中剔除出去,钢材的进口在我国重工业增加值中所扮演的角色则并不明显,如表1-2所示。表1-2 二元回归报告列表变 量系 数 估 计标 准 误 差统计量概 率a-445.933 2195.531 6-2.280 620.030 1X0.266 8140.352 850.756 1680.455 6Y1.338 9730.110 89212.074 570*R2=0.944 762F统计量=247.999 3Prob(F统计量)=0*注:“0*”表示小于万分之一。资料来源:表中数据是根据附表1-1的数据计算得出的。根据表1-2,从统计学角度看,钢材进口对我国重工业产值并没有产生大的影响。在计量经济学的应用中,剔除变量法较为普遍。剔除变量法是指在多元回归分析中,如果某一解释变量的系数统计量的检验不显著,则把它从模型中剔除出去,此时的模型就变成了元数少一的多元回归模型。这种方法也叫做数据挖掘。然而,Lovell于1983年证明了这种方法是不合理的,因为剔除变量法会导致余下变量在做检验时会收窄置信区间,影响零假设的理性判断。从实证上看,也没有实际意义。n元回归模型和n-1元回归模型的解读能力是不可相提并论的,表1-2和表1-1显示钢材进口的解读能力简直有南辕北辙之别!由此提示:剔除变量法是不可取的,但是增加变量法如表1-2到表1-1的变化所示是可行的。1.4 非线性回归分析实验示范1.4.1 背景资料钢材在国民经济建设中扮演着重要的角色。我国除了增强钢材生产的能力外,从国外进口一定量的钢材来弥补我国在钢材生产能力方面的某些不足是正常的。那么,钢材生产和钢材进口之间存在什么样的关系呢?假设Y表示钢材进口月均价(美元/吨),X表示我国钢材月均产量(万吨),它们的月数据如附 表1-1所示。一般情况下,钢材产量和钢材进口之间不是某种线性关系,假设它们之间的关系由以下模型描述: (1-6)问题:试估计出模型1-6,并给出其回归分析。1.4.2 回归报告步骤1:给出回归模型1-6的估计式步骤2:回归报告(表1-3)表1-3 三次多项式模型的回归报告变 量系 数 估 计标 准 误 差t统计量概 率-30 906.710 434.05-2.962 10.006 17135.556 241.825 773.240 970.003 07-0.181 510.054 99-3.300 810.002 638.04E-052.37E-053.395 220.002 07资料来源:表中数据是根据附表1-1的数据计算得出的。步骤3:正态性检验应用JB统计量,类似前面,可判知随机扰动项是服从正态分布的,如图1-3所示。Series:eiSample 132Observations 32Mean-1 106 451Median-975 653.3Maximum-205 462.9Minimum-3 068 204Std.Dev.811 357.9Skewness-0.989 652Kurtosis2.916 107Jarque-Bera5.232 915Probability0.073 081-3000 000 0 -200 000 0 -100 000 0 01086420图1-3 三次多项式回归模型残差项的正态性检验1.4.3 结果解释钢材进口与钢材产量之间的关系是复杂的,一般的线性模型是没有办法很好地拟合它们之间的关系。如何寻找合适的模型去模拟它们之间的关系,则是一个有待研究的问题。不过,这里给出的三次多项式模型对它们之间关系的拟合是非常理想的。这一点从回归报告以及正态性检验中就可看出。其实,直观上,它们的关系被拟合得非常好,可以作为它们之间关系的度量尺度,如图1-4所示。X500 600 700 800 900 1000 1100Y450040003600300025002000图1-4 钢材进口与钢材产量之间的关系1.5 回归分析实验练习1背景资料:我国轻工业增加值可能受到钢材进口、钢材产量和钢材出口的影响,其详细数据如附表1-2所示。假设Q表示我国轻工业当月工业增加值(亿元),X表示钢材进口月均价(美元/吨),Y表示当月钢材产量(万吨),W表示当月钢材出口(美元/吨)。如果它们之间存在以下计量关系: (1-7)其中:分别为截距和回归系数,为随机扰动项。问题:给出模型1-7的回归报告、随机扰动项的正态性检验和回归模型结构稳定性检验。2背景资料:我国汽车工业可能受到钢材进口、钢材产量和钢材出口的影响,其详细数据如附表1-3所示。假设表示我国汽车和汽车底盘出口月均价(美元/辆),X表示钢材进口月均价(美元/吨),Y表示当月钢材产量(万吨),W表示当月钢材出口(美元/吨)。如果它们之间存在以下计量关系: (1-8)其中:分别为截距和回归系数,为随机扰动项。问题:给出模型1-8的回归报告和随机扰动项的正态性检验。3背景资料:考虑钢材进口与钢材出口之间的关系。假设Y表示钢材进口月均价(美元/吨),X表示我国钢材月均出口均价(美元/吨),它们的月数据如附表1-1所示。假设它们之间的关系由以下模型描述: (1-9)其中:为系数,为随机扰动项。问题:试估计出模型1-9,并给出其回归报告。4背景资料:考虑钢材生产与钢材进口之间的关系。假设Y表示钢材月产量(万/吨),X表示我国钢材进口月均价(美元/吨),它们的月数据如附表1-1所示。假设它们之间的关系由以下模型描述: (1-10)其中:为系数,为随机扰动项。问题:试估计出模型1-10,并给出其回归报告。注记1 在做多元回归分析时,司空见惯的错误做法就是剔除变量法。在回归结果中,如果某个解释变量的系数估计的t检验不显著,那么就直接去除该变量,然后考虑剩余的变量做回归分析,直到回归结果中不存在任一解释变量的系数估计的t检验不显著为止。这种做法是不合理的。其主要的问题就是导致最终确定模型的假设检验出现虚假现象或伪检验,因为t检验的置信区间实际上已经收缩了,但是表面上看不到这种现象的发生。随着剔除变量数的增加,系数估计量的t检验的实际置信区间的收缩就越明显,极大地削弱了区间判别法的实际功效。这种错误的变量剔除法应该避免。 随机变量的正态性检验和模型的结构稳定性检验是多元回归模型在做回归分析时应该要进行的工作,因为,计量模型对数据结构的敏感性是非常显著的,不容忽视的。只考虑模型的回归结果是否达到了系数估计量的t检验和模型的F检验的显著性要求还是不够。当多元回归模型回归结果的所有检验:t检验、检验,正态性检验和结构稳定性检验均得到满足后,模型的解读能力和应用效果才有可能得到保证。在样本结构比较复杂的情况下,模型的回归分析也可能比较显著,但是模型的最终解读能力可能未必可靠,原因可能是计量模型对样本的结构波动比较敏感。为了确保模型的最终解读能力,模型的结构稳定性以及随机扰动项的正态性检验是必须要作的。只有当模型的t检验和检验、正态性检验和模型的结构稳定性检验均达到要求时,模型对样本的最终解读能力才能得到 保证。 多元回归模型在应用上出现不同的解读效果,除了模型的设置可能不尽合理外,模型对样本的结构敏感性是不容忽略的。对于一个设置合理的多元回归模型,其对各种样本的解读能力是否可比较,则取决于这些样本的结构稳定性的检验是否存在显著的差别。当样本的结构保持相对稳定,同一设置合理模型应用于这些样本的结果是可以作出令人信服的比较的。从计量经济学的应用角度出发,模型的设置应该随着样本的结构变化而变化,切勿拿模型去要求样本。 本章关于非线性回归模型的回归分析,所采用的软件就是Origin软件。如果应用其他软件,如没有固化的模块存在,则可通过编程的办法加以解决。统计数据之间可能存在非常复杂的非线性结构,如果是这样,光采取线性模型来反应它们之间的关系是不科学的。如何发现数据之间的非线性结构,当数据容量足够大时,得依赖于相关软件的开发或应用;当数据个数比较少时,可利用简单的散点图加以识别。数据波动的非线性结构是时常见得到的,模型的非线性设置也应随之调整。现在比较常见的“教条”就是拿模型当作“令箭”,要求一切样本适合它。这样的一种不合理观念还是很有“市场”,这无疑造成了模型应用的“教条”化。 非线性问题可以线性化,然后直接对线性化的模型进行回归分析。这种方法应用起来的效率可能会低一些,但是,这也是一种解决非线性问题的基本思路。理论上讲,非线性问题的线性化与直接对非线性问题进行回归分析,其结果应该是一样的。但是,由于软件设计本身的非一致性,其分析结果可能会带来某些差异。这些现象是正常的,因为即使是对同样的数据,如果使用的软件不同,其计算结果也可能会出现不一致。因此,为了避免计算结果的差异性所导致的判断混乱,最好在计算结果后面注明数据计算所适用的软件名称。 Chow检验的缺陷是无法找到多元回归模型结构稳定性问题的根结。对此,一般的处理方法就是引入虚拟变量加以控制,构造出结构稳定的模型。当样本的结构非常紊乱时,虚拟变量引入模型也无法解决模型结构不稳定性的问题。 模型与样本的关系就像是“鞋”与“脚”的关系。为了对样本所蕴含的信息深入揭示,需要对模型做适当的设置。如果拿模型来要求样本,就像拿“鞋”来要求“脚”一样很不合理。只有能对样本作出很好解读的模型,才能说是选择了合适的模型,就好像只有做出合“脚”的“鞋”才能叫做好鞋。时常听到人们议论说“模型水土不服”的观点是不科学的。模型设置的目的就是希望通过样本来解读总体的状况,而不是只给出模型的回归报告就可以。从计量经济学理论研究的角度出发,找出合适的样本来验证模型设置的客观性是可以接受的。 本章的基础知识主要来自于王升(2006)的内容,同时还参考了本章文献1和文献2的相关知识。这部分内容不是本章的主要内容,只是为了方便读者而特意设置的。参考文献1 Lovell, M.Data mining, Review of Economics and Statistics,1983, 65, 1122(美)古扎拉蒂计量经济学(中译本)林少宫译北京:中国人民大学出版社,20043 王升计量经济学导论北京:清华大学出版社,2006附表1附表1-1 线性回归分析实验示范重工业月均增加值(亿元)钢材进口月均价(美元/吨)钢材当月产量(万吨)钢材出口月均价(美元/吨)重工业月均增加值(亿元)钢材进口月均价(美元/吨)钢材当月产量(万吨)钢材出口月均价(美元/吨)2 226.8546.362 118.34478.43 970.75983.163 110.63630.92 488.26553.372 262.55502.64 265.97978.833 036.59632.12 899.68567.592 389.95521.14 034.82977.173 136.12638.6续表重工业月均增加值(亿元)钢材进口月均价(美元/吨)钢材当月产量(万吨)钢材出口月均价(美元/吨)重工业月均增加值(亿元)钢材进口月均价(美元/吨)钢材当月产量(万吨)钢材出口月均价(美元/吨)2 945.13585.62 301.54542.34 139.96971.373 269.49643.12 907.15602.762 281.26555.94 310.95961.463 225.186443 088.06618.952 357.49568.64 350.67955.423 310.45643.82 974.15635.632 432.05572.44 532.03951.553 305.77641.93 075.39650.972 542.2572.74 609.74953.083 372.72637.43 232.21666.172 641.12574.73 820.3984.123 246.67572.83 299.09678.052 675.68578.93 844.26990.253 182.215753 439.98693.352 789.03582.54 701.53985.873 800.37561.63 722.11709.462 763.96585.84 747.87995.193 831.14557.53 322.3956.492 611.01633.54 942.751001.294 023.3552.62 944.48971.212 536.77632.45 441.491011.694 119.97554.53 724.2984.293 065.48625.65 053.751020.823 865.98564.83 913983.782 953.09627.25 157.811033.593 896.48577.9资料来源:Wind资讯。数据取自2004-012006-08。附表1-2 回归分析实验练习之一轻工业月均增加值(亿元)钢材进口月均价(美元/吨)钢材当月产量(万吨)钢材出口月均价(美元/吨)轻工业月均增加值(亿元)钢材进口月均价(美元/吨)钢材当月产量(万吨)钢材出口月均价(美元/吨)1 117.35546.362 118.34478.41 730.83983.163 110.63630.91 221.03553.372 262.55502.61 925.41978.833 036.59632.11 365.14567.592 389.95521.11 776.13977.173 136.12638.61 425.38585.62 301.54542.31 827.55971.373 269.49643.11 402.47602.762 281.26555.91 964.3961.463 225.186441 519.88618.952 357.49568.61 969.26955.423 310.45643.81 434.83635.632 432.05572.42 058.13951.553 305.77641.91 469.07650.972 542.2572.72 102.68953.083 372.72637.41 580.15666.172 641.12574.71 819.32984.123 246.67572.81 586.16678.052 675.68578.91 628.82990.253 182.215751 643.91693.352 789.03582.51 978.19985.873 800.37561.6续表轻工业月均增加值(亿元)钢材进口月均价(美元/吨)钢材当月产量(万吨)钢材出口月均价(美元/吨)轻工业月均增加值(亿元)钢材进口月均价(美元/吨)钢材当月产量(万吨)钢材出口月均价(美元/吨)1 766.3709.462 763.96585.82 071.9995.193 831.14557.51 521.4956.492 611.01633.52 117.111 001.294 023.3552.61 310.87971.212 536.77632.42 376.281 011.694 119.97554.51 642.84984.293 065.48625.62 146.091 020.823 865.98564.81 733.5983.782 953.09627.22 197.661 033.593 896.48577.9资料来源:Wind资讯。数据取自2004-012006-08。附表1-3 回归分析实验练习之二汽车和汽车底盘出口月均价(美元/辆)钢材进口月均价(美元/吨)钢材当月产量(万吨)钢材出口月均价(美元/吨)汽车和汽车底盘出口月均价(美元/辆)钢材进口月均价(美元/吨)钢材当月产量(万吨)钢材出口月均价(美 元/吨)2 264546.362 118.34478.41 967.6983.163 110.63630.92 266.3553.372 262.55502.61 955.5978.833 036.59632.12 250.7567.592 389.95521.11 943.1977.173 136.12638.61 860.9585.62 301.54542.32 005.6971.373 269.49643.11 862.5602.762 281.26555.91 968.5961.463 225.186441 857.7618.952 357.49568.61 885955.423 310.45643.81 913.1635.632 432.05572.41 766.4951.553 305.77641.91 973.4650.972 542.2572.71 755.9953.083 372.72637.41 926.6666.172 641.12574.73 169.4984.123 246.67572.81 892.9678.052 675.68578.93 659.5990.253 182.215751 876.6693.352 789.03582.52 929985.873 800.37561.61 909.4709.462 763.96585.82 561.4995.193 831.14557.52 151.9956.492 611.01633.52 2931 001.294 023.3552.61 310.87971.212 536.77632.42 1851 011.694 119.97554.51 642.84984.293 065.48625.62 211.11 020.823 865.98564.81 733.5983.782 953.09627.22 246.91 033.593 896.48577.9资料来源:Wind资讯。数据取自2004-012006-08。
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 幼儿教育


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!