潘省初计量经济学第3版ets.ppt

资源描述

第九章面板数据模型,第一节面板数据和面板数据模型,混合数据（pooleddata）是将横截面数据和时间序列数据结合在一起的数据。我们在第一章中曾介绍，横截面数据模型使用同一时点不同个体（entity）的观测值，数据可来自不同地区、公司、人员或其它个体；时间序列数据则是跨越不同时期的同一地区、同一公司、同一个人或其它同一个体的数据。横截面时间序列混合数据则包含不同横截面个体不同时期的数据，或者说，混合数据包含既跨越时间又跨越空间的数据。,如果混合数据包含的观测值来自同一批地区、公司、人员或其它横截面个体的不同时期数据，则此类混合数据称为面板数据（paneldata）。面板数据通常比非面板混合数据更有用，这是因为面板数据中的地区、公司、人员等横截面个体在各时期中一直保持不变，这使得我们更易于对随着时间的推移所发生的变动进行比较。我们将基于面板数据的回归模型称为面板数据模型（paneldatamodel）。面板数据模型正在得到日益广泛的应用，文献也很多。限于篇幅，我们在这里只能做一个入门性的介绍。需要深入研究的读者，请参阅有关参考文献。,Baltagi,B.H.(2001),EconometricAnalysisofPaneldata,(Wiley:Chichester)HsiaoC.(2003),AnalysisofPanelData,2ndEdition,(CambridgeUniversityPress)影印版由北京大学出版社出版，2005,本章中，我们将用一个贯穿始终的例子来说明估计面板数据模型的各种方法。我们的数据来自以下4个产业：产业1：钢铁；产业2：橡胶、塑料；产业3：石制品、陶瓷制品和玻璃制品；产业4：纺织模型中用到的变量是：Yit=i产业第t年出口额，单位：百万美元，不变价EMPit=i产业第t年就业人数，单位：千人OTMit=i产业第t年平均每周加班小时数,我们收集了上述4个产业这3个变量19802000各年的数据。事实上，对于这3个变量中的每一个，都有84个观测值（4个产业乘以21年）。由于在每个时期（每一年）都是这4个产业，因此这些混合数据是面板数据，如表91所示。我们可以通过分别运行4个回归来分析这些数据，每个产业一个回归：,使用表91的数据估计（9.1）（9.4），由于每个产业有21年的数据，因此每个回归中观测值个数都是21。这种分别对4个产业进行回归的缺点在于可能错失包含在混合数据集中的那种一个产业影响另一个产业的信息。换句话说，一个产业的数据中可能包含有对于估计其它某个产业的回归系数有价值的信息，而这种分别估计每个产业方程的做法无法利用这些信息，这意味着估计值不够准确。如果我们能够将4个产业的数据结合在一起，我们的样本规模就会增大，从而可以使用所有可获得的信息估计系数。,因此，我们需要讨论那些允许我们使用混合数据的全部信息的估计技术，将跨时间跨空间的数据结合在一起，而不是分别进行时间序列和横截面数据的回归。要做到这一点，最简单的方法是，假定截距和斜率对于所有产业和所有时期都是一样的，进行下面的回归：,这里每个变量的观测值个数都是84。我们用表91中全部数据估计此方程，结果如下：,这种方法的致命缺陷是，估计出来的系数只有在我们前面关于截距和斜率对于所有产业和所有时期都是同样的值的假设成立的情况下才有用，实际情况当然不是如此，比如说，很难想象每个时期中每个产业的就业人数与其出口额之间的关系都相同，增加1000名工人对不同产业出口额的影响应当是不同的。因此，采用模型（9.5）是不合适的，我们下面讨论可用于面板数据模型的其它估计方法。,*第二节表面不相关回归泽尔纳（Zellner）提出的表面不相关回归（Seeminglyunrelatedregression，SUR）是一种可供选择的分析面板数据的方法。表面不相关回归是一组似乎不相关但实际上相关的回归方程。表面不相关回归方程看上去不相关是因为它们类似于方程（9.1）(9.4)。在前面说到可以分别对它们运行四个回归时，我们事实上有一个冒失而错误的假设：各产业互不相干，因而我们可以分别估计每一个回归方程。回到方程（9.1）(9.4)：,在表面不相关回归中，各个回归之间实际上确实有关联。表面不相关回归容许各个回归方程的扰动项之间存在跨方程相关，如上面四个方程中的诸u在任何一个时期中不必相互独立，即不同方程的扰动项之间可以存在同期相关。这样，SUR估计程序就可以使用扰动项的相关来改善估计值。,各个回归之间任何的相关都是有价值的信息，它可能是告诉我们某时期中发生了某些不止影响一个产业的变化或事件，这一变化并没有被任何一个自变量捕捉到，而只能反映在扰动项中。SUR程序用此信息来改善系数估计值。事实上，GLS法被应用来利用这种扰动项中跨横截面个体的相关。,具体来说，在SUR模型中，各个方程的扰动项在时间上是独立的，但在横截面个体间相关，即,大多数计量经济分析软件都有运行SUR的命令，表面不相关回归步骤如下：1用OLS法分别估计每个方程，计算和保存回归中得到的残差；2用这些残差来估计扰动项方差和不同回归方程扰动项之间的协方差；3上一步估计的扰动项方差和协方差被用于执行广义最小二乘法，得到各方程系数的估计值。表面不相关回归得到的估计值是一致估计值。用SUR方法和表91中的数据估计方程（9.1）(9.4)，结果如下：,初看上去，这些结果似乎是分别回归的结果，但它们不是。跨产业扰动项协方差的估计值被SUR程序用来改善估计值，如前面所说的那样，这是为什么说表面不相关回归实际上是由相关的回归组成。在我们的例子中，SUR结果与四个方程的OLS结果差不多。然而，在很多情况下，表面不相关回归显著改善用最小二乘法得到得估计值。,第三节固定影响模型固定影响模型（Fixedeffectsmodel）将横截面个体之间的差异解释为截距不同，而斜率系数相同。它处理地区、公司、人员或其它横截面个体之间差异的思路是允许截距变动，不同的横截面个体（如我们例子中的不同产业）的截距是不同的，但每个产业的截距在各个时期则保持不变。在固定影响模型的假定下，面板数据中所有横截面数据和时间序列数据都可用于同一个回归。固定影响模型类似于上一节中所有数据简单结合在一起的混合模型（9.5）式，不同的是，这里横截面中每一个体有它自己的截距：,固定影响模型通过使用虚拟变量的方法来解决截距变动问题。对于我们的例子，有4个产业部门，我们应当设3个虚拟变量，因为设3个就可以区分4个产业的截距，并且，如果设4个虚拟变量的话，我们会掉进所谓“虚拟变量陷阱”，而造成完全的多重共线性。在固定影响模型中，我们有另一种避开虚拟变量陷阱的方法，就是在模型中去掉常数项，然后为每个产业设一个虚拟变量：D11观测值来自产业1；0其它产业D21观测值来自产业2；0其它产业D31观测值来自产业3；0其它产业D41观测值来自产业4；0其它产业,可写出本章例子的固定影响模型如下：4个产业的截距项分别为产业1：3产业2：4产业3：5产业4：6回归结果如下：,从结果中看到R2很高，对于固定影响模型来说，通常如此。这是因为各截距项虚拟变量捕捉了横截面个体之间的差异。固定影响模型的高R2会造成一种虚假的表象，但实际并不象R2的值所展示的那么好。回归结果中没有给出各虚拟变量系数的t值或标准误差，这是因为EViews软件不报告固定影响模型中虚拟变量的t值或标准误差。,我们可以利用回归结果来检验4个产业的截距是否相同，原假设和备择假设是：检验的具体做法与我们在第四章中介绍的涉及多个系数的联合假设检验类似，即首先进行约束回归和无约束回归，然后用得到的两个残差平方和计算F检验量，进行检验。,本例中约束回归就是回归（9.5）式：（9.5）式中只有一个截距项，这与本例原假设（各产业截距相等）是一样的。而无约束回归就是固定影响模型（9.6）式：因为它允许不同产业的截距取不同值。,约束回归和无约束回归的残差平方和可从（9.5）式和（9.6）式的回归结果中查出，分别为2,675,700,466和790,590,705。约束的数目为3而不是4，这是因为在原假设中，任何一个虚拟变量的系数，如，可取任意值，但其它3个则必须取和相同的值，这表明有3个约束。无约束回归的残差平方和的自由度并非n-k-1，而是n-k，这是因为无约束回归模型中没有常数项。本例中F检验量计算如下：,查表，5显著性水平下，F(3,78)=2.77，因为F61.99Fc2.77，故拒绝原假设H0。结论：4个产业的截距不全相等。,由于使用虚拟变量，固定影响模型（9.6）式亦称为最小二乘虚拟变量模型（LSDV模型）。固定影响模型可通过再加上斜率虚拟变量的办法推广到一般情形。然而，既包含截距虚拟变量又包含斜率虚拟变量的模型几乎等同于各产业分别回归的方法。二者的区别是，加上斜率虚拟变量的固定影响模型中，扰动项方差对于整个样本必须是相同的，因为是一个回归方程。而分别回归，则每个回归的扰动项方差可以不同，即每个产业或每个横截面个体的扰动项方差可以不同。,第四节随机影响模型随机影响模型（randomeffectsmodel）像固定影响模型一样，通过允许截距变动来处理横截面个体之间的差异，但变动的数量是随机的。如果横截面个体是随机地被选择出来以代表一个较大的总体，则采用随机影响模型比较合适。不同的横截面个体的不同截距被认为是从一个正态分布总体中随机抽取的。,固定影响模型假定不同产业截距间的差异是确定的，而不是随机的，它假定截距的不同是因为各产业有一些不同的特性。随机影响模型则假定我们例子中的每一个产业是从一个总体中抽取的，截距之间的差异是因为随机变差引起的。随机影响模型通常用于诸横截面个体是某个总体的一个样本的情况，例如，家计调查得到的面板数据。随机影响模型将所有数据放在一起回归，初看上去很像常规的OLS回归：,这里没有截距虚拟变量，这使得它的自由度要大于固定影响模型。应注意的是，上式中截距项与OLS回归中的截距项不同，这里代表的是截距的均值，真实的截距随产业或其它横截面个体而变，产业间截距的差异反映在扰动项u中。扰动项u有两个分量，其中一个满足OLS关于扰动项的假设条件，另一个分量代表每个产业的截距与截距均值之间的差异，这个分量不随时间而变，但对于每个产业都不同。由于扰动项的这个分量不随时间而变，因此随机影响模型中的扰动项u将不满足OLS关于各期扰动项互不相关的假设条件，这意味着OLS不能使用。,很多计量经济软件让你能够方便地运行随机影响模型，步骤如下：对整个横截面时间序列混合样本执行OLS回归；用第一步得到的残差估计扰动项的方差和协方差；用第二步得到的方差协方差估计值执行GLS回归，给出随机影响模型的GLS估计值；某些软件使用第三步的结果，估计每个横截面个体的截距与截距均值的差异。,将随机影响方法应用于我们的产业模型，回归模型为：此式看上去像是（5）式中OLS回归，所有产业的截距都相同。可是，这里各产业都有自己的截距，截距的均值和真值间的差异包含在扰动项u中。正如上面所说，这意味着扰动项u不满足OLS假设。按前述四步回归，结果如下：,将随机影响和固定影响的结果比较一下，发现两组自变量系数的估计值差别很小，并且都在1显著性水平显著，说明在本例的情况下，使用两种方法均可。但在其他情况下，就可能有较大差别。,有些计量经济程序还给出让你能够求出每个产业截距的信息。本例中每个产业截距与常数项（均值）的差异如下：产业1:5178.14产业2：4748.35产业3:3361.66产业4：6564.83由此可知，钢铁产业截距与之差为5178.14。这表明，钢铁产业截距的估计值为22,831.07+5178.14=17,652.93,

展开阅读全文