第十一讲自相关和面板数据

资源描述

自相关自相关多元线性回归模型的基本经典假定多元线性回归模型的基本经典假定假设假设1 随机误差项具有零均值。随机误差项具有零均值。0)(iE22)()(iiEVar0)()()(11nnEEEE假设假设2 对于解释变量的所有观测值，随机对于解释变量的所有观测值，随机误差项有相同的方差。误差项有相同的方差。1,2,.in1,2,.in(如果违反，则出现异方差如果违反，则出现异方差)假设假设3 3 随机误差项彼此之间不相关随机误差项彼此之间不相关 0)(),(jijiECovnjiji,2,1,(如果违反，则出现自相关如果违反，则出现自相关)假设假设4 4 所有的解释变量所有的解释变量X Xi i与随机误差项彼此之与随机误差项彼此之间不相关。间不相关。0)(),(jijiECov(遗漏变量中经常出现，会出现参数估计有偏遗漏变量中经常出现，会出现参数估计有偏)假设假设5 解释变量解释变量Xi之间不存在精确的线形之间不存在精确的线形关系，即解释变量的样本观测值矩阵关系，即解释变量的样本观测值矩阵X是是满秩矩阵，应满足关系式：满秩矩阵，应满足关系式：rank(X)=k+1n (如果违反，则出现多重共线性如果违反，则出现多重共线性)假设假设6 6 随机误差项服从正态分布，随机误差项服从正态分布，Y也也服从正态分布。服从正态分布。),0(2Ni在大样本下，这一假设可以放松为在大样本下，这一假设可以放松为i.i.d.假设假设7 7 不太可能出现大异常值。不太可能出现大异常值。2220.00.0.00.u的方差协方差矩阵的方差协方差矩阵22221.00.0.00.0n2212212.nnnn经典假设经典假设异方差异方差自相关自相关异方差经常出现在截面数据中，因为在截面数据中异方差经常出现在截面数据中，因为在截面数据中经常会出现经常会出现的情况。的情况。解决方法：异方差稳健的标准差。解决方法：异方差稳健的标准差。FGLS（可行性广义最小二乘法）（可行性广义最小二乘法）自相关经常出现在时间序列数据中，因为在时间序自相关经常出现在时间序列数据中，因为在时间序列数据中，经常会出现的列数据中，经常会出现的的情况。的情况。面板数据可以看作是截面数据和时间序列的集合，面板数据可以看作是截面数据和时间序列的集合，所以既有可能出现异方差，又有可能出现自相关。所以既有可能出现异方差，又有可能出现自相关。ijuu(,)0ijCov u u-500050010001500Residuals020406080idResidualsResiduals时间序列数据的残差图时间序列数据的残差图-.04-.020.02.04Residuals020406080100tResidualsResiduals由于经济活动通常具有某种连续性或持由于经济活动通常具有某种连续性或持久性，自相关现象在时间序列中很常见。久性，自相关现象在时间序列中很常见。比如，相邻两年的比如，相邻两年的GDP 增长率、通货膨增长率、通货膨胀率。又比如，某个意外事件或新政策胀率。又比如，某个意外事件或新政策的效应需要逐步地随时间推移而释放出的效应需要逐步地随时间推移而释放出来；滞后的调整过程，比如，最优资本来；滞后的调整过程，比如，最优资本存量需要通过若干年的投资才能逐渐达存量需要通过若干年的投资才能逐渐达到。到。再比如大多数经济时间数据都有一个明显的特再比如大多数经济时间数据都有一个明显的特点点:惯性惯性，表现在时间序列不同时间的前后关联上。，表现在时间序列不同时间的前后关联上。由于消费习惯的影响被包含在随机误差项中，则由于消费习惯的影响被包含在随机误差项中，则可能出现序列相关性（往往是正相关可能出现序列相关性（往往是正相关）。）。例如，绝对收入假设下居民总消费函数模型：例如，绝对收入假设下居民总消费函数模型：C Ct t=0 0+1 1Y Yt t+t t t=1,2,t=1,2,n,n或者写成：或者写成：其中其中称为相关系数称为相关系数()0tE u211(,)()ttt tuCov u uE uu2222(,)()ttt tuCov u uE uu 2(,)()sttst tsuCov u uE uu 自相关的数学形式自相关的数学形式自相关的检验自相关的检验图形法图形法残差与残差与X的散点图的散点图自相关图自相关图(auto-correlation cofficient)偏自相关图偏自相关图(partial auto-correlation cofficient)例题：利用例题：利用B2_lutkepohl.dta数据集建立数据集建立消费和收入之间的一元线性回归模型。并检消费和收入之间的一元线性回归模型。并检验是否存在自回归，是一阶还是高阶。验是否存在自回归，是一阶还是高阶。use B2_lutkepohl.dta,cleartsset yearreg consum incomepredict e1,resscatter e1 income,yline(0)ac e1pac e1 杜宾和沃特森他们成功地导出了临界值的下限dL和上限dU，且这些上下限只与样本的容量n和解释变量的个数k有关，而与解释变量X的取值无关。D.W.统计量统计量:D.W检验步骤检验步骤:（1）计算）计算DW值值（2）给定）给定，由，由n和和k的大小查的大小查DW分布表，得临界分布表，得临界值值dL和和dU（3）比较、判断）比较、判断2(1)DW 若若 0D.W.dL 存在正自相关存在正自相关 dLD.W.dU 不能确定不能确定 dU D.W.4dU 无自相关无自相关 4dU D.W.4 dL 不能确定不能确定 4dL D.W.2时不时不能直接应用这种能直接应用这种“前后前后”比较方法。为了分析比较方法。为了分析该面板数据集中的所有观测值，我们使用该面板数据集中的所有观测值，我们使用固定固定效应回归方法效应回归方法。固定效应模型固定效应模型对于特定的个体对于特定的个体i而言，而言，ai 表示那些不随时间表示那些不随时间改变的影响因素，如个人的消费习惯、国家改变的影响因素，如个人的消费习惯、国家的社会制度、地区的特征、性别等，一般称的社会制度、地区的特征、性别等，一般称其为其为“个体效应个体效应”(individual effects)。如果把如果把“个体效应个体效应”当作不随时间改变的固当作不随时间改变的固定性因素，定性因素，相应的模型称为相应的模型称为“固定效应固定效应”模模型。型。固定效应模型固定效应模型对于固定效应模型，可采用虚拟变量法。对于固定效应模型，可采用虚拟变量法。基本思想：固定效应模型实质上就是在传统基本思想：固定效应模型实质上就是在传统的线性回归模型中加入的线性回归模型中加入 N-1 个虚拟变量，使个虚拟变量，使得每个截面都有自己的截距项。由于固定效得每个截面都有自己的截距项。由于固定效应模型假设存在着应模型假设存在着“个体效应个体效应”，每个个体，每个个体都有其单独的截距项。这就相当于在原方程都有其单独的截距项。这就相当于在原方程中引入中引入n1个虚拟变量（如果省略常数项，个虚拟变量（如果省略常数项，则引入则引入n个虚拟变量）来代表不同的个体，获个虚拟变量）来代表不同的个体，获得每个个体的截据项。得每个个体的截据项。例如：共有例如：共有7个州，方程可以写成：个州，方程可以写成：01112233445566ititiYXDDDDDDu7个州的回归线斜率相同，但截距不同。个州的回归线斜率相同，但截距不同。第第1个州的截距是：个州的截距是：第第2个州的截距是：个州的截距是：第第3个州的截距是：个州的截距是：101011012固定效应模型的估计算法固定效应模型的估计算法“个休中心化个休中心化”OLS算法或者组内离差估计法算法或者组内离差估计法假设原方程为：假设原方程为：(式式1)给定第给定第i 个个体，将个个体，将(式式1)两边对时间取平均可得，两边对时间取平均可得，(式式2)(式式1)(式式2)，得：，得：可以用可以用OLS方法一致地估计方法一致地估计，称为，称为“固定效应估计固定效应估计量量”（Fixed Effects Estimator），记为），记为FE由于由于主要使用了每个个体的组内离差信息，故主要使用了每个个体的组内离差信息，故也称为也称为“组内估计量组内估计量”（within estimator）。）。FE固定效应模型的优势和劣势固定效应模型的优势和劣势面板固定效应模型的面板固定效应模型的优势优势是：即使个体是：即使个体特征特征ui与解释变量与解释变量Xit相关，只要使用组相关，只要使用组内估计量，就可以得到一致估计，即即内估计量，就可以得到一致估计，即即使存在不随时间改变的遗漏变量，也可使存在不随时间改变的遗漏变量，也可得到无偏一致的估计。得到无偏一致的估计。面板固定效应模型的面板固定效应模型的劣势劣势是：模型无法是：模型无法估计不随时间而变的变量之影响，这需估计不随时间而变的变量之影响，这需要用我们后面要讲到的随机效应模型。要用我们后面要讲到的随机效应模型。在交通事故死亡人数中的应用在交通事故死亡人数中的应用由于由于(10.8)式中的式中的“差分差分”回归只用了回归只用了1982年和年和1988年的数据年的数据(具体讲就是这两年的差额具体讲就是这两年的差额)，而，而(10.15)式中的固定效应回归用式中的固定效应回归用到了所有到了所有7年的数据，因此这两个回归是不同的。由于利用了年的数据，因此这两个回归是不同的。由于利用了更多的数据，因此更多的数据，因此(10.15)式中的标准误差小于式中的标准误差小于(10.8)式中的标式中的标准误差。准误差。固定效应模型的固定效应模型的stata实现实现 use grunfeld,clear xtset company year xtdes xtline invest固定效应模型：固定效应模型：xtreg invest mvalue kstock,fe回归结果解读回归结果解读1。三个。三个R2哪个重要？哪个重要？2。固定效应为什么有两个。固定效应为什么有两个F检验？检验？3。corr(u_i,Xb)的含义。的含义。4。sigma_u、sigma_e、rho的含义。的含义。1。因为固定效应模型是组内估计量（离差），。因为固定效应模型是组内估计量（离差），因此，只有因此，只有within是一个真正意义上的是一个真正意义上的R2，其他两个是组间相关系数的平方。其他两个是组间相关系数的平方。2。右侧的。右侧的F统计量表示除常数项外其他解释统计量表示除常数项外其他解释变量的联合显著性。变量的联合显著性。最后一个最后一个F检验，原假设检验，原假设所有所有U_i=0，即不存在个体效应，此时证明，即不存在个体效应，此时证明pooled ols 更有效。更有效。首先注意：结果中的首先注意：结果中的u_i不表示残差，而是表示不表示残差，而是表示个体效应。个体效应。3。corr(u_i,Xb)个体效应与解释变量的相关系数，个体效应与解释变量的相关系数，相关系数为相关系数为0或者接近于或者接近于0，可以使用随机效应模型；，可以使用随机效应模型；相关系数不为相关系数不为0，需要使用固定效应模型。，需要使用固定效应模型。4。sigma_u：表示个体效应的标准差：表示个体效应的标准差sigma_e：表示干扰项的标准差：表示干扰项的标准差rho：rho=sigma_u2/(sigma_u2+sigma_e2)个体效应的波动占整个波动的比例。个体效应的波动占整个波动的比例。显示每个个体截距的方法：显示每个个体截距的方法：tab company,gen(dum)drop dum1 reg invest mvalue kstock dum*与上述方法比较一下：与上述方法比较一下：xi:reg invest mvalue kstock pany 结果完全一样。结果完全一样。几个常见问题几个常见问题1。既然固定效应每个个体都有单独的截。既然固定效应每个个体都有单独的截距项，如何获得每个个体的截距项？距项，如何获得每个个体的截距项？xi:reg invest mvalue kstock pany 即即LSDV方法或者添加虚拟变量法。方法或者添加虚拟变量法。2。面板数据格式不符合要求的处理。面板数据格式不符合要求的处理。例如如下表格格式该如何处理？例如如下表格格式该如何处理？处理方法：处理方法：扁平数据变长条数据的命令：扁平数据变长条数据的命令：reshape use invest2,clear edit reshape long invest kstock,i(company)j(year)companycompanyinvest2002invest2002invest2003invest2003invest2004invest2004kstock2002kstock2002kstock2003kstock2003kstock2004kstock20041 118.918.919.119.119.619.619.619.616.816.816.716.72 217.417.418.418.418.818.818.118.117.417.417173 3191919.619.620.120.120.220.2171717.117.14 4202020.420.420.320.320.420.417.517.517.317.35 518.118.118.318.318.418.418.518.516.416.416.116.16 619.719.7202019.919.917.217.216.316.316.316.3时间固定效应回归时间固定效应回归其中其中St是只随时间改变，不随个体改变是只随时间改变，不随个体改变的变量，如汽车的性能。的变量，如汽车的性能。只有时间效应只有时间效应个体和时间固定效应（双向固定个体和时间固定效应（双向固定效应模型）效应模型）固定效应模型：固定效应模型：Yit=ai+XitB+it双向固定效应模型：双向固定效应模型：Yit=ai+ft+XitB+it实际上添加了实际上添加了t-1个时间虚拟变量。主要反应随着个时间虚拟变量。主要反应随着时间变化的一些特征。时间变化的一些特征。tab year,gen(yr)edit drop yr1 xtreg invest mvalue kstock yr*,fe 大部分时间虚拟变量显著，说明随着时间的变动，大部分时间虚拟变量显著，说明随着时间的变动，invest有不断变动的趋势。有不断变动的趋势。检验：可以使用似然比检验。检验：可以使用似然比检验。原假设：时间虚拟变量不显著。原假设：时间虚拟变量不显著。xtreg invest mvalue kstock,fe est store fe1 xtreg invest mvalue kstock yr*,fe est store fe2 lrtest fe1 fe2 整体来看时间虚拟变量不够显著。整体来看时间虚拟变量不够显著。

展开阅读全文

第十一讲自相关和面板数据

最新文档