资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,王少平教授:华中科技大学经济学院本科试验班计量经济学讲义,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,王少平教授:华中科技大学经济学院本科试验班计量经济学讲义,#,第十三、十四章,计量经济建模,:,模型设定和诊断,第十三、十四章计量经济建模:,问题 的提出,何谓正确设定的模型,?,正确设定的标准是什么,?,在应用中可能遇到何种类型的设定错误?,由设定错误所产生的后果又是什么 ?,如何诊断和校正模型存在设定误差等,?,问题 的提出何谓正确设定的模型?,13.1.,模型选择标准,传统观点 :节省性,即能用简单的模型就不用复杂的模型,;,识别性,:,参数可识别,;,理论一致性,:,即模型和结果应符合有关的经济学理论,;,预测功效,:,模型应有一个好的预测能力,或较高的拟合优度,在模型符合理论的前提下,拟合优度应相对较高,.,Hendry,和,Richard,模型设定应满足以下标准:,13.1. 模型选择标准传统观点 :节省性,即能用简单的模型,模型与数据的相容性,即基于模型进行预测必须是逻辑可行的。,模型与理论一致性,即模型必须有良好的经济学意义和解释,消费理论中,MPC,小于,1,等。,模型的回归因子,(,解释变量,),为弱外生变量,即回归因子与误差项不相关。,模型的参数应具有稳定性或常数性,若不然,预测就是非常困难的。,估计的模型应体现出数据的内在逻辑一致性,即估计的残差必须是纯随机的,(,即白噪音或,i.i.d),如果一个模型是适宜的,估计的残差就必为白噪音,若残差不是白噪音,意味着模型存在某种设定误差,这是本章的重点。,包容性,即正确设定的模型应能解释与它竞争的模型,或竞争模型不可能是正确设定模型的一种改进。,模型与数据的相容性,即基于模型进行预测必须是逻辑可行的。,13.2.,设定误差的类型,去掉了一个不应去掉的变量所引起的设定误差,包含了一个不相关或不应包含的变量,错误的函数形式,测度误差所引起的设定错误,随机误差项的错误形式引起设定误差,13.2. 设定误差的类型 去掉了一个不应去掉的变量所引起的,在上述,5,类设定问题中,1-4,类设定误差是基本和常见的,称为模型设定误差,(Model specification error),其基本特征是与正确设定的模型相比较,而第,5,种设定误差称为模型误设所引起的误差,(Model mis-specification error,),简称为误设误差,其特征是不知道正确设定的模型,而是从相互竞争的模型开始,如凯恩斯理论强调政府支出对,GDP,的作用,而货币学派则强调货币对于解释,GDP,的作用,.,基于这,2,种经济学理论就形成了两个相互竞争的模型,回归因子分别为政府支出和货币,.,从经济学理论和计量经济学的实证,并不知道其中的哪一个是正确设定的模型,.,在上述5类设定问题中,1-4类设定误差是基本和常见的,称为模,13.3.,模型设定误差的后果,1.,去掉一个不应去掉的变量导致的设定误差产生的后果为模型的不足拟合,(underfitting),模型,Y,i,=b,1,+b,2,X,2i,+b,3,X,3i,+u,i,(13.8),但出于某些原因却估计了下述具有设定误差,(,去掉一个不应去掉的变量,X,3i,),的模型,Y,i,=a,1,+a,2,X,2i,+v,i,(13.9),13.3. 模型设定误差的后果1.去掉一个不应去掉的变量导致,产生的后果,若,X,3i,与,X,2i,相关,即相关系数为,r,23,0,这种设定误差导致参数估计有偏,若,r,23,0,,但,即,X,3i,与,X,2i,无关,具有对于设定误差的模型,(,13.9,),的估计,,,a,1,的估计是有偏而,a,2,的估计是无偏。,真实模型的误差,u,i,的方差,s,2,也不能通过估计具有设定误差的模型而实现对,s,2,的正确估计。,产生的后果若X3i与X2i相关,即相关系数为r230,即基于设定误差模型的参,(,或系数,),数的方差估计是真正模型的参数估计的方差的有偏估计。在大多数情况下,有,0r,23,1,故,这即为不足拟合的主要含义。,参数的方差估计的有偏性导致常规的置信区间和假设检验可能产生错误结论。,进一步,基于设定误差模型进行预测和置信区间预测也是不可信的。,即基于设定误差模型的参(或系数)数的方差估计是真正模型的参,2.,包含一个不应包含的变量导致的设定误差所产生的后果为模型的过度拟合,(overfitting a model),正确设定的模型为,Y,i,=b,1,+b,2,X,2i,+u,i,(13.10),而估计的模型为,Y,i,=a,1,+a,2,X,2i,+ a,3,X,3i,v,i,(13.11),这种设定误差所产生的后果为,a,1,、,a,2,和,a,3,的估计是无偏和一致的,即,(,b,3,在正确设定的模型中不出现即为,0,)。,2.包含一个不应包含的变量导致的设定误差所产生的后果为模型的,u,i,的方差,s,2,也能正确估计,常规的置信区间和假设检验有效,但,a,1,、,a,2,和,a,3,的估计不再有效,也就是说,包含一个不相关的变量导致参数估计的精度降低,未加证明的经验:,包含一个不相关变量比去掉了一个相关变量要好!但是包含一个不相关变量导致估计量的精度降低,还可能引起多重共线性等。因此最好的方法是,基于经济学理论或变量间的逻辑关系或已有的文献,模型仅包含那些直接影响应变量的解释变量,且这些解释变量还不应被模型所包含的其它解释变量所解释,ui的方差s2 也能正确估计,13.4,设定误差的检验,1.,侦察模型包含了一个不应包含的变量,对于一个多元模型,Y,i,=b,1,+b,2,X,2i,+b,k,X,ki,+u,i,(13.12),如果基于理论,没有充分的理由认为某个变量如,X,2,应包含在模型中, 此时可用显著性,t,检验对,b,2,的显著性进行检验,如显著,可以不去掉。类似地问题如怀疑某,2,个(如,X,2i,和,X,3i,)或,3,个变量不应同时包括在模型中,可对联合原假设(如,b,2,b,3,0,)进行检验,拒绝原假设表明可以同时包含这,2,个变量。,13.4设定误差的检验 1.侦察模型包含了一个不应包含的变,但是上述方法不宜逐步和反复地进行,如不宜对,b,3,进行,t,检验,拒绝原假设而将,X,3i,包含在模型中,进而对,b,4,进行,t,检验,拒绝原假设再将,X,4i,包含在模型中,这种过程称为数据采掘,(Data mining),的建模方法,对这种方法的指责之一是因为这种数据采掘导致显著性水平扭曲,即数据采掘过程中的显著性水平,(,称为名义显著性水平,即常规的显著性水平,a),与真正或实际的显著性水平不一致,可以证明,在,C,个变量中通过数据采掘选取了,K(C),个变量,则名义显著性水平与真实的显著性水平,(a*),的关系为,a*=1-(1-a)C/K,由此导致拒绝或接受原假设的结论可能是错误的,因此基于数据采掘最终所得到的模型也就不一定是正确设定的模型。,但是上述方法不宜逐步和反复地进行,如不宜对b3进行t检验,拒,2,检验去掉了不应去掉的变量和错误的函数形式,对残差进行考查,若模型是适宜的,残差应为纯随机的即,e,i,i.i.d.,相反将导致残差出现明显的规则变化即存在自相关,再用,DW,检验,运用,DW,检验设定误差一般应有基本的判断,:,即所估计的模型是否漏掉了重要的变量,导致残差的自相关说明具有设定误差。,2检验去掉了不应去掉的变量和错误的函数形式,Ramsey RESET(regression specification error test),检验,以,2,元模型为例,a.,对此模型进行,OLS,b.,考察,(,纵轴,),与,(,横轴,),的图形,以成本函数为例,线性模型估计为,Variable,Coefficient,Std. Error,t-Statistic,Prob.,C,166.4667,19.02142,8.751537,0.0000,x,19.93333,3.065580,6.502305,0.0002,R-squared,0.840891,Mean dependent var,276.1000,Adjusted R-squared,0.821002,S.D. dependent var,65.81363,S.E. of regression,27.84451,Akaike info criterion,9.668005,Sum squared resid,6202.533,Schwarz criterion,9.728522,Log likelihood,-46.34003,F-statistic,42.27997,Durbin-Watson stat,0.715725,Prob(F-statistic),0.000188,Ramsey RESET(regression specif,图,3.,随,呈现曲线变化,所以进行下一步,:,图3.随 呈现曲线变化,所以进行下一步,c.,增加的平方和立方项,即,对此模型进行,OLS,,得到,对应的,记,(13.13),的拟合优度为,(13.14),c.增加的平方和立方项,即 对此模型进行OLS ,得到 对应,Variable,Coefficient,Std. Error,t-Statistic,Prob.,C,2140.215,131.9893,16.21507,0.0000,x,476.5521,33.39086,14.27193,0.0000,xF2,-0.091865,0.006192,-14.83680,0.0000,XF3,0.000119,7.46E-06,15.89677,0.0000,R-squared,0.998339,Mean dependent var,276.1000,Adjusted R-squared,0.997509,S.D. dependent var,65.81363,S.E. of regression,3.284911,Akaike info criterion,5.505730,Sum squared resid,64.74382,Schwarz criterion,5.626764,Log likelihood,-23.52865,F-statistic,1202.220,Durbin-Watson stat,2.700212,Prob(F-statistic),0.000000,R,2,由,0.84,增加到,0.998,但并不一定意味着这一增加就显著,VariableCoefficientStd. Errort,d.,构造,F,(,13.15,),其中,,K,表示增加了新的变量的模型的参数个数,即,(13.14),中参数个。计算,F=280.41,计算的,F,值显著,接受原假设,(,原始模型,(13.13),为具有设定误差,),。,这一检验方便计算,但结论仅为原始模型为具有设定误差的模型,不,表示新增了,的平方和立方项的模型是适宜模型,d.构造F (13.15) 其中,K表示增加了新的变量的模型,如果模型漏掉了不应漏掉的一个或若干个变量,用,LM,检验可以检验模型具有设定误差,(,漏掉了不应漏掉的一个或若干个变量,),从而应增补变量,.LM,检验思想为,将应该包含,(,但没有包含,),的变量的模型看作是正确设定模型的约束模型,(,即将漏掉的变量的系数约束为,0,如线性成本模型为立方成本模型的约束,即平方项和立方项约束为,0),对约束模型进行回归的残差,(,即没有被漏掉变量所解释的部分,),与漏掉的变量应相关,或漏掉的变量应能解释约束模型的残差,若如此,应增加漏掉的变量,3.,增补变量的,LM,检验,如果模型漏掉了不应漏掉的一个或若干个变量,用LM检验可,例子,:,成本的立方模型,(,正确设定,),Y,i,=b,1,+b,2,X,i,+b,3,X,2i,+b,4,X,3i,+u,i,线性成本模型,Y,i,=b,1,+b,2,X,i,+u,i,这是立方模型的约束回归,约束为,b,3,=b,4,=0,回归结果如上,将残差对,X,1,X,2,和,X,3,回归,有,例子: 成本的立方模型(正确设定) Yi=b1+b2Xi+b,Variable,Coefficient,Std. Error,t-Statistic,Prob.,C,-24.69996,6.375314,-3.874313,0.0082,X,43.54430,4.778601,9.112354,0.0001,X,2,-12.96153,0.985663,-13.15006,0.0000,X,3,0.939588,0.059106,15.89679,0.0000,R-squared,0.989562,Mean dependent var,0.000000,Adjusted R-squared,0.984343,S.D. dependent var,26.25205,S.E. of regression,3.284907,Akaike info criterion,5.505728,Sum squared resid,64.74366,Schwarz criterion,5.626762,Log likelihood,-23.52864,F-statistic,189.6028,Durbin-Watson stat,2.700214,Prob(F-statistic),0.000002,n Re2=100.989=9.896,拒绝原假设,(,约束模型为真,),而应增补,X2,和,X3,作为回归因子,VariableCoefficientStd. Errort,13.5,观测误差,所,谓观测误差是指,由于模型设定或某些特殊定义的变量的数据不能直接观测,需使用已有的相关数据而产生的误差,应变量,Y,具有观测误差,若以,为持久消费支出,这是一个不可观测的,的变量,而已有的基本生活费支出数据,可以大致度量,它,但,和,的误差,e,称为观测误差,13.5观测误差 所谓观测误差是指,由于模型设定或某些特殊定,假定这种观测误差为,0,均值和独立同分布,由于,(13.16),有,(13.17),而其中的,X,表示收入,假定扰动,成立经典假设,且,即观测误差与模型的扰动无关,与,X,无关,则对(,13.17,)进行,OLS,能产生参数的线性无偏估计,,但其方差不是最小。,假定这种观测误差为0均值和独立同分布,由于(13.16) 有,解释变量的观测误差,反之,若,X,有观测误差,即,Y,表示无观测误差的消费支出,.,此时,,假定,E(u,i,)=0,E(w,i,)=0, E(u,i,w,i,)=0,且,E(u,i,X,*,i,)=E(X,*,i,w,i,)=0,所以,E(u,i,-,b,w,i,)=0,进一步,有,(,13.20,),(13.18),(,13.19,),所以,模型,(13.19),的残差与解释变量相关,故对(,13.19,)回归不,可能获得无偏估计,进一步,也不可能获得一致估计,解释变量的观测误差反之,若X有观测误差,即Y表示无观测误差的,13.6.,随机项的不正确设定,对于前述模型,Y,i,=bX,i,u,i,(13.6),为正确的模型设定形式,其中随机误差项以相乘进入模型,且误差的对数,lnu,i,满足经典假设的条件,.,但若对,Y,i,=aX,i,+u,i,(13.7),进行估计,将产生有偏估计,.,13.6.随机项的不正确设定对于前述模型,13.7.,嵌套,(Nested),对非嵌套,(Non-nested),模型,嵌套模型,对于模型,A,和,B,模型,A:,Y,i,=b,1,+b,2,X,2i,+b,3,X,3i,+b,4,X,4i,+b,5,X,5i,+u,i,(13.8),模型,B:,Y,i,=b,1,+b,2,X,2i,+b,3,X,3i,+u,i,(13.9),由于模型,B,是由模型,A,在约束,b,4,=b,5,=0,之下的约束形式,也就是说,对,A,进行估计,用,F,检验,b,4,=b,5,=0,且不拒绝这一假设,则模型,A,简约为模型,B.,另一方面,若在,B,中增加,X,4i,且,A,也不拒绝,b,5,=0,此时,A,简约为,B.,因此,模型,B,嵌套于,A,中,.,13.7. 嵌套(Nested)对非嵌套(Non-neste,非嵌套模型,模型,C:,Y,i,=,a,1,+a,2,X,2i,+,a,3,X,3i,+ v,i,(13.10),模型,D:,Y,i,=b,1,+b,2,Z,2i,+b,3,Z,3i,+u,i,(13.11),其中,X,和,Z,是不同的解释变量,由于模型,C,和,D,互不能作为对方的约束形式表出,或者说,C,和,D,不是对方的约束形式,故,C,和,D,为,(,相互,),非嵌套模型,.,非嵌套模型,检验非嵌套模型,a.,辨识,(discerning),分析,-,非嵌套,F,检验或兼,(,包,),容,(encompassing),的,F,检验,.,选取,C,还是,D?,为这一目的,构造模型,F:,Y,i,=b,1,+b,2,X,2i,+b,3,X,3i,+b,4,Z,2i,+b,5,Z,3i,+u,i,(13.13),显然模型,F,嵌套,(,或包容,),了模型,C,和,D,但模型,C,和,D,互不嵌套,.,若模型,C,是正确设定的模型,应有,H,01,:b,4,= b,5,=0;,反之,若模型,D,是正确设定的模型,应有,H,02,:b,2,= b,3,=0;,所以对模型,F,估计并对联合原假设,H,01,或,H,02,进行,F,检验,即可实现在模型,C,和,D,中进行选择,.,检验非嵌套模型,D-M,的,J,检验,对于模型,C,和,D,检,验非嵌套可归结为在,C,和,D,中选取其中之一,.,为此,对原假设,H,0,:,模型,C,为真,检验如下,:,步骤,1:,估计模型,D,由此得到,Y,的估计,Y,D,;,步骤,2:,将,Y,D,作为新的回归元,增加到模型,C,中,即,Y,i,=a,1,+a,2,X,2i,+a,3,X,3i,+a,4,Y,i,D,+u,i,(13.14),并对它进行回归,;,步骤,3:,对,a,4,进行,t,检验,若接受假设,a,4,=0,则接受原假设,H,0,:,模型,C,为真,.,若拒绝,a,4,=0,,则拒绝原假设模型,C,为真,模型,C,不真。,D-M的J检验,若设定原假设,H,0,:,模型,D,为真,则从估计模型,C,开始, 具体为:,步骤,1:,估计模型,C,由此得到,Y,的估计,Y,C,;,步骤,2:,将,Y,C,作为新的回归元,增加到模型,D,中,即,Y,i,=b,1,+b,2,Z,2i,+b,3,Z,3i,+b,4,Y,C,v,i,(13.15),对此模型进行回归,并对,b,4,0,进行,t,检验,接受,b,4,0,则接受原假设,H,0,,即模型,D,为真。拒绝,b,4,0,则意味着模型,D,不真,因而在模型,D,和,C,中,可选,C.,若设定原假设H0:模型D为真,则从估计模型C开始, 具体为:,J,检验的问题:,接受模型,C,也接受,D,,或者拒绝模型,C,也拒绝,D,,即同时接受或巨大变化时拒绝,所以没有明确结论。显然,当从,C,开始,接受,a,4,=0,从模型,D,开始,又接受,b,4,0,,由此有接受,C,也接受,D,,类似的也可能产生同时拒绝。若同时拒绝模型,C,和,D,,表明模型,C,和,D,不能很好地解释,Y,的行为,若同时接受模型,C,和,D,,正如,Kmenta,所说,数据还不足以在两个模型中进行判别。,在上述,J,检验中,所使用的是,t,检验,对于大样本,,t,统计量渐近服从标准正态分布,所以对于小样本,,J,检验的检验势较低,导致,J,检验倾向于拒绝为真的假设,J检验的问题:,13.8.,选择模型常用的准则,基于,R,2,选取模型,存在的问题为,:, R,2,所度量的是样本内的拟合优度,即给定的数据或样本对回归直线的拟合优度,因而不能保证对于样本外的点的拟合优度,换言之,预测精度不能得到保证;,在比较两个或多个模型的,R,2,时,应变量必须相同,更为重要的是,增加变量将导致,R,2,变大,至少不减,所以基于,R,2,选取模型可能导致增加了不应增加的变量,13.8.选择模型常用的准则基于R2选取模型,相比较而言,,Ad- R,2,仅在所增加的变量的,t,值大于,1,时才导致它的增加,但比较多个模型的,Ad- R,2,也要求应变量相同,. Ad- R,2,也是样本内拟 合优度的度量,而不能样本外的点具有同样的拟合优度等,AIC,和,SIC,准则,增加变量导致,R,2,增加,为消除这种增加给模型选择所产生的影响,引进“惩罚因子”,即消除解释变量的增加导致,R,2,增加,为此,Akaike,定义的信息准则,(AIC),为,AIC=e2k/n/n= e2k/nRSS/n,为方便计算,将这一准则变换为对数形式,相比较而言,Ad- R2仅在所增加的变量的t 值大于1时才导,lnAIC=ln(RSS/n)+(2k/n),其中的,(2k/n),为惩罚因子,在多个竞争模型中,若计算的,AIC,相对显著地小,则最小的,AIC,所对应的模型为倾向于所选取的模型,换言之,,AIC,越小,可能意味着模型越节约。这一准则对于嵌套和非嵌套模型均是适用的,特别是广泛用于确定自回归模型的滞后阶,.,与之相似的是,Schwarz,定义的信息准则,SIC,SIC,nk/n/n= nk/n RSS/n,其对数变换为,lnSIC=(k/n)lnn+ln(RSS/n),其中的,(k/n)lnn,为惩罚因子。,lnAIC=ln(RSS/n)+(2k/n),13.9.,为应用计量经济建模进言,在实际应用建模中,可能会常常碰到这样的困境:在相互竞争的模型中,,AIC,或,BIC,的差别很小,或,R,2,和,Ad- R,2,相差也不大,或相差较大,但,AIC,或,BIC,的差别又很小等等。解决这类困境还没有很好的计量工具。,另一方面,具有广泛共识的是,计量经济建模既是科学,同时也是艺术,对于应用建模而言,理解,Martin Feldstein,的警告对于应用建模具有启发性的意义:“,The applied econometrician ,like the theorist, soon discovers from experience that a useful model is not one that is trueorrealisticbut one that is parsimonious, plausible and informative”.,13.9.为应用计量经济建模进言在实际应用建模中,可能会常常,
展开阅读全文