资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,Stata,与模型的设定,主要内容:,1,、,遗漏变量的检验,2,、,解释变量个数的选择,3,、,多重共线性与逐步回归法,4,、,极端数据的诊断与处理,5,、,虚拟变量的处理,6,、,经济结构变动的,Chow,检验,实验,7-1,遗漏变量的检验,一、实验基本原理,二、实验数据和实验内容,根据统计资料得到了美国工资的横截面数据,变量主要包括:,wage=,工资,,educ=,受教育年限,,exper=,工作经验年限,,tenure=,任职年限,,lwage=,工资的对数值。完整的数据在本书附带光盘的,data,文件夹的,“,wage1.dta,”,工作文件中,。,利用,wage1,的数据,分别利用,Link,方法和,Ramsey,方法检验模型,是否遗漏了重要的解释变量。,三、实验操作指导,1.,使用,Link,方法检验遗漏变量,Link,方法进行检验的基本命令语句为:,linktest if in,cmd_options,在这个命令语句中,,linktest,是进行,Link,检验的基本命令,,if,是表示条件的命令语句,,in,是范围语句,,cmd_options,表示,Link,检验的选项应该与所使用的估计方法的选项一致,例如检验之前使用的回归,regress,命令,则此处的选项应与,regress,的选项一致。,例如,利用,wage1,的数据,检验模型,是否遗漏了重要的解释变量,应该输入以下命令:,use c:datawage1.dta,clear,reg lwage educ exper tenure,linktest,第一个命令表示打开数据文件,wage1,,第二个命令语句是对模型进行回归估计,第三个命令就是进行遗漏变量的,Link,检验,检验结果如图,7.1,所示。,从第二个表格中,可以看到,hatsq,项的,p,值为,0.018,,拒绝了,hatsq,系数为零的假设,即说明被解释变量,lwage,的拟合值的平方项具有解释能力,所以可以得出结论原模型可能遗漏了重要的解释变量。,为了进一步验证添加重要变量是否会改变,Link,检验的结果,我们生成受教育年限,educ,和工作经验年限,exper,的平方项,重新进行回归并进行检验,这时输入的命令如下:,gen educ2=educ2,gen exper2=exper2,reg lwage educ exper tenure educ2 exper2,linktest,第一个命令语句的作用是生成变量,educ2,,使其值为变量,educ,的平方;第二个命令语句的作用是生成变量,exper2,,使其值为变量,exper,的平方;第三个命令语句的作用是对进行回归估计,;,第四个命令就是进行遗漏变量的,Link,检验,检验结果如图,7.2,所示。,2.,使用,Ramsey,方法检验遗漏变量,Ramsey,方法进行检验的基本命令语句为:,estat ovtest,rhs,在这个命令语句中,,estat ovtest,是进行,Ramsey,检验的命令语句,如果设定,rhs,,则在检验过程中使用解释变量,如果不设定,rhs,,则在检验中使用被解释变量的拟合值。,例如,利用,wage1,的数据,使用,Ramsey,方法检验模型,是否遗漏了重要的解释变量,应该输入以下命令:,use c:datawage1.dta,clear,reg lwage educ exper tenure,estat ovtest,在这组命令语句中,第一个命令的功能是打开数据文件,第二个命令是对模型进行回归估计,第三个命令就是进行遗漏变量的,Ramsey,检验,检验结果如图,7.3,所示。,在图,7.3,中,第一个图表仍然是回归结果,第二部分则是,Ramsey,检验的结果,不难发现,Ramsey,检验的原假设是模型不存在遗漏变量,检验的,p,值为,0.0048,,拒绝原假设,即认为原模型存在遗漏变量。,为了进一步验证添加重要变量是否会改变,Ramsey,检验的结果,我们采取,Link,检验中的方法,生成受教育年限,educ,和工作经验年限,exper,的平方项,重新进行回归并进行检验,这时输入的命令如下:,gen educ2=educ2,gen exper2=exper2,reg lwage educ exper tenure educ2 exper2,estat ovtest,这里不再赘述这些命令语句的含义,调整之后的检验结果如图,7.4,所示,可以发现此时检验的,p,值为,0.5404,,无法拒绝原假设,即认为模型不再存在遗漏变量。,实验,7-2,解释变量个数的选择,一、实验基本原理,好的经济理论的标准通常是希望通过更为简洁的模型来更加精确地描述复杂的经济现象,但是这两个目标通常是矛盾的,因为通过增加解释变量的个数可以提高模型的精确程度,但是同时也牺牲了模型的简洁性。因此,在现实的经济研究过程中,通常使用信息准则来确定解释变量的个数,较为常用的信息准则有两个:,(,1,)赤池信息准则,又称为,AIC,准则,其基本思想是通过选择解释变量的个数,使得如下目标函数最小。,在这个公式中,,e,代表残差序列,,n,代表样本数量,,K,代表解释变量的个数。通过这个目标函数可以看出,第一项是对拟合优度的奖励,即尽可能地使残差平方和变小,第二项是对解释变量个数增多的惩罚,因为目标函数是解释变量个数的增函数。,(,2,)贝叶斯信息准则,又称为,BIC,准则,其基本思想是通过选择解释变量的个数,使得如下目标函数最小。,在这个公式中,,e,代表残差序列,,n,代表样本数量,,K,代表解释变量的个数。通过这个目标函数可以看出,,BIC,准则与,AIC,准则的唯一区别就是,K,的权重不同,一般来说,ln(n)2,,所以,BIC,更加注重模型的简洁性。,二、实验数据和实验内容:,根据统计资料得到了美国工资的横截面数据,变量主要包括:,wage=,工资,,educ=,受教育年限,,exper=,工作经验年限,,tenure=,任职年限,,lwage=,工资的对数值。完整的数据在本书附带光盘的,data,文件夹的,“,wage1.dta,”,工作文件中,。,利用,wage1,的数据,来确定,以下两个模型:,模型,和模型,哪个更为合理(其中,educ2,和,exper2,分别为,educ,和,exper,的平方项)。,三、实验操作指导,使用信息准则,对模型进行检验的命令如下:,estat ic,n(#),在这个命令语句中,,estat ic,是进行检验的命令语句,选项,n(#),的功能是指定,BIC,准则中的,n,值,一般使用默认值。,例如,利用,wage1,的数据,获得模型,的,AIC,和,BIC,值,应该输入以下命令:,use c:datawage1.dta,clear,reg lwage educ exper tenure,estat ic,第一个命令表示打开数据文件,wage1,,第二个命令语句是对模型进行回归估计,第三个命令就是进行信息准则值的计算,计算结果如图,7.5,所示,,AIC,值为,635.10,,,BIC,值为,652.16,。,为了对比分析,我们仍然采取,Link,检验中的方法,生成受教育年限,educ,和工作经验年限,exper,的平方项,建立新的模型,重新对其进行回归并计算,这时输入的命令如下:,gen educ2=educ2,gen exper2=exper2,reg lwage educ exper tenure educ2 exper2,estat ic,这里不再赘述这些命令语句的含义,调整之后的计算结果如图,7.6,所示,可以发现此时计算的,AIC,值为,583.66,,,BIC,值为,609.25,。,通过这两个模型信息准则值的对比分析,可以得出结论,第二个模型的信息准则值更小,所以此模型优于第一个模型。,实验,7-3,多重共线性与逐步回归法,一、实验基本原理,多重共线性问题在多元线性回归分析中是很常见的,其导致的直接后果是方程回归系数估计的标准误差变大,系数估计值的精度降低等。多重共线性的问题对于,Stata,软件来说并不显著,因为,Stata,会自动剔除完全的多重共线性,但是出于知识的完整性,这里还是介绍一下,Stata,对于多重共线性的识别和处理方法。,多重共线性的诊断方法主要有:,(,1,)直观上说:当模型的拟合优度非常高且通过,F,检验,但多数解释变量都不显著,甚至解释变量系数符号相反时,可能存在多重共线性。,(,2,)对由解释变量所组成的序列组进行相关分析时,如果有些变量之间的相关系数很高,则也反映出可能存在多重共线性。,(,3,)使用命令,estat vif,,对膨胀因子进行计算,经验上当,VIF,的均值,=2,且,VIF,的最大值接近或者超过,10,时,通常认为有较为严重的多重共线性。,当确认模型存在多重共线性时,通常有两种解决方法消除其影响:一种是收集更多的数据,增大样本容量;另一种是通过逐步回归,改进模型的形式。在现实研究过程中,增大样本容量的操作不易执行,所以逐步回归法应用更为广泛。,逐步回归法的基本原理是:先分别拟合被解释变量对于每一个解释变量的一元回归,并将各回归方程的拟合优度按照大小顺序排列,然后将拟合优度最大的解释变量作为基础变量,然后逐渐将其他解释变量加入模型中并同时观测,t,检验值的变化,如果,t,检验显著则保留该变量,否则去除,不断重复此过程直到加入所有显著的解释变量。,二、实验数据和实验内容,根据统计资料得到了某市旅游业的相关数据,变量主要包括:,Y=,旅游收入(单位:万元),,X1=,某市旅游人数(单位:人),,X2=,城镇居民人均旅游支出(单位:元),,X3=,农村居民人均旅游支出(单位:元),,X4=,公路里程(单位:公里),,X5=,铁路里程(单位:公里)。完整的数据在本书附带光盘的,data,文件夹的,“,lvyou.dta,”,工作文件中,。,利用,lvyou,数据估计方程,判断是否存在多重共线性,若存在,采用逐步回归法消除多重共线性。,三、实验操作指导,1.,估计方程,若要进行多重共线性的检验与修正,首先要建立基本的回归模型。按照第六章所讲述内容,建立回归模型,的命令如下:,use c:datalvyou.dta,clear,regress Y X1 X2 X3 X4 X5,执行建立回归的命令,可以得到如图,7.7,所示的回归结果,通过判断发现:整个模型的拟合优度较高,但是变量,X1,和,X5,未通过,t,检验,且,X5,的系数为负,与常理违背,因为在通常情况下,随着铁路里程的增加,交通更加方便,所以旅游收入应该增加。综上所述,可以初步认为该模型存在多重共线性。,2.,多重共线性检验,多重共线性的检验通常采取两种方法,一种是计算膨胀因子,一种是计算变量之间的相关系数,下面将会详细介绍。,(,1,)计算膨胀因子的命令为:,estat vif,uncentered,在这个命令语句中,,estat vif,是计算膨胀因子的命令语句,,uncentered,选项通常使用在没有常数项的模型中。,在本实验中,在回归之后输入此命令,就可得到如图,7.8,所示的膨胀因子数值。结果显示该模型的膨胀因子的平均值为,14.50,,远远大于经验值,2,,膨胀因子最大值为,20.06,,远远大于经验值,10,,所以可以认为该模型存在严重的多重共线性。,(,2,)计算相关系数的命令语句为:,pwcorr varlist if in weight,pwcorr_options,在这个命令语句中,,pwcorr,是计算相关系数的命令,,varl
展开阅读全文