资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,计量经济软件应用,Stata软件试验之一元、,多元回归分析,内容概要,一、试验目的,二、简洁回归分析的Stata根本命令,三、简洁回归分析的Stata软件操作实例,四、多元回归分析的Stata根本命令,五、多元回归分析的Stata软件操作实例,一、试验目的:,把握运用Stata软件进展简洁回归分析以及,多元回归分析的操作方法和步骤,并能看懂,Stata软件运行结果。,二、简洁回归分析的Stata根本命令,简洁线性回归模型 ( simple linear regression model ) 指,只有一个解释变量的回归模型。如:,其中,y 为被解释变量,x 为解释变量,u 为随机误差项,,表示除 x 之外影响 y 的因素; 称为斜率参数或斜率系,数, 称为截距参数或截距系数,也称为截距项或常数项。,简洁线性回归模型的一种特殊状况:,即假定截距系数 时,该模型被称为过原点回归;过,原点回归在实际中有确定的应用,但除非有特殊明确的理,论分析说明 ,否则不宜轻易使用过原点回归模型。,二、简洁回归分析的Stata根本命令,regress y x,以 y 为被解释变量,x 为解释变量进展一般最小二乘,(OLS)回归。regress命令可简写为横线上方的三个字,母reg。,regress y x, noconstant,y 对 x 的回归,不包含截距项 (constant),即过原点回归。,predict z,依据最近的回归生成一个新变量 z,其值等于每一个观测,的拟合值即 。,predict u, residual,依据最近的回归生成一个新变量 u,其值等于每一个观测,的残差即 。,三、简洁回归分析的Stata软件操作实例,试验 1 简洁回归分析:教育对工资的影响,劳动经济学中常常争论的一个问题是劳动者工资的准备。不,难想象,准备工资的因素有很多,例如力气、性别、工作阅历、,教育水平、行业、职业等。在这里仅考虑其中一种因素:教育,水平,建立如下计量模型:,其中,wage 为被解释变量,表示小时工资,单位为元;edu,为解释变量,表示受教育年限,即个人承受教育的年数,单,位为年;u为随机误差项。假定模型(3.1)满足简洁回归模型的,全部5条根本假定,这样 的OLS估量量 将是最正确线性,无偏估量量。请依据表S-2中给出的数据承受Stata软件完成上,述模型的估量等工作。,三、简洁回归分析的Stata软件操作实例,1、翻开数据文件。直接双击“工资方程1.dta”文件;或者点,击Stata窗口工具栏最左侧的Open键,然后选择“工资方程,1.dta”即可;或者先复制Excel表S-2中的数据,再点击Stata,窗口工具栏右起第4个Data Editor键,将数据粘贴到翻开的,数据编辑窗口中,然后关闭该数据编辑窗口,点击工具栏左,起其次个Save键保存数据,保存时需要给数据文件命名。,2、给出数据的简要描述。使用describe命令,简写为:,des 得到以下运行结果;,三、简洁回归分析的Stata软件操作实例,结果显示“工资方程1.dta”数据文件包含1225个样本和11个变,量;11个变量的定义及说明见第3列。,三、简洁回归分析的Stata软件操作实例,3、变量的描述性统计分析。,对于定量变量,使用summarize,命令:,su age edu exp expsq wage lnwage,,得到以下运行结,果,保存该运行结果;,第1列:变量名; 第2列:观测数;,第3列:均值; 第4列:标准差;,第5列:最小值; 第6列:最大值。,三、简洁回归分析的Stata软件操作实例,4、wage对edu的OLS回归。使用regress命令:,reg wage edu,得到以下运行结果,保存该运行结果;,(1) 表下方区域为根本的回归结果。第1列依次为被解释变量wage,解释,变量edu,截距项constant;第2列回归系数的OLS估量值;第3列回归系,数的标准误;第4列回归系数的 t 统计量值;,写出样本回归方程为:,即假设受教育年限增加1年,平均来说小时工资会增加0.39元。,三、简洁回归分析的Stata软件操作实例,(2) 表左上方区域为方差分析表。第2列从上到下依次为回归平方和(SSE)、,残差平方和(SSR)和总离差平方和(SST);第3列为自由度,分别为,k,=1,,,n,-,k,-1=1225-1-1=1223,,n,-1=1225-1=1224;,第4列为均方和(,MSS,),由各项,平方和除以相应的自由度得到。,(3) 表右上方区域给出了样本数(,Number of obs,)、判定系数(,R-squared,)、,调整的判定系数(,Adj,R-squared,)、,F,统计量的值、回归方程标准误或均方,根误(,Root MSE,, 或,S.E.),以及其他一些统计量的信息。,上述回归分析的菜单操作实现:,Statistics,Linear models and related,Linear regression,弹出对话框,在,Dependent Variable,选项框中选择或键,入wage,在Ind,ependent Variables,选项框中选择或键入edu,点击,OK,即可,三、简洁回归分析的Stata软件操作实例,5、生成新变量 z 为上一个回归的拟合值,生成新变量 u 为,上一个回归的残差;然后依据 u 对数据进展从小到大的排,序,并列出 u 最小的5个观测。,命令如下:,predict z (生成拟合值),predict u, residual ( 生成残差 ),sort u (依据 u 对数据从小到大排序),list wage z u in 1/5 (列出 u 最小的5个观测值以及对应的实,际样本观测值和拟合值),即对于观测 1,小时工资的实际观测值(wage)为2.46,拟合值(z)为,9.10,残差(u)为-6.64。,三、简洁回归分析的Stata软件操作实例,6、画出以wage为纵轴,以edu为横轴的散点图,并参与样本,回归线。命令如下:,graph twoway lfit wage edu | scatter wage edu,得到以下运行结果,保存该运行结果;,三、简洁回归分析的Stata软件操作实例,7、wage对edu的OLS回归,只使用年龄小于或等于30岁的样,本。命令如下:,reg wage edu if age=30,得到以下运行结果,保存该运行结果;,写出样本回归方程为:,对于年龄在30岁及以下的劳动者,增加 1 年受教育年限使得工资会,增加0.41元,略高于针对全体样本的估量值。,三、简洁回归分析的Stata软件操作实例,8、,wage,对,edu,的OLS回归,不包含截距项,即过原点回归。,命令如下:,reg wage edu, noconstant,得到以下运行结果,保存该运行结果;,三、简洁回归分析的Stata软件操作实例,9、取半对数模型。模型 (3.1) 假定增加 1 年受教育年限带来,一样数量的工资增长;但美国经济学家明瑟(J. Mincer)等人,的争论说明,更合理的状况是增加 1 年受教育年限导致一样,百分比的工资增长。这就需要使用半对数模型(对数-水平模,型),即:,其中lnwage是小时工资的自然对数;斜率系数的经济含义是:,增加 1 年受教育年限导致收入增长 ,该百分比值一,般称为教育收益率或教育回报率(the rate of return to education),做lnwage对edu的回归,命令如下:,reg lnwage edu,得到以下运行结果,保存该运行结果(见下页);,三、简洁回归分析的Stata软件操作实例,写出样本回归方程为:,结果说明教育收益率的估量值为5.03%,即平均而言,增加 1,年受教育年限使得工资增长5.03% 。,三、简洁回归分析的Stata软件操作实例,10、最终可建立 do 文件把前面所执行过的命令保存下来。,在do文件的编辑窗口中点击Stata窗口工具栏右起第5个,New Do-file Editor键即翻开Stata的do文件编辑窗口键入如,下命令和注释,并保存为“工资方程1.do”文件。该文件的内,容为:,use “D:讲课资料周蓓的上课资料数据【重要】【计量经济学软件应用,课件】10649289stata10工资方程1.dta“, clear/翻开数据文件,des/数据的简要描述,su age edu exp expsq wage lnwage/定量变量的描述性统计,reg wage edu/简洁线性模型的OLS估量,graph twoway lfit wage edu | scatter wage edu/作图,reg wage edu if age=30/只使用年龄小于或等于30岁的样本进展OLS估量,reg wage edu, noconstant/过原点回归,reg lnwage edu/对数-水平模型,三、简洁回归分析的Stata软件操作实例,试验 2 简洁回归分析:学校投入对学生成绩的影响,表S-3记录了一些学校某个年份高一学生的平均成绩及有,关学校的其他一些信息。本试验主要考察学校的生均支出,(expend) 对学生数学平均成绩 (math) 的影响;生均支出代表,了学校的经费投入水平,从理论上说,在其他条件不变的情,况下,学生在生均支出越高的学校中能够获得更好的教学资,源(包括更优秀的师资、更好的硬件设备等),从而学习成绩,也应当越高。请依据表S-3中给出的数据承受Stata软件完成,相关模型的估量等工作。,1、翻开数据文件。双击“学校投入与学生成绩.dta”文件,或点,击Stata窗口工具栏Open键选择“学校投入与学生成绩.dta”即可;,或复制Excel表S-3中的数据后点击Stata窗口工具栏Data Editor,键,将数据粘贴到数据编辑窗口中,关闭该窗口,点击工具栏,Save键保存数据,保存时要给数据文件命名。,三、简洁回归分析的Stata软件操作实例,2、假定生均支出 (expend) 与影响学生数学成绩的其他因素,不相关,建立如下四个简洁回归模型:,水平-水平模型:,水平-对数模型:,对数-水平模型:,对数-对数模型(常弹性模型):,水平-水平模型的命令及运行结果如下:reg math expend,估量结果说明:学校生均支出增加1千元,使得学生数学平均成绩,将提高2.46分;,三、简洁回归分析的Stata软件操作实例,水平-对数模型的命令及运行结果如下:,reg math lnexpend,估量结果:,即学校生均支出增加1%,使得学生数学平均成绩将提高,0.11分;,三、简洁回归分析的Stata软件操作实例,对数-水平模型的命令及运行结果如下:,reg lnmath expend,估量结果:,即学校生均支出增加1千元,使得学生数学平均成绩将提高,7%;,三、简洁回归分析的Stata软件操作实例,对数-对数模型的命令及运行结果如下:,reg lnmath lnexpend,估量结果:,即学校生均支出增加1%,使得学生数学平均成绩将提高,0.32%;,四、多元回归分析的Stata根本命令,对于多元线性回归模型:,regress y x1 x2xk,以 y 为被解释变量, x1, x2,xk 为解释变量进展一般最,小二乘(OLS)回归。regress命令可简写为reg;,regress y x1 x2xk, noconstant,y对x1, x2,xk的回归,不包含截距项,即过原点回归;,test x1 x2 x3,依据最近的回归进展 F 检验,原假设为:,test,依据最近的回归进展F检验,原假设为:,五、多元回归分析的Stata软件操作实例,试验 1 多元回归分析:工资方程,利用数据文件“工资方程1.dta”建立工资方程考察影响小时,工资(wage)的因素,重点关注受教育年限(edu)的系数,即教,育收益率(即对数-水平模型的斜率系数)。,1、翻开数据文件。直接双击“工资方程1.dta”文件;或者点,击Stata窗口工具栏最左侧的Open键,然后选择“工资方程,1.dta”即可;,2、简洁回归分析。首先建立简洁回归模型(对数-水平模型):,命令及运行结果如下:,reg lnwage edu,五、多元回归分析的Stata软件操作实例,回归结果说明:假设不考虑其他因素的影响,教育收益率,的估量值为5.03%,即平均而言,增加 1年受教育年限使,得工资增长5.03% 。,五、多元回归分析的Stata软件操作实例,3、多元回归分析。除了受教育年限 (edu) 之外,工作阅历,(exp) 也是影响小时工资 (wage) 的重要因素。从理论上分,析,其他条件不变,工作阅历越长说明劳动者的工作阅历越,丰富,劳动生产率也越高,从而工资水平较高。假设工作经,验(exp)与受教育年限(edu)不相关或相关程度很低,那么在工,资方程中是否参与工作阅历(exp)对教育收益率的估量几乎没,有影响;但假设工作阅历(exp)与受教育年限(edu)显著相关,,那么在工资方程中不参与工作阅历(exp)会使得教育收益率的,估量有偏误。为此,需要首先考察样本中工作阅历(exp)与受,教育年限(edu)是否显著相关,方法是计算二者之间的样本相,关系数并进展显著性检验,使用的命令如下:,pwcorr edu exp, sig,(pwcorr求样本相关系数命令,选项sig表示列出原假设H0为相关,系数等于0的假设检验的准确显著性水平,即统计量的相伴概率值),五、多元回归分析的Stata软件操作实例,得到以下运行结果:,可见,edu与exp的样本相关系数为-0.5005,显著性水平即假,设检验统计量的相伴概率值为0.0000,即拒绝相关系数等于,0的原假设,edu与exp之间存在显著负相关;因此,假设理,论上exp对工资(wage)的影响为正,那么在回归方程中遗漏了,exp 会使得 edu 的系数估量产生负的偏误,即估量值偏低。,为此,考虑使用多元回归模型:,使用的命令及运行结果如下:,五、多元回归分析的Stata软件操作实例,reg lnwage edu exp,(1) 表下方区域为回归分析的主要结果。第1列分别为被解释变量,Lnwage,解释变量edu,解释变量exp以及截距项;第2列显示回,归系数的OLS估量值;第3列显示回归系数的标准误;第4列显示,回归系数的 t 统计量;第5列显示 t 检验的准确的显著性水平(即 t,统计量的相伴概率P值);最终两列显示置信水平为95%的回归系,数的置信区间。,五、多元回归分析的Stata软件操作实例,结果样本回归方程为:,回归系数下方括号中所示数字从上到下依次为回归系数的标准误、,t 统计量和P值;edu的系数和截距项在1%显著性水平上统计显,著,exp的系数在5%显著性水平上统计显著,说明教育(edu)和工,作阅历(exp)对小时工资(wage)均有显著的正向影响;这一结果也,可以从回归系数的置信区间中可以看出,即两个系数的95%的置,信区间均不包含0,至少可以在5%显著性水平上分别拒绝这两个,系数等于 0 的原假设。,两个斜率系数的经济含义:假设保持工作阅历(exp)不变,受教,育年限(edu)增加 1 年,平均来说小时工资会增加5.67%,即教育,收益率为5.67%;另一方面,假设保持受教育年限(edu)不变,,五、多元回归分析的Stata软件操作实例,工作阅历(exp)增加1年,平均来说小时工资会增加0.29%,,即工龄的收益率为0.29%。,前面的分析指出:理论上 exp 对 lnwage 的影响为正,而,样本中 edu 与 exp 显著负相关,那么与上述多元回归模型相,比,承受只包含 edu 的简洁回归模型就会使得 edu 的系数估,计值偏低。分析结果证明白这一点,简洁回归模型中 edu 的,系数估量值为 0.0503 (5.03%),而多元回归模型中 edu 的系,数估量值为0.0567 (5.67%), 后者大于前者。,五、多元回归分析的Stata软件操作实例,(2) 表左上方区域为方差分析表。第2列从上到下依次为回归平方,和 (SSE)、残差平方和 (SSR)及总离差平方和 (SST);第3列为自由,度;第4列为均方和 (MSS),由各项平方和除以相应的自由度得到,(3) 表右上方区域。样本数 (Number of obs) 为1225;回归模型总体,显著性检验 F 检验的 F 统计量等于45.75,其准确的显著性水平,(即相伴概率值)为0.0000,可以拒绝全部的斜率系数都等于0的原,假设,即模型总体显著成立;判定系数(R-squared)为0.0697,调整,的判定系数(Adj R-squared)为0.0681,略小于判定系数;均方根误,(Root MSE),也就是回归模型标准误S.E.或 为0.51234 。,五、多元回归分析的Stata软件操作实例,试验 2 多元回归分析:学习努力程度对大学英语成绩的影响,数据文件“大学英语成绩.dta”(或表S-4)为某高校大一学生英,语期末考试成绩及相关信息,本例关注学生的学习努力程度,对期末成绩的影响,并且用学生的上课出勤率和完成作业的,状况衡量学习努力程度。建立如下模型并进展回归分析:,其中 final 为英语期末考试成绩,attend 为本学期英语课的出,勤率(百分数),homework 为本学期英语课课后作业的完成率,(百分数);,1、翻开数据文件。直接双击“大学英语成绩.dta”文件;或点击Stata,窗口工具栏最左侧的Open键,然后选择“大学英语成绩.dta”即可;,2、上述模型的回归分析。命令及运行结果如下:,reg final attend homework,五、多元回归分析的Stata软件操作实例,结果显示样本回归方程为:,attend 和 homework的回归系数在10%的显著性水平上显著。在保,持作业完成率(homework)不变的条件下,上课出勤率(attend) 提高,10个百分点将令其期末成绩提高0.80分;在保持上课出勤率(attend),不变的条件下,作业完成率(homework)提高10个百分点将令其期末,成绩提高0.65分;可以认为学习努力程度确实影响期末成绩。判定,系数 和调整的判定系数 仅为0.02,表示attend 和 homework两,个变量联合起来仅能解释 final 总变异的2%多,说明模型的总体,五、多元回归分析的Stata软件操作实例,拟合程度不高。,明显,除了学习努力程度(attend和homework)之外,学生从前的,英语水平也会对期末成绩(final)起到准备性作用;而且假设从前的,英语水平与学习努力程度(attend和homework)相关,那么遗漏了先,前的英语水平作为解释变量就会使得学习努力程度 (attend和,homework)的系数估量值产生偏误。为此,考虑使用入学考试成绩,(entry)衡量从前的英语水平。,首先估算entry和attend以及entry和homework的样本相关系数;,命令为:pwcorr entry attend homework, sig,五、多元回归分析的Stata软件操作实例,可以看出,entry和attend 以及 entry和homework 都是显著负相关,的,因此假设理论上 entry 对 final的影响为正,那么遗漏了entry的,上述二元回归模型就会使得 attend 和 homework 的OLS估量值偏,低;,因此,在上述二元回归模型的根底上参与 entry 作为解释变量:,回归分析的命令及运行结果如下:,reg final attend homework entry,五、多元回归分析的Stata软件操作实例,样本回归方程为:,结果说明,参与entry作为解释变量后 attend 和 homework的系数估,计值变大了,而且在统计上更为显著;entry的系数也显著为正。,模型分析结果说明,对于从前英语水平(entry)一样的学生,学习,努力程度能够对期末成绩产生显著的正向影响。具体数值是,在,其他条件一样的状况下,上课出勤率(attend)提高10个百分点将令,期末成绩提高1.23分,作业完成率(homework)提高10个百分点将令,期末成绩提高0.67分。,另外,模型的判定系数 和 为0.17,相比原二元模型大大提,高,说明从拟合优度角度看,现三元模型要比原二元模型好很多。,对三元模型的系数进展F 检验。三元回归显示 的估量值为,0.5278,想进展假设检验 ; (即考察入学成绩的变,化是否能够带来期末成绩的一样变化),可使用如下 test 命令:,test entry=1,结果显示 F 统计量为96.66,其相伴概率值为0.0000,即可以拒绝,的原假设;,类似地,对于假设检验 ; ,命令及结果如下:,test entry=0.5,结果 F 统计量的相伴概率值为0.5633,不能拒绝 的原假设;,test命令用于F 检验的联合检验。比方考察 是否同时为0,即,; 中至少有一个不为0;命令及结果如下:,test attend homework,结果 F 统计量的相伴概率值为0,即拒绝 同时为0的原假设,也,就是说不能认为学习努力程度对期末成绩没有影响。,End,
展开阅读全文