资源描述
第7章含虚拟变量的回归模型重点内容:虚拟变量的定义定性变量与定量变量的划分含虚拟变量模型的估计,一、虚拟变量的定义1.定性变量与定量变量,定量变量:回归模型中有些变量是可以被度量的,如居民消费、国内生产总值、出口总额等,这些变量被称为“定量变量”。定性变量:在经济现象的分析中还存在一些不能被度量的变量,如性别、种族、婚姻状况、文化程度等,这些变量被称为“定性变量”。,一、虚拟变量的定义2.虚拟变量,定义:定性变量描述的是变量具有的性质,要将这样的变量纳入回归模型中,需构造人工变量,从而将定性变量进行量化处理。在计量经济学中,将取值为“0”和“1”的人工变量称作虚拟变量(DummyVariable),用字母D表示。当D取值为0时,表示该变量不具备某种属性;当D取值为1时,表示该变量具有某种属性。,一、虚拟变量的定义2.虚拟变量,虚拟变量陷阱:所谓的“虚拟变量陷阱”是指自变量(解释变量)中包含了过多的虚拟变量,从而导致了模型出现多重共线性。当模型中既有整体截距又对每一组都设有一个虚拟变量时,就产生了虚拟变量陷阱。,一、虚拟变量的定义2.虚拟变量,引入虚拟变量的原则:一般情况下,如果定性变量有m类,并且模型不含有截距项时,应引入m个虚拟变量;如果模型含有截距项,应引入m-1个虚拟变量。,二、含虚拟变量的模型1.仅含一个虚拟变量,在回归模型中,解释变量可以仅是一个虚拟变量,这样的回归模型被称为方差分析模型。例如:yt=0+1Dt+t假设被解释变量yt为员工工资收入,Dt为虚拟解释变量,取值为0或1:1,雇员为女性Dt=0,雇员为男性,二、含虚拟变量的模型1.仅含一个虚拟变量,如果该回归模型的随机误差项满足线性回归模型的五个基本假定条件,则E(yt|Dt=1)=E(雇员工资收入|雇员为女性)=0+1E(yt|Dt=0)=E(雇员工资收入|雇员为男性)=00+1表示女性雇员的平均工资收入,0表示男性雇员的平均工资收入。,二、含虚拟变量的模型1.仅含一个虚拟变量,实验:根据表7-1中的数据显示,建立解释变量为虚拟变量的回归模型。表中列出了24个不同性别的企业员工的月工资收入情况,性别一列中“1”表示女性员工,“0”表示男性员工。通过建立含有虚拟变量的回归模型,试图分析男女平均工资是否存有差距,如果有差距,那么差距是多少。,二、含虚拟变量的模型1.仅含一个虚拟变量,实验:回归模型为yt=0+1Dt+t(t=1,2,n)其中,yt表示企业员工的工资收入情况,Dt=0表示男性员工,Dt=1表示女性员工。,二、含虚拟变量的模型1.仅含一个虚拟变量,实验:第一步,建立类型为“Unstructured/Undated”(未限定结构/未限定日期)的工作文件,在“Datarange”(数据范围)中输入观测数据的样本范围,本例中所分析的数据为24个样本,在“Names”中为该工资文件命名,如“工资与性别关系”。然后单击“OK”按钮即可生成工作文件。,二、含虚拟变量的模型1.仅含一个虚拟变量,实验:第二步,在该工作文件中建立两个序列对象,一个为“wage”,一个为“sex”。第三步,在“wage”序列对象中输入“工资”的数据,在“sex”序列对象中输入“性别”的数据。,二、含虚拟变量的模型1.仅含一个虚拟变量,实验:第四步,在工作文件中选择主菜单栏中的“Object”|“NewObject”|“Equation”选项,或者选择“Quick”|“EstimateEquation”选项,打开如下所示的方程对话框。,二、含虚拟变量的模型1.仅含一个虚拟变量,实验:在“Equationspecification”(方程说明)中列出模型中的被解释变量、常数项和解释变量。在“Estimationsettings”(估计方法设定)中选择“LS”,用普通最小二乘法对回归模型进行估计。然后单击“确定”按钮即可得到如下估计结果。,二、含虚拟变量的模型1.仅含一个虚拟变量,实验:虚拟变量的回归方程结果可以表示为:Wage=3478.869595.0965sext=(30.06899)(-3.482241)R2=0.35533Adjusted-R2=0.326027F=12.126D.W.=2.232989结果表明,该企业的女性员工的平均工资水平为2883.7725(3478.869595.0965)元人民币,该企业的男性员工的平均工资水平为3478.869元人民币。由此可见,女性的平均工资比男性少了595.0965元。,二、含虚拟变量的模型2.同时含虚拟和定量解释变量,当方程的解释变量中既有虚拟变量又有定量变量时,同样可以用OLS对模型进行估计。例如:yt=0+1xt+2Dt+t,二、含虚拟变量的模型2.同时含虚拟和定量解释变量,实验:随着科技的进步和人民生活水平的不断提高,电脑越来越普及,许多家庭纷纷把个人电脑(PC机)搬进家中。我们可以研究人们的收入水平、受教育程度与城乡居民之间的关系。模型如下,yt=0+1xt+2D2t+3D3t+t(t=1,2,n)其中,yt表示根据调查资料所得到的家庭所购买个人电脑情况,xt表示家庭收入,D2和D3为虚拟解释变量。,二、含虚拟变量的模型2.同时含虚拟和定量解释变量,实验:1,大专及以上学历D2=0,其他1,城镇居民D3=0,非城镇居民根据表7-2中的数据用普通最小二乘法(OLS)对模型进行估计,并分析回归结果。,二、含虚拟变量的模型2.同时含虚拟和定量解释变量,操作步骤:第一步,建立类型为“Unstructured/Undated”(未限定结构/未限定日期)的工作文件。第二步,在该工作文件中建立四个序列对象。“pc”代表家庭拥有的电脑数量;“rev”代表家庭每月收入;“edu”代表教育程度;“city”表示城乡居民情况。并把相应的数据输入到每个序列对象中。,二、含虚拟变量的模型2.同时含虚拟和定量解释变量,操作步骤:第三步,在工作文件中选择主菜单栏中的“Object”|“NewObject”|“Equation”选项,打开方程对话框。在“Equationspecification”(方程说明)中输入“pccreveducity”或“pc=c(1)+c(2)*rev+c(3)*edu+c(4)*city”,在“Estimationsettings”(估计方法设定)中选择“LS”。,二、含虚拟变量的模型2.同时含虚拟和定量解释变量,操作步骤:第四步,结果分析。右图中,变量edu和变量city没有通过显著性(t)检验,说明这两个变量对因变量pc的影响不显著。因而,在所调查的样本中,被调查者的受教育程度以及是否是城镇居民对拥有个人电脑的数量没有显著的影响。,三、用虚拟变量法进行季节调整,在使用虚拟变量法对时间序列进行季节性调整时,可以计算出每个季节对经济变量的影响。假设模型含有截距项,则四个季节包含了4种分类,因而需要引入3个虚拟变量(41)。用Qi表示第i个季度取值为1,其他季节取值为0这样一个虚拟变量,则Q1+Q2+Q3+Q41。当时间序列的数据样本为月度数据时,建立虚拟变量的方法与季度数据相同,只是如果模型含有截距项,则月度数据要建立11个虚拟变量。,本章小结:理解虚拟变量的定义掌握引入虚拟变量的方法掌握含虚拟变量模型的建立方法,
展开阅读全文