资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,一、虚拟变量的基本含义,许多经济变量是,可以定量度量,的,,如:,商品需求量、价格、收入、产量等。,但也有一些影响经济变量的因素,无法定量度量,,,如:,职业、性别对收入的影响,战争、自然灾害对,GDP,的影响,季节对某些产品(如冷饮)销售的影响等等。,为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”。,这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类型,构造只取“,0”,或“,1”,的人工变量,通常称为,虚拟变量,(,dummy variables,),记为,D,。,例如,,反映文化程度的虚拟变量可取为,:,1,,本科学历,D=,0,,非本科学历,一般地,在虚拟变量的设置中:,基础类型、肯定类型取值为,1,;,比较类型,否定类型取值为,0,。,概念:,同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型或者方差分析,(,analysis-of variance:ANOVA,),模型,。,一个以性别为虚拟变量考察企业职工薪金的模型:,其中:,Y,i,为企业职工的薪金,,X,i,为工龄,,D,i,=1,,若是男性,,D,i,=0,,若是女性。,二、虚拟变量的引入,虚拟变量做为解释变量引入模型有两种基本方式:,加法方式,和,乘法方式,。,上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。,在该模型中,如果仍假定,E(,i,)=0,,则,企业女职工的平均薪金为:,1.,加法方式,企业男职工的平均薪金为:,几何意义:,假定,20,,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对工龄的变化率是一样的,但两者的平均薪金水平相差,2,。,可以通过传统的回归检验,对,2,的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。,0,2,又例,:在横截面数据基础上,考虑个人保健支出对个人收入和教育水平的回归。,教育水平考虑三个层次:高中以下,,高中,,大学及其以上。,这时需要引入两个虚拟变量:,模型可设定如下:,在,E(,i,)=0,的初始假定下,高中以下、高中、大学及其以上教育水平下个人保健支出的函数:,高中以下:,高中:,大学及其以上:,假定,3,2,,其几何意义:,还可将多个虚拟变量引入模型中以考察多种“定性”因素的影响。,如,在上述职工薪金的例中,再引入代表学历的虚拟变量,D,2,:,本科及以上学历,本科以下学历,职工薪金的回归模型可设计为:,女职工本科以下学历的平均薪金:,女职工本科以上学历的平均薪金:,于是,不同性别、不同学历职工的平均薪金分别为:,男职工本科以下学历的平均薪金:,男职工本科以上学历的平均薪金:,2.,乘法方式,加法方式引入虚拟变量,考察:,截距的不同。,许多情况下:往往是斜率就有变化,,或斜率、截距同时发生变化,。,斜率的变化可通过以乘法的方式引入虚拟变量来测度,。,例,:,根据消费理论,消费水平,C,主要取决于收入水平,Y,,但在一个较长的时期,人们的消费倾向会发生变化,尤其是在自然灾害、战争等反常年份,消费倾向往往出现变化。这种消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。,如,设,消费模型可建立如下:,这里,虚拟变量,D,以与,X,相乘的方式引入了模型中,从而可用来考察消费倾向的变化。,假定,E(,i,)=0,,,上述模型所表示的函数可化为:,正常年份:,反常年份:,当截距与斜率发生变化时,则需要同时引入加法与乘法形式的虚拟变量,。,例,,,考察,1990,年前后的中国居民的总储蓄,-,收入关系是否已发生变化。,表中给出了中国,19792001,年以城乡储蓄存款余额代表的居民储蓄以及以,GNP,代表的居民收入的数据。,以,Y,为储蓄,,X,为收入,可令:,1990,年前:,Y,i,=,1,+,2,X,i,+,1i,i=1,2,n,1,1990,年后:,Y,i,=,1,+,2,X,i,+,2i,i=1,2,n,2,则有可能出现下述四种情况中的一种:,(1),1,=,1,,且,2,=,2,,即两个回归相同,称为,重合回归,(,Coincident Regressions,);,(2),1,1,但,2,=,2,,即两个回归的差异仅在其截距,称为,平行回归,(,Parallel Regressions,),;,(3),1,=,1,,但,2,2,,即两个回归的差异仅在其斜率,称为,汇合回归,(,Concurrent Regressions,),;,(4),1,1,,且,2,2,,即两个回归完全不同,称为,相异回归,(,Dissimilar Regressions,)。,平行回归,汇合回归,相异回归,可以运用,邹氏结构变化的检验,。这一问题也可通过引入乘法形式的虚拟变量来解决。,将,n,1,与,n,2,次观察值合并,并用以估计以下回归:,D,i,为引入的虚拟变量:,于是有:,可分别表示,1990,年,后期,与,前期,的储蓄函数。,在统计检验中,如果,3,=0,的假设被拒绝,则说明两个时期中储蓄函数的截距不同,,如果,4,=0,的假设被拒绝,则说明两个时期中储蓄函数的斜率不同。,具体的回归结果为:,(-6.11)(22.89)(4.33)(-2.55),由,3,与,4,的,t,检验可知:参数显著地不等于,0,,强烈示出两个时期的回归是相异的,,储蓄函数分别为:,1990,年前:,1990,年后:,=0.9836,邹氏结构变化的检验和虚拟变量法的比较,邹检验只是告诉我们结构是否已经变化,而不能告诉我们当有变化时候是因为只是斜率相异或只是截距相异,或两者均相异。但是虚拟变量法不仅告诉我们两个回归是否有差异,而且落实到差异的起因,由于截距或由于斜率或由于两者。,我们只要做一个回归,因为其他的回归可以方便地由它导出。,这个单一的回归可以用来做各种假设检验。,由于合并而增加了自由度,参数估计的相对精度也有所改进。,3.,临界指标的虚拟变量的引入(分段回归),在经济发生转折时期,可通过建立临界指标的虚拟变量模型来反映。,例如,,进口消费品数量,Y,主要取决于国民收入,X,的多少,中国在改革开放前后,,Y,对,X,的回归关系明显不同。,则进口消费品的回归模型可建立如下:,这时,可以,t*=1979,年为转折期,以,1979,年的国民收入,Xt,*,为临界值,设如下虚拟变量:,OLS,法得到该模型的回归方程为:,则两时期进口消费品函数分别为:,当,tt*=1979,年,,当,t,t,*=1979,年,,三、虚拟变量的设置原则,虚拟变量的个数须按以下原则确定:,每一定性变量所需的虚拟变量个数要比该定性变量的类别数少,1,,即如果有,m,个定性变量,只在模型中引入,m-1,个虚拟变量。,例,已知冷饮的销售量,Y,除受,k,种定量变量,X,k,的影响外,还受春、夏、秋、冬四季变化的影响,要考察该四季的影响,只需引入三个虚拟变量即可:,则冷饮销售量的模型为:,在上述模型中,若再引入第四个虚拟变量:,则冷饮销售模型变量为:,其矩阵形式为:,如果只取六个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则式中的:,显然,,(,X,D,),中的第,1,列可表示成后,4,列的线性组合,从而,(,X,D,),不满秩,参数无法唯一求出。,这就是所谓的“,虚拟变量陷阱,”,,应避免。,四、虚拟因变量模型,-,二值选择的线性概率模型,
展开阅读全文