资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第八章 虚拟变量回归,1,8.1,虚拟变量简介,在进行回归分析时,因变量不仅受到一些定量变量,(,如收入、产量、价格、成本,),的影响,而且还受到一些定性变量,(,如性别、学历、季节,),的影响。,比如说在其他因素相同的情况下,具有硕士文凭的人通常能比本科文凭的人获得更高的收入;在一家公司,从事相同工作的男性获得的收入有时也比女性高。诸如学历、性别等等这些定性的变量确实影响着个人的收入,(,因变量,),,而且应该被包含在自变量的行列中。,从这一章开始引入定性变量作为自变量,从而使线性回归模型作为一种及其灵活的工具,可以处理经验研究中许多实际的问题,2,由于这些定性变量通常指某一性质或属性的出现或不出现,比如男性或女性、大学学历或专科学历等,因此量化这些变量的方法就是构造一个取值为,0,或,1,的人为变量,可以用,0,表示某种属性不出现,,1,表示某种属性出现。,这种人为设定的变量就称作虚拟变量,(Dummy Variable),大学毕业,0,其他,男性,0,女性,夏季,0,其他季节,学历,性别,季节,企业规模,大型企业,0,其他,户口,城镇,0,农村,3,8.1.2,虚拟变量的引入方式,1.,加法模型,:仅仅反映定性变量对截距的影响。,男性,0,女性,这个模型和前面的回归模型没有什么太大的差异,只不过用一个虚拟变量,D,代替了,X,。这个模型能使我们发现性别是否会造成公司职员薪水差异,这里假定了其他变量如年龄、学历等都相同,而且随机误差项也服从线性回归模型的基本假定。,4,从上面可以看出,截距系数给出了女职员的平均年薪,而斜率系数反映了男职员和女职员平均年薪的差异。按照普通线性回归模型来估计上面的模型,如果斜率系数能通过显著性检验,就表明这个公司在员工的薪水方面似乎存在性别歧视。,5,右表给出了按性别划分的,10,名公司职员的年薪数据,对应于模型,8.1,的回归结果如下,(7.4392),年薪,Y(,千元,),性别,D(1,男,0,女,),22,1,19,0,18,0,21.7,1,18.5,0,21,1,20.5,1,17,0,17.5,0,21.2,1,由于虚拟变量通过了,t,检验,表明该公司的男女职员平均年薪存在差异,女职员的平均年薪为,18000,元,而男职员的平均年薪为,21280,元,(18000+3280),6,研究一个虚拟变量的模型在实际运用中并不常见,更多的情况是模型中即含有一些定量变量,也含有一些虚拟变量。可以把模型,8.1,改为,男性,0,女性,工龄,年薪,7,2.,乘法模型:反映定性变量对斜率的影响,有适龄子女,0,无适龄子女,收入,支出,以家庭消费支出为例,假设随着家庭收入支出的增加,家庭中有无适龄子女也对边际消费倾向产生影响。,收入,以家庭消费支出为例,假设随着家庭收入支出的增加,家庭中有无适龄子女也对边际消费倾向产生影响。,8,3.,一般形式,:在回归模型中同时以加法和乘法模型引入虚拟变量,在实际运用中,有时没有办法确定定性变量的影响类型,此时可以使用一般形式引入虚拟变量,然后再用,t,检验判断估计参数是否能通过显著性检验,最终确定虚拟变量的具体引入方式。,9,课本,P125,页例,7,中数据建立的我国城镇居民彩电消费模型,(9.03),(8.32),(-6.59),中高收入家庭,0,低收入家庭,模型的估计参数都通过了显著性检验,说明我国城镇居民中高收入和低收入家庭对彩电的消费需求,在截距和斜率上都存在明显差异。,10,8.1.3,虚拟变量引入原则,1.,如果一个定性变量有,m,个类别,那么只能引入,m-1,个虚拟变量。,这样做是为了避免虚拟变量之间产生完全多重共线性问题。,男性,0,其他,女性,0,其他,在上面的例子中,性别有两个类别,因而只引入了一个虚拟变量,如果不遵守这个原则,引入两个虚拟变量,就会产生多重共线性,掉进所谓的“虚拟变量陷阱”。,假设在原模型中设定两个虚拟变量:,11,有,5,个样本数据,,3,名男职员,,2,名女职员,那么数据矩阵如下,1,1(,男,),0,1,1(,男,),0,1,0,1(,女,),1,1(,男,),0,1,0,1(,女,),在完全共线性条件下,没有办法得到三个参数唯一解。,12,在模型中,如何分配虚拟变量是任意的。,男性,0,女性,女性,0,男性,或者,13,2.,如果有,m,定性变量,每个变量只有两个类型,那么可以引入,m,个虚拟变量。,城镇居民,0,农村居民,高收入家庭,0,低收入家庭,农村低收入家庭,农村高收入家庭,城市低收入家庭,城市高收入家庭,比如在研究居民消费函数的时候,考虑到城乡差距和收入差距,消费函数可以表示为,:,14,8.2,虚拟变量的作用,一、调整季节,(,月度,),波动,一季度,0,其他,二季度,0,其他,三季度,0,其他,在使用季节和月度数据建立回归模型时,经常存在季节波动,使用虚拟变量也可以反映季节或月度因素的影响。,例如在利用季度数据对某公司消费,Y,和收入,X,进行回归分析时,在夏季,(,第三季度,),发半年奖或冬季,(,第一季度,),发年终奖时,收入会显得异乎寻常的高,此时为了消除季节变动的影响,可以用加法模式引入季度虚拟变量,15,例,:,美国制造业利润,-,销售额模型分析,二季度,0,其他,三季度,0,其他,四季度,0,其他,16,y,x,d2,d3,d4,10503,114862,0,0,0,12092,123968,1,0,0,10834,121454,0,1,0,12201,131917,0,0,1,12245,129911,0,0,0,14001,140976,1,0,0,12213,137828,0,1,0,12820,145465,0,0,1,11349,136989,0,0,0,12615,145126,1,0,0,11014,141536,0,1,0,12730,151776,0,0,1,12539,148862,0,0,0,14849,158913,1,0,0,13203,155727,0,1,0,14947,168409,0,0,1,14151,162781,0,0,0,15949,176057,1,0,0,14024,172419,0,1,0,14315,183327,0,0,1,12381,170415,0,0,0,13991,181313,1,0,0,12174,176712,0,1,0,10985,180370,0,0,1,17,利用上表中数据,建立回归模型如下,由于只有第二个季度的虚拟变量通过参数的显著性检验,为此可以重新设置模型和虚拟变量,二季度,0,其他季度,18,y,z,d,10503,114862,0,12092,123968,1,10834,121454,0,12201,131917,0,12245,129911,0,14001,140976,1,12213,137828,0,12820,145465,0,11349,136989,0,12615,145126,1,11014,141536,0,12730,151776,0,12539,148862,0,14849,158913,1,13203,155727,0,14947,168409,0,14151,162781,0,15949,176057,1,14024,172419,0,14315,183327,0,12381,170415,0,13991,181313,1,12174,176712,0,10985,180370,0,19,重新建立回归模型,有下面的结果,由于第二季度的虚拟变量通过参数的显著性检验,表明第二季度制造业利润,-,销售额数据和其他三个季度确实存在显著差异。,20,二、检验回归模型的稳定性,利用不同的样本数据估计同一形式的计量经济模型,可能会有不同的结果,若估计的参数之间存在显著差异,那么模型结构是不稳定的;反之模型是稳定的。,使用虚拟变量检验回归模型的稳定性,有下面两个用途:,1,、分析回归模型结构对样本变化的敏感性;,2,、比较、分析两个或多个回归模型的差异情况,即分析模型结构是否发生了变化,如我国改革开放前后经济发生了很大变化,利用前后两个时期的数据建立相关的宏观计量模型,就可能存在较大的差异。,21,设前后两个时期的回归模型分别为,如果引入虚拟变量,后一时期,0,前一时期,那么回归模型可以变为,22,23,24,已知,1946,1963,年英国个人储蓄和收入数据,(,单位:百万英镑,),年份,储蓄,收入,年份,储蓄,收入,1946,0.36,8.8,1955,0.59,15.5,1947,0.21,9.4,1956,0.9,16.7,1948,0.08,10,1957,0.95,17.7,1949,0.2,10.6,1958,0.82,18.6,1950,0.1,11,1959,1.04,19.7,1951,0.12,11.9,1960,1.53,21.1,1952,0.41,12.7,1961,1.94,22.8,1953,0.5,13.5,1962,1.75,23.9,1954,0.43,14.3,1963,1.99,25.2,其中:,19461954,战后重建时期,1955,1963,重建后时期,25,为了研究重建前后两个时期模型是否存在差异,利用表中数据估计混合回归模型,有下面的结果,(-3.2594),(1.6315),(3.1701),回归结果表明,级差截距和级差斜率都通过了显著性检验,重建前后两个时期的回归差异显著。,0,重建时期,1,重建后时期,26,重建时期:,重建后时期:,-0.2663,-1.7502,收入,储蓄,27,3,、分段线性回归,其基本形式为,在研究某些经济问题时,要使用分段回归模型来进行描述。,28,Y(,总成本,),X(,产出,),d,256,1000,0,414,2000,0,634,3000,0,778,4000,0,1003,5000,0,1839,6000,1,2081,7000,1,2423,8000,1,2734,9000,1,2914,10000,1,已知一个成本和产出函数,假设在,5500,单位的产出水平时,总成本函数也许会改变斜率,29,利用表中数据,建立回归模型如下,从结果中可以看出,虚拟变量并没有通过参数的显著性检验,因此模型在产出,X=5500,的时候并没有改变斜率,30,
展开阅读全文