资源描述
*,制作与教学,武汉理工大学,管理学院 熊伟,Page,*,Ch7 扩展的单方程模型,计量经济学,Econometrics,Chapter7 扩展的单方程模型,Extensive Single-Equation Model,7.1选择性样本模型,Selective Samples Model,7.2 二元选择模型,Binary choice model,7.3,面板数据模型,Panel Data Models,11/6/2024,7.1选择性样本模型,Selective Samples Model,7.1选择性样本模型,Selective Samples Model,11/6/2024,7.1选择性样本模型,Selective Samples Model,一、截断问题,截断的概念、截断的分布、截断模型的估计,常用最大似然估计法,二、归并问题(删失问题),归并的概念、归并的分布、归并模型(Tobin模型)的估计,11/6/2024,7.2 二元选择模型 Binary choice model,11/6/2024,7.2 二元选择模型 Binary choice model,如果回归模型的解释变量中含有定性变量,则可以用虚拟变量处理之。在实际经济问题中,被解释变量也可能是定性变量。如通过一系列解释变量的观测值观察人们对某项动议的态度,某件事情的成功和失败等。,二元选择模型或多元选择模型,统称,离散选择模型,。二元选择模型主要有,Tobit(线性概率)模型,Probit(概率单位)模型,Logit模型,Extreme value模型,11/6/2024,7.2 二元选择模型 Binary choice model,其中,u,i,为随机误差项,,x,i,为定量解释变量。,y,i,为二元选择变量。此模型由James Tobin 1958年提出,因此得名。如利息税、机动车的费改税问题等。设,7.2.1 Tobit(线性概率)模型,Tobit模型的形式如下,,对,y,i,取期望,E(,y,i,)=,+,x,i,(2),(1),11/6/2024,y,i,服从两点分布。把,y,i,的分布记为,,则,E(,y,i,)=1(,p,i,)+0(1-,p,i,)=,p,i,(3),由(2)和(3)式有,p,i,=,+,x,i,(,y,i,的样本值是0或1,,,而预测值是概率。)(4),以,p,i,=-0.2,+0.05,x,i,为例,说明,x,i,每增加一个单位,则采用第一种选择的概率增加0.05,。,现在分析Tobit模型误差的分布。由Tobit模型(1)有,,7.2 二元选择模型 Binary choice model,11/6/2024,7.2 二元选择模型 Binary choice model,E(,u,i,)=(1-,-,x,i,),p,i,+(-,-,x,i,)(1-,p,i,)=,p,i,-,-,x,i,由(4)式,有,E(,u,i,)=,p,i,-,-,x,i,=0,因为,y,i,只能取0,1两个值,所以,,11/6/2024,7.2 二元选择模型 Binary choice model,上两式说明,误差项的期望为零,方差具有异方差。当,p,i,接近0或1时,,u,i,具有较小的方差,当,p,i,接近1/2时,,u,i,具有较大的方差。所以Tobit模型(1)回归系数的OLS估计量具有无偏性和一致性,但不具有有效性。,假设用模型,p,i,=-0.2,+0.05,x,i,进行预测,当预测值落在 0,1 区间之内(即,x,i,取值在4,24 之内)时,则没有什么问题;但当预测值落在0,1 区间之外时,则会暴露出该模型的严重缺点。因为概率的取值范围是 0,1,所以此时必须强令预测值(概率值)相应等于0或1。,11/6/2024,7.2 二元选择模型 Binary choice model,线性概率模型常写成,然而这样做是有问题的。假设预测某个事件发生的概率等于1,但是实际中该事件可能根本不会发生。反之,预测某个事件发生的概率等于0,但是实际中该事件却可能发生了。虽然估计过程是无偏的,但是由估计过程得出的预测结果却是有偏的。,由于线性概率模型的上述缺点,希望能找到一种变换方法,(1)使解释变量,x,i,所对应的所有预测值(概率值)都落在(0,1)之间。(2)同时对于所有的,x,i,,当,x,i,增加时,希望,y,i,也单调增加或单调减少。显然累积概率分布函数,F,(,z,i,)能满足这样的要求。采用累积正态概率分布函数的模型称作Probit模型。用正态分布的累积概率作为Probit模型的预测概率。另外logistic函数也能满足这样的要求。采用logistic函数的模型称作logit模型。,11/6/2024,7.2 二元选择模型 Binary choice model,累积正态概率分布曲线,logistic曲线,11/6/2024,7.2 二元选择模型 Binary choice model,7.2.2 Probit(概率单位)模型,仍假定,y,i,=,+,x,i,累积概率分布函数曲线在,p,i,=0.5附近的斜率最大。对应,yi,在实轴上的值,相应概率值永远大于0、小于1。显然Probit模型比Tobit模型更合理。Probit模型需要假定,y,i,服从正态分布。,(6),11/6/2024,7.2 二元选择模型 Binary choice model,7.2.3 logit模型,该模型是McFadden于1973年首次提出。其采用的是logistic概率分布函数。其形式是,对于给定的,x,i,,,p,i,表示相应个体做出某种选择的概率。,Probit曲线和logit曲线很相似。两条曲线都是在,p,i,=0.5处有拐点,但logit曲线在两个尾部要比Probit曲线厚。利用(6)和(7)式得到的概率值见表1。,(7),11/6/2024,7.2 二元选择模型 Binary choice model,表1 Probit模型和logit模型概率值,y,i,正态分布函数,逻辑概率分布,-3.0,0.0013,0.0474,-2.0,0.0228,0.1192,-1.5,0.0668,0.1824,-1.0,0.1587,0.2689,-0.5,0.3085,0.3775,0.0,0.5000,0.5000,0.5,0.6915,0.6225,1.0,0.8413,0.7311,1.5,0.9332,0.8176,2.0,0.9772,0.8808,3.0,0.9987,0.9526,11/6/2024,7.2 二元选择模型 Binary choice model,Probit曲线,logit曲线,图2 Probit曲线、logit曲线比较示意图,logit曲线计算上也比较方便,所以Logit模型比Probit模型更常用,11/6/2024,7.2 二元选择模型 Binary choice model,离散选择模型还有其他几种形式:,删改模型或删截模型,(censored regression model),。把小于或大于某一点的数值用该点数值替代的模型。Tobit模型就是一种删截模型,被解释变量在删改点1之上或0之下的值分别被赋值1或0。,截尾模型或截断模型,(truncated regression model),。应用于某个截断点之上或之下的观测值数据得不到或故意舍弃的一种回归模型。例如某种产品,见到的只是分等级的合格品,不合格品已经看不到,被舍弃。,计数模型,(count model),。当被解释变量表示次数时,离散模型就变成了计数模型。例如每年华北地区发生沙尘暴次数的模型,公司申请专利数模型。解释变量服从泊松分布。,有序响应模型,(ordered response model),。当相互排斥的定性分类有一个正常的顺序时,可用有序响应模型描述。例如描述某人的受教育程度时,建立的模型。有序响应模型与计数模型有些类似,但又不同。有序响应数据没有自然的数值。,多元离散选择模型,(multiple choice model),。被解释变量的选择不是二元的,而是多元的。,11/6/2024,7.2 二元选择模型 Binary choice model,例:教材P245,JG=1-CNORM(-(C(1)+C(2)*XY+C(3)*SC),CNORM(X)X的标准累计正态分布函数,DNORM(X)X的标准累计正态分布函数,JG=1-CNORM(-(8.797358366-0.2578816621*XY+5.061788659*SC),习题:P259 T5,预测,如:1.某人(sc,xy)(0,14)则JG=1,2.某人(sc,xy)(1,60)则JG=0.05,11/6/2024,7.3,面板数据模型,Panel Data Models,7.3,面板数据模型,Panel Data Models,11/6/2024,平行数据集是包含若干个体(家庭、公司、城市等)在一个时间区间内的样本。,因此,样本中的每一个个体都具有很多观测。平行数据集很有用,因为它可以使研究人员区分出单用截面数据或时间序列数据都不能得到的经济作用。,例:假设我们为某行业的企业盈利建模。对一年内的截面数据进行的回归可能包含管理质量、实际资金,劳动力就业,以及财务调节能力等解释变量。这个截面模型原则上还可以考虑任何规模经济对企业的影响,但是这个模型无法考虑到该行业中的技术进步为企业带来的随时间而增加的盈利能力。原则上,平行数据的使用能够使研究人员将规模经济的作用与技术进步的影响分离开来。实际上,平行数据使我们能够研究单个企业盈利能力随时间的变化,以及多个企业的盈利能力在某时间点上的不同。,7.3,面板数据模型,Panel Data Models,概述,11/6/2024,7.3,面板数据模型,Panel Data Models,时间序列数据或截面数据都是一维数据。是变量按时间得到的数据;,截面数据是变量在固定时点的一组数据。,面板数据是同时在时间和截面上取得的二维数据。所以,,面板数据(panel data)也称作时间序列与截面混合数据(pooled time series and cross section data)。面板数据是截面上个体在不同时点的重复观测数据。,panel 原指对一组固定调查对象的多次观测,近年来,panel data,已经成为专业术语。,面板数据示意图见图1。面板数据从横截面(cross section)看,是由若干个体(entity,unit,individual)在某一时点构成的截面观测值,从纵剖面(longitudinal section)看每个个体都是一个时间序列。,面板数据用双下标变量表示。例如,11/6/2024,7.3,面板数据模型,Panel Data Models,图1 1978-2005 中国各省级地区消费性支出占可支配收入比例走势图,11/6/2024,7.3,面板数据模型,Panel Data Models,面板数据分两种特征:,(1)个体数少,时间长。,(2)个体数多,时间短。,面板数据主要指后一种情形。,利用面板数据建立模型的好处是:,(1)增加自由度。由于观测值的增多,可以增加估计量的抽样精度,例如1990-2000 年30 个省份的农业总产值数据。固定在某一年份上,它是由30 个农业总产值数字组成的截面数据;固定在某一省份上,它是由11 年农业总产值数据组成的一个时间序列。面板数据由30 个个体组成。共有330 个观测值。,(2)对于固定效应模型能得到参数的一致估计量,甚至有效估计量。,(3)面板数据建模比单截面数据建模可以获得更多的动态信息。,11/6/2024,例如,,享受技术进步的企业有能力在生产中增加实际资金的使用。无法考虑技术进步的截面数据分析可能不能准确地估计增加的资金量对企业盈利能力的影响。然而,平行数据中的时间序列部分包含技术进步对盈利能力的作用,因此可能的缺省变量问题就会不再出现。,将截面数据
展开阅读全文