资源描述
,CLICK TO EDIT MASTER TITLE STYLE,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,2021-01-16,16-,#,Copyright 2003 Prentice-Hall,Inc.,限值因变量,模型与分析,第七讲,1,主要内容,虚拟变量数据的分析 横截面数据的分析,平行数据的分析,2,限值因变量,限值因变量,LDV(Limited dependent variable),广义定义:,一个取值范围受到限制的因变量称为,LDV,。,许多问题涉及二元或多重选择问题:,如奖学金对某个人是否上大学的决策的影响?,是什么因素决定一个家庭或个人是否购买保险、买车?,用什么交通工具出行?(公共汽车、地铁、出租车),选择到哪家超市去购物(有,5,个可选的地点),在描述个人、家庭和企业行为模型中的各种限制,养老金参与率在,0100,之间,经济参与变量,对就业者有小时工资,W,0,,对失业者,W,=0,住房价格,对已购房者,p,0,,,对未购房者,p=0,3,离散选择模型起源于,Fechner,于,1860,年进行的动物条件二元反射研究,,1962,年,,Warner,首次将它应用于经济研究领域,用以研究公共交通工具和私人交通工具的选择问题。,70,、,80,年代,离散选择模型被普遍应用于经济布局、企业定点、交通问题、就业问题、购买决策等经济决策领域的研究。从,1987,年出版的专著,Econometric Analysis of Discrete Choice,(,Brsch-Supan,Springer,)所引用的文献可以看出,模型的估计方法主要发展于,80,年代初期。,4,限值因变量分类,离散因变量:,1,二元选择,Y,=,(,取值为,0,或,1,),0,无序选择,(,各选择间无优劣顺序之分),多重选择,Y=1,2,3,4,5,有序选择(有优劣顺序之分,数字之差无意义),连续受限制的因变量:,1,)如对房产的真实需求量大于房产的销售量但不可观测,当用销售量代,替需求量时,未买房家庭的真实需求量部分数据被删节。,2,),研究妇女的工资收入,我们能收集到有工作的妇女的实际收入数据,,但不能收集到没有工作的妇女的“保留工资”(愿意工作的最低工资线),3,)研究购买汽车的行为,对有车的人,可以记录他们在买车上的花费,而对,那些没有车的人,我们无法测量被调查人愿意为买车花费的最高的费用,5,二值因变量模型,*,问题,1,:,除种族不同外,两个条件完全相同的人走进一家银行申请一笔抵押贷款,目的是购买一套房子,两套房子的条件也完全相同,他们是否有同等可能性让他们的抵押贷款申请被接受?,如何精确地检查种族歧视的统计证据,?,解决办法,1,:用抵押贷款申请被拒绝的比重来比较不同种,族的人是否受到同等的待遇,.,*,问题,2,:办法,1,能回答问题,1,所提出的问题吗?,解决办法,2,:用抵押贷款申请是否被拒绝作为因变量建立多元回归模,型,探讨保持其他条件不变(相同)的条件下,种族的,差异对贷款申请是否被拒绝的影响。,*,问题,3:,办法,2,能回答问题,1,所提出的问题吗?,6,二值因变量模型,:,线性概率模型,LPM(Linear probability model),线性概率模型是下列多元回归模型:,其中,因变量,Y,i,是二元变量,,Y,i,=,1,或,Y,i,=0,u,i,满足,总体回归函数,所以,,7,线性概率模型估计系数的含义及检验,回归系数 就是在保持其他解释变量不变的情况下,,与 的单位变化相联系的,Y,=1,时估计概率(成功的概率,或响应概率)的变化:,回归系数可以用,OLS,方法进行估计,并且通常的(异方差,稳健的),OLS,标准误可以用来假设检验和构造置信区间,预测的,Y,就是预测的成功,(,Y=1,),的概率。,8,LMP,模型的估计,住房所有权与收入关系研究,因变量:,Y,=1,,若拥有住房者;否则,Y,=0,解释变量:收入,x,(,千美元),用,LMP,模型的,OLS,和,WLS,估计结果,OLS,估计,p542,结果,9,10,线性概率模型的局限性及解决办法,预测的概率可能小于零,或大于,1,,最好是在靠近自变量均值的地方估计对成功概率的影响。,任何一个以水平值形式出现的解释变量的,偏效应是不变的,否则,应设置非线性关系。,误差项的非正态性:模型中误差项,u,i,的概率分布由,Y,带入的值(,1,和,0,)决定的。,异方差性将影响模型的推断,需应用加权最小二乘法,GLS,,以消除异方差的影响;,R,2,价值有限,应避免使用,11,住房所有权与收入的,WLS,估计结果,*,*,除去估计值为负数和大于,1,的观察样本,剩余,28,个样本的加权最小二乘估计,12,LPM,问题,1,的解决思路,定义:一个连续概率分布,P,i,=P(,Y=1,|,X,),1,若,Z,i,(X,),1,P,i,=,Z,i,(X,),若,0,Z,i,(X,)0,和,y,=0 if,y,*0,。,如果因变量是一个在严格为正的值域上大致连续,但总体中有一个不可忽略的部分取值为零时,如何建模?,35,受限连续因变量模型,y*=,b,0,+,x,b,+u,y=max,(,0,y*,),即,y,=,y,*,当,y,*,0,=0,当,y,*,0,的观测值用,OLS,不能一致地估计,,因为,y,以,y,0,为条件的期望值等于,X,与一个严格为正的项之和,逆米尔斯比率,是一个被漏掉的变量。,38,Tobit,模型的估计(续),E(,y|,x,)=,F,(,x,b,/,s,),x,b,+,sf,(,x,b,/,s,),(,9,),所以,,,当,y,服从于,Tobit,模型时,,由于,E(,y|,x,),是,x,和,的 一个非线性函数,,可以用极大似然估计,和,。,39,Tobit,模型的参数的偏效应,*,求,E(,y|,x,),对连续的,x,j,的偏效应,这个导数解释了在,y=0,开始的人为什么在,x,j,变化时可能选择,y0,。,E(,y|,x,)/,x,j,=,b,j,F,(,x,b,/,s,),(,10,),称,F,(,x,b,/,s,),为在上述条件下的调整因子,*对,y 0,连续的,x,j,,可对(,8,)式左端求偏导有,(,11,),称 为在,y 0,时的偏效应调整因子,*为了使,Tobit,估计值具有可比性,应将它乘以相应的调整因子在,x,j,的均值处的大小,或,后,再比较,。,40,Tobit,模型应用例:妇女劳动力市场参与研究,被解释变量:,妇女参与了家庭以外工作的年工作小时数,hours,解释变量:,丈夫的收入,uwifeinc,(,千美元,),,,受教育年限,educ (,年),过去在劳动力市场的年数,exper,(年),,年龄,age,(岁),年龄低于,6,岁的子女数,kidslt,6,年龄介于,6-18,岁的子女数,kidsgt,6,利用,Mroz,1987,的数据,,753,个妇女的样本中,,428,个曾在,1975,年在家庭以外工作小时数的数据,另外,,325,个妇女的工作小时数为零。,对年工作小时数进行,OLS,和,Tobit,估计的误差项标准差估计,750.18 1122.02,41,对年工作小时数的,OLS,和,Tobit,估计,因变量:,hours,线性模型,Tobit probit,自变量 (,OLS)(MLE)(MLE),nwifwinc,-3.45 -8.81 -0.012,(2.54)(4.46)(0.005),educ,28.76 80.65 0.131,(12.95)(21.58)(0.025),exper,65.67 131.56 0.123,(9.96)(17.28)(0.019),exper,2,-0.700 -1.86 -0.0019,(0.325)(0.54)(0.0006),age,-30.51 -54.41 -0.053,(4.36)(7.42)(0.008),kidslt,6 -442.09 -894.02 -0.868,(58.85)(111.88)(0.119),常数项,1330.48 965.31 0.036,(270.78)(446.44)(0.043),对数似然值,-3819.09 -401.30,42,从上面实证研究结果,,可以得到关于已婚妇女的,年度劳动供给的哪些结论?,家庭中来自妇女以外的收入主要是丈夫的收入的影响如何?,妇女自身的年粮、过去工作经历对其劳动供给的影响作用?,家庭需要照顾的子女数量对妇女劳动供给的影响?,归纳影响已婚妇女的年度劳动供给的主要因素。,自己先分析,然后 参见教科书,p519520,与(,10,)、(,11,)相应的调整因子在估计值和均值处的大小,分别约为:,0.451,和,0.645,43,Tobit,模型解释,除非潜在变量,y,*,是我们研究的重点,不能简单地解释模型系数。,如果误差项的条件正态性和同方差性不成立,,Tobit,模型没有意义。,如果,X,对,P(,y,0),和,E(,y,),的作用方向相反,那么,,Tobit,模型是不适合的。,44,样本选择校正,样本选择问题,*数据断尾,内生样本选择(样本仅由内生因变量决定),外生样本选择(样本仅由外生的解释变量决定),*非随机样本选择:,问卷调查设计导致自变量、因变量缺失,,纵列数据中一些时段部分样本缺失(某样本对象离开总体),样本选择的后果:,*外生样本选择不影响,OLS,应用于子样本的一致性。,*内生样本选择有影响,样本选择校正:,45,截取回归模型,和断尾回归模型,删节回归模型,(Censored Regression Models,),*y,i,=,x,b,+,u,u,i,|,x,i,c,Normal(0,s,2,),C,为截取值,将删节隐藏的变量取值的概率集中于删节点,组成一个连续分布与离散分布的组合,总概率为,1,*,我们只能观测,w,=min(,y,c,)if c,的右端被删节,或,w,=max(y,c)if c,的左端被删节,断尾回归模型,(,Truncated Regression Models,),在截取值外,除因变量外相应的解释变量的数据都缺失的情况下,,上述潜在变量模型就变成断尾回归模型。即,从一个总体的受限部分抽取的样本中推断总体,忽略被截去数据的,样本,将关心的取值范围内的概率调整为,1,46,样本选择校正:赫克曼的贡献,2000,年诺贝尔奖得主,:,James J.Heckman&Daniel L.McFadden,赫克曼年出生于美国的芝加哥,现为芝加哥大学经济学教授。,麦克法登年出生于美国的罗利,现供职于美国加利福尼亚大学。,他们在年代发展了已被广泛用来对个人和家庭行为进行统计分析的理论和方法。赫克曼因发展了对选择性抽样数据进行分析的理论和方法。麦克法登发展了对自行选择行为进行分析的理论和方法。解决了微观数据进行统计分析中出现的基本问题。,赫克曼所进行的研究发展了用一种合适的方式来处理选择性抽样数据的方法,并提出了用来解决与此密切相关问题的方法,他在这些领域进行的应用研究也具有领先地位。,微观数据进行统计分析中出现的基本问题,人们所能获得的微观数据往往来源于选择性的抽样调查数据,如有关工资的,数据就无法通过随意抽样的方式获得。如果这样的选择性因素不被考虑进去,,那么对经济关系进行的统计评估结果将会发生偏差。,47,投入多一点,方法好一点,绩效自然高一点。,10月-24,10月-24,Wednesday,October 2,2024,未来的成功属于质量领先者。,22:22:32,22:22:32,22:22,10/2/2024 10:22:32 PM,若要产品好,个人品质要提高。,10月-24,22:22:32,22:22,Oct-24,02-Oct-24,老毛病,要根治。小问题,要重视。,22:22:32,22:2
展开阅读全文