计量经济学前沿第七讲-限制因变量模型与估计.ppt

资源描述

16-1,限值因变量模型与分析,第七讲,16-2,主要内容虚拟变量数据的分析横截面数据的分析平行数据的分析,16-3,限值因变量限值因变量LDV ( Limited dependent variable) 广义定义：一个取值范围受到限制的因变量称为LDV。许多问题涉及二元或多重选择问题：如奖学金对某个人是否上大学的决策的影响？是什么因素决定一个家庭或个人是否购买保险、买车？用什么交通工具出行？（公共汽车、地铁、出租车）选择到哪家超市去购物（有5个可选的地点）在描述个人、家庭和企业行为模型中的各种限制养老金参与率在0100之间经济参与变量，对就业者有小时工资W 0，对失业者 W = 0 住房价格，对已购房者p 0，对未购房者p = 0,16-4,离散选择模型起源于Fechner于1860年进行的动物条件二元反射研究，1962年，Warner首次将它应用于经济研究领域，用以研究公共交通工具和私人交通工具的选择问题。70、80年代，离散选择模型被普遍应用于经济布局、企业定点、交通问题、就业问题、购买决策等经济决策领域的研究。从1987年出版的专著Econometric Analysis of Discrete Choice（Brsch-Supan, Springer）所引用的文献可以看出，模型的估计方法主要发展于80年代初期。,16-5,限值因变量分类,离散因变量： 1 二元选择 Y = (取值为0或1） 0 无序选择（各选择间无优劣顺序之分）多重选择 Y= 1,2,3,4,5 有序选择（有优劣顺序之分，数字之差无意义）连续受限制的因变量： 1）如对房产的真实需求量大于房产的销售量但不可观测，当用销售量代替需求量时，未买房家庭的真实需求量部分数据被删节。 2）研究妇女的工资收入，我们能收集到有工作的妇女的实际收入数据，但不能收集到没有工作的妇女的“保留工资”（愿意工作的最低工资线） 3）研究购买汽车的行为，对有车的人，可以记录他们在买车上的花费，而对那些没有车的人，我们无法测量被调查人愿意为买车花费的最高的费用,16-6,二值因变量模型,* 问题1：除种族不同外，两个条件完全相同的人走进一家银行申请一笔抵押贷款，目的是购买一套房子，两套房子的条件也完全相同，他们是否有同等可能性让他们的抵押贷款申请被接受？如何精确地检查种族歧视的统计证据？解决办法1 ：用抵押贷款申请被拒绝的比重来比较不同种族的人是否受到同等的待遇. * 问题2：办法1能回答问题1 所提出的问题吗？解决办法2：用抵押贷款申请是否被拒绝作为因变量建立多元回归模型，探讨保持其他条件不变（相同）的条件下，种族的差异对贷款申请是否被拒绝的影响。 * 问题3: 办法2 能回答问题1 所提出的问题吗？,16-7,二值因变量模型: 线性概率模型 LPM( Linear probability model ),线性概率模型是下列多元回归模型：其中，因变量Yi 是二元变量， Yi=1 或 Yi =0 ui 满足总体回归函数所以，,16-8,线性概率模型估计系数的含义及检验,回归系数就是在保持其他解释变量不变的情况下，与的单位变化相联系的Y=1时估计概率（成功的概率或响应概率）的变化：回归系数可以用OLS 方法进行估计，并且通常的（异方差稳健的）OLS标准误可以用来假设检验和构造置信区间预测的 Y 就是预测的成功 (Y=1) 的概率。,16-9,LMP 模型的估计,住房所有权与收入关系研究因变量： Y=1，若拥有住房者；否则, Y=0 解释变量：收入 x (千美元）用LMP模型的OLS和WLS估计结果 OLS估计 p542 结果,16-10,16-11,线性概率模型的局限性及解决办法,预测的概率可能小于零，或大于1，最好是在靠近自变量均值的地方估计对成功概率的影响。任何一个以水平值形式出现的解释变量的偏效应是不变的，否则，应设置非线性关系。误差项的非正态性：模型中误差项ui的概率分布由Y 带入的值（1和0）决定的。异方差性将影响模型的推断，需应用加权最小二乘法GLS，以消除异方差的影响； R2 价值有限，应避免使用,16-12,住房所有权与收入的WLS估计结果*,*除去估计值为负数和大于1的观察样本，剩余28个样本的加权最小二乘估计,16-13,LPM问题1 的解决思路,定义：一个连续概率分布Pi = P(Y=1| X) 1 若 Zi (X, ) 1 Pi = Zi (X, ) 若 0 Zi (X, ) 1 0 若 Zi (X, ) 0 即Pi 服从一个均匀分布的累积概率函数,16-14,解决LPM局限性思路定义：其中， G 是一个取值范围严格介于0 1之间的函数，对所有实数 z , 都有当为 Probit 模型当为 Logit 模型,16-15,16-16,二值响应的 Probit 和 Logit 模型,二值响应的 Probit 和 Logit 模型的大多数应用中，主要目的是为了解释 x 对响应概率的影响，通过 G(z) 将各解释变量与相应概率联系起来。解释变量 x 对响应概率的偏效应？如何估计这个偏效应？,16-17,模型解释 Probit 和 Logit 模型与LPM比较,一般地，我们关注 x 对 P(y = 1|x)的作用的解释, 即 P/ x 对线性的LPM模型, 参数bj的估计值容易解释对非线性的probit 和 logit 模型, 解释比较困难： p/ xj = g(b0 +X ) , 其中， g(z) = dG/dz 调整因子g(b0 + 与自变量有关，一般取自变量均值。,16-18,Probit 和 Logit 模型的估计,给定解释变量和二元因变量的观察值 Probit 模型估计 Logit 模型估计方程（4）（5）关于解释变量和参数都是非线性的，应用最大似然估计法 MLE（Maximun Likelihood Estimation）估计参数。,16-19,Probit 模型的估计,估计方法： MLE 最大似然估计利用分组数据求得的估计值，用传统的OLS法估计取（4）的反函数，求出相应的概率单位值Ii, 然后估计方程称为正态等效离差 ( normal equivalent deviation ：n.e.d. )，或正态概率单位： probit = n.e.d.+ 5,16-20,16-21,Logit 模型的估计,估计方法： MLE 最大似然估计利用分组数据求得的估计值，由可得方程（7）中，被解释变量是某一特别选择的机会比率（odds）的对数，方程的右边不仅对于解释变量X是线性的，而且关于参数也是线性的，可用传统的OLS法估计。机会比率的对数 li 被称为对数单位,16-22,Probit 和 Logit 模型应用案例,抵押贷款被拒绝的回归模型估计被解释变量：如果抵押贷款被拒绝, y=deny=1; 否则, y=deny=0 解释变量：月度还贷总支付/月度总收入 P/I ratio 申请人是黑人，black=1, 否则，black = 0 用LPM、probit和 logit模型分别估计的结果：,16-23,16-24,16-25,16-26,抵押贷款被拒绝的回归模型估计解释与推断,1）求 P/I ratio 从0.3增加到0.4时申请者被拒绝的预测概率变化多少？ 2）在同样的P/I ratio=0.3的条件下，计算黑人申请者与白人申请者相比，被拒绝概率之差是多少？ 3）就如何估计两个自变量对因变量的偏效应问题，比较三种模型估计结果的异同。比较估计系数之前，应先将probit和logit估计系数乘以校正因子：在 probit模型中， g(0)0.4 在 logit 模型中， g(0)0.25 如何回答前面提出的问题？,16-27,16-28,16-29,Probit 与 Logit 模型基于MLE的统计推断,在大样本条件下，参数的最大似然估计量MLE是正态分布的，因此，基于MLE的 probit 和Logit 系数的统计推断，与基于OLS估计量的线性回归系数的推断方法相同。 R2 对于线性概率模型是个不好的拟合测量，这个结论也适用于Probit 和 Logit 回归。,16-30,Probit 与 Logit 模型基于MLE的统计推断（续）,不能用传统的F或LM统计量来检验排除性约束（估计系数的联合检验）最大似然估计总产生对数似然值可以估计有约束与无约束的模型，获得似然比统计量： LR = 2(Lur Lr) q,16-31,Probit 与 Logit 模型基于MLE的统计推断（续）,拟合优度的测量被正确地预测的比重（fraction correctly predicted)：在 n 个观测值中被正确预测的部分所占比重。如果Yi =1且预测概率超过50%，或者Yi =0 且预测概率小于50%，那么就说 Yi 被成功地预测了，否则，就说Yi 被不正确地预测了。 * 拟 R2 (pseudo - R2 )：利用似然函数测量模型的拟合程度，把估计模型的似然函数值和没有自变量的似然函数的值作比较。,16-32,Probit 与 Logit 模型基于MLE的统计推断（续）,只简单比较三类模型的系数是错误的；可以比较估计系数的符号及基于标准检验的显著性; 比较影响作用的大小需要计算在均值处的偏导数 p/ xj = g(b0 + b )bj, 其中， g(z) = dG/dz,16-33,Probit 和 Logit 模型的估计基于分组数据案例,估计所有权的Logit 模型估计数据（表16.5) Logit 对数单位估计方程： Probit 概率单位计算结果：,16-34,16-35,受限连续因变量问题潜在变量(Latent Variables),将不可观测变量看作一个潜在变量，建立模型建模思路存在一个与因变量相关的不可观测的潜在变量 y*, 通过潜在变量与自变量的线性模型相联系，于是，原二元因变量模型可以表示为： P(y = 1|x) = G(b0 + xb) = GE( y*) y* = b0 +xb + e 但我们只能观察到 y = 1, if y* 0 和 y =0 if y* 0。如果因变量是一个在严格为正的值域上大致连续，但总体中有一个不可忽略的部分取值为零时，如何建模？,16-36,受限连续因变量模型,y* = b0 + xb + u , y = max(0,y*) 即 y = y* 当 y* 0, = 0 当 y* 0 其中， y*为不可观测的潜在变量, 通过潜在变量与自变量的线性模型相联系，我们只能观察到 y,一个在严格为正的值域上大致连续，但总体中有一个不可忽略的部分取值为零的因变量 y 的模型可以表示为：,16-37,Tobit 模型：Censored 回归模型,一个潜在变量的模型我们只能观测到 y , * 必须认识到 b 估计的只是 X 对潜在变量 y*的影响作用，而不是对 y。 * James Tobin 1958年的研究成果,16-38,Tobit 模型的估计,式（8）表明，为什么只对 yi 0 的观测值用OLS不能一致地估计，因为 y 以y0 为条件的期望值等于 X与一个严格为正的项之和，逆米尔斯比率是一个被漏掉的变量。,16-39,Tobit 模型的估计（续）,E(y|x) = F(xb/s)xb + sf(xb/s) （9）所以，当 y 服从于Tobit 模型时，由于E(y|x) 是x和的一个非线性函数，可以用极大似然估计和。,16-40,Tobit 模型的参数的偏效应,*求E(y|x)对连续的xj 的偏效应，这个导数解释了在y=0开始的人为什么在xj变化时可能选择 y0。 E(y|x)/xj = bj F(xb/s) （10）称 F(xb/s) 为在上述条件下的调整因子 * 对y 0 连续的xj ，可对（8）式左端求偏导有（11）称为在 y 0时的偏效应调整因子 *为了使Tobit估计值具有可比性，应将它乘以相应的调整因子在xj的均值处的大小或后，再比较。,16-41,Tobit 模型应用例：妇女劳动力市场参与研究,被解释变量：妇女参与了家庭以外工作的年工作小时数 hours 解释变量：丈夫的收入 uwifeinc (千美元)，受教育年限 educ (年）过去在劳动力市场的年数 exper（年），年龄 age （岁）年龄低于6岁的子女数 kidslt6, 年龄介于6-18岁的子女数 kidsgt6 利用Mroz,1987 的数据，753个妇女的样本中，428个曾在1975年在家庭以外工作小时数的数据，另外，325个妇女的工作小时数为零。对年工作小时数进行OLS和Tobit 估计的误差项标准差估计 750.18 1122.02,16-42,对年工作小时数的OLS和Tobit 估计,16-43,从上面实证研究结果，可以得到关于已婚妇女的年度劳动供给的哪些结论？家庭中来自妇女以外的收入主要是丈夫的收入的影响如何？妇女自身的年粮、过去工作经历对其劳动供给的影响作用？家庭需要照顾的子女数量对妇女劳动供给的影响？归纳影响已婚妇女的年度劳动供给的主要因素。自己先分析，然后参见教科书p519520 与（10）、（11）相应的调整因子在估计值和均值处的大小分别约为：0.451 和 0.645,16-44,Tobit 模型解释,除非潜在变量y* 是我们研究的重点，不能简单地解释模型系数。如果误差项的条件正态性和同方差性不成立，Tobit 模型没有意义。如果X 对P(y0) 和 E(y) 的作用方向相反，那么，Tobit 模型是不适合的。,16-45,样本选择校正,样本选择问题 * 数据断尾内生样本选择（样本仅由内生因变量决定）外生样本选择（样本仅由外生的解释变量决定） * 非随机样本选择：问卷调查设计导致自变量、因变量缺失，纵列数据中一些时段部分样本缺失（某样本对象离开总体）样本选择的后果： * 外生样本选择不影响OLS应用于子样本的一致性。 * 内生样本选择有影响样本选择校正：,16-46,截取回归模型和断尾回归模型,删节回归模型(Censored Regression Models ) * yi = xb + u, ui |xi ,c Normal(0,s2), C 为截取值将删节隐藏的变量取值的概率集中于删节点，组成一个连续分布与离散分布的组合，总概率为1 * 我们只能观测 w = min(y,c) if c 的右端被删节, 或 w = max(y,c) if c 的左端被删节断尾回归模型( Truncated Regression Models) 在截取值外，除因变量外相应的解释变量的数据都缺失的情况下，上述潜在变量模型就变成断尾回归模型。即从一个总体的受限部分抽取的样本中推断总体，忽略被截去数据的样本，将关心的取值范围内的概率调整为1,16-47,样本选择校正：赫克曼的贡献,2000年诺贝尔奖得主： James J. Heckman & Daniel L. McFadden 赫克曼年出生于美国的芝加哥，现为芝加哥大学经济学教授。麦克法登年出生于美国的罗利，现供职于美国加利福尼亚大学。他们在年代发展了已被广泛用来对个人和家庭行为进行统计分析的理论和方法。赫克曼因发展了对选择性抽样数据进行分析的理论和方法。麦克法登发展了对自行选择行为进行分析的理论和方法。解决了微观数据进行统计分析中出现的基本问题。赫克曼所进行的研究发展了用一种合适的方式来处理选择性抽样数据的方法，并提出了用来解决与此密切相关问题的方法, 他在这些领域进行的应用研究也具有领先地位。微观数据进行统计分析中出现的基本问题人们所能获得的微观数据往往来源于选择性的抽样调查数据，如有关工资的数据就无法通过随意抽样的方式获得。如果这样的选择性因素不被考虑进去，那么对经济关系进行的统计评估结果将会发生偏差。,

展开阅读全文