第07章--离散因变量和受限因变量模型(第三版)课件

资源描述

1第七章第七章第七章第七章离散因变量和受限因变量模型离散因变量和受限因变量模型离散因变量和受限因变量模型离散因变量和受限因变量模型经经济济分分析析中中经经常常会会遇遇到到大大量量的的个个体体和和企企业业的的调调查查数数据据，这这些些数数据据具具有有很很多多与与时时间间序序列列数数据据不不同同的的特特点点，常常存存在在离离散散选选择择性性问问题题、数数据据审审查查（截截断断）、选选择择性性样样本本等等问问题题，一一般般来来说说需需要要采采用用微微观观计计量量经经济济学学方方法法进进行行定定量量分分析析。微微观观计计量量经经济济学学最最凸凸显显的的问问题是所谓经济选择和定性因变量问题。题是所谓经济选择和定性因变量问题。2本本章章首首先先关关注注的的一一类类问问题题是是经经济济决决策策中中经经常常面面临临的的选选择择问问题题，如如购购买买者者对对某某种种商商品品的的购购买买决决策策问问题题，求求职职者者对对某某种种职职业业的的选选择择问问题题，投投票票人人对对某某候候选选人人的的投投票票决决策策，银银行行对对某某客客户户的的贷贷款款决决策策等等。与与通通常常的的经经济济计计量量模模型型假假定定因因变变量量是是连连续续的的不不同同，以以这这样样的的决决策策结结果果作作为为因因变变量量建建立立的的计计量量经经济济模模型型称称为为离离散散因因变变量量数数据据计计量量经经济济学学模模型型（modelswithdiscretedependentvariables）或或离离散散选选择择模模型型(discretechoicemodel,DCM)。3本本章章关关注注的的第第二二类类问问题题因因变变量量受受到到某某种种限限制制的的情情况况，这这时时需需要要建建立立的的经经济济计计量量模模型型称称为为受受限限因因变变量量模模型型（limiteddependentvariablemodel)。这这种种情情况况下下，由由于于数数据据搜搜集集规规则则或或者者经经济济人人自自我我选选择择行行为为的的结结果果，人人们们所所获获得得的的样样本本数数据据来来自自总总体体的的一一个个子子集集，可可能能不不能能完完全全反反映映总总体体。如如果果使使用用传传统统的的经经济济计计量量方方法法来来分分析析这这样样的的样样本本而而不不考考虑虑所所抽抽样样本本的的选选择择性性，那那么么对对经经济济关关系系进进行行的的统统计计评评估估结结果果将将会会发发生生偏偏差差，这这就就是是所所谓谓的的“样样本本选选择择偏偏差差”，赫赫克克曼曼（Heckman）以以微微观观经经济济理理论论来来解解释释个个体体资资料料的的样本选择问题并提出了样本选择问题并提出了Heckman样本选择模型。样本选择模型。4许许多多经经济济社社会会问问题题的的描描述述变变量量都都为为计计数数变变量量，计计数数数数据据中中零零元元素素和和绝绝对对值值较较小小的的数数据据出出现现得得较较为为频频繁繁，以以这这些些变变量量为为被被解解释释变变量量，研研究究它它们们的的影影响响因因素素构构成成了了计计量量经经济济学学中中的的另另一一类类问题，称为计数模型。问题，称为计数模型。本本章章的的最最后后介介绍绍了了广广义义线线性性模模型型，广广义义线线性性模模型型是是普普通通线线性性模模型型的的一一般般化化形形式式，具具有有较较好好的的包包容容性性，除除了了包包含含了了第第三三章章介介绍绍的的线线性性回回归归模模型型外外，还还包包含含了了本本章章即即将将介介绍绍的的离离散散因因变变量量模模型型和和泊泊松松计计数数模模型型，在在实实际际中中有有着着广广泛泛的的应应用用背背景景，尤尤其其在在微观调查数据中。微观调查数据中。57.17.1二元选择模型二元选择模型二元选择模型二元选择模型在离散选择模型中，最简单的情形是在两个可供选择的方案在离散选择模型中，最简单的情形是在两个可供选择的方案中选择其一，此时被解释变量只取两个值，称为二元选择模型中选择其一，此时被解释变量只取两个值，称为二元选择模型（binarychoicemodel）。在实际生活中，我们经常遇到二元选择）。在实际生活中，我们经常遇到二元选择问题。例如，在买车与不买车的选择中，买车记为问题。例如，在买车与不买车的选择中，买车记为1，不买记为，不买记为0。是否买车与两类因素有关系：一类是车本身所具有的属性，如价格、是否买车与两类因素有关系：一类是车本身所具有的属性，如价格、型号等；另一类是决策者所具有的属性如收入水平、对车的偏好程型号等；另一类是决策者所具有的属性如收入水平、对车的偏好程度等。如果我们要研究是否买车与收入之间的关系，即研究具有某度等。如果我们要研究是否买车与收入之间的关系，即研究具有某一收入水平的个体买车的可能性。因此，二元选择模型的目的是研一收入水平的个体买车的可能性。因此，二元选择模型的目的是研究具有给定特征的个体作某种而不作另一种选择的概率。究具有给定特征的个体作某种而不作另一种选择的概率。6为为了了深深刻刻地地理理解解二二元元选选择择模模型型，首首先先从从最最简简单单的的线线性性概概率率模模型型开开始讨论。线性概率模型的回归形式为：始讨论。线性概率模型的回归形式为：,（7.1.1）式式中中：N是是样样本本容容量量；k是是解解释释变变量量个个数数；xj为为第第j个个个个体体特特征征的的取取值值。例例如如，x1表表示示收收入入；x2表表示示汽汽车车的的价价格格；x3表表示示消消费费者者的的偏偏好好等等。设设 yi 表示取值表示取值为为0和和1的离散型随机变量：的离散型随机变量：式（式（7.1.1）中）中ui为相互独立且均值为为相互独立且均值为0的随机扰动项。的随机扰动项。7.1.17.1.1 线性概率模型及二元选择模型的形式线性概率模型及二元选择模型的形式线性概率模型及二元选择模型的形式线性概率模型及二元选择模型的形式 7令令pi=P(yi=1)，那么那么1 pi=P(yi=0)，于是于是（7.1.2）又又因因为为E(ui)=0，所所以以E(yi)=xi，xi=(x1i,x2i,xki),=(1,2,k)，从而有下面的等式：从而有下面的等式：（7.1.3）8式式(7.1.3)只只有有当当xi 的的取取值值在在(0,1)之之间间时时才才成成立立，否否则则就就会会产产生生矛矛盾盾，而而在在实实际际应应用用时时很很可可能能超超出出这这个个范范围围。因因此此，线线性性概概率率模模型型常常常常写成下面的形式：写成下面的形式：(7.1.4)此时就可以把因变量看成是一个概率。此时就可以把因变量看成是一个概率。那么扰动项的方差为：那么扰动项的方差为：(7.1.5)或或(7.1.6)9由由此此可可以以看看出出，误误差差项项具具有有异异方方差差性性。异异方方差差性性使使得得参参数数估估计计不不再再是是有有效效的的，修修正正异异方方差差的的一一个个方方法法就就是是使使用用加加权权最最小小二二乘乘估估计计。但但是是加加权权最最小小二二乘乘法法无无法法保保证证预预测测值值在在(0,1)之之内内，这这是是线线性性概概率率模模型型一一个个严严重重的的弱弱点点。由由于于上上述述问问题题，我我们们考考虑虑对对线线性性概概率率模模型型进进行行一一些些变变换换，由由此得到下面要讨论的模型。此得到下面要讨论的模型。假假设设有有一一个个未未被被观观察察到到的的潜潜在在变变量量yi*，它它与与xi之之间间具具有有线线性性关关系系，即即(7.1.7)式中：式中：ui*是扰动项。是扰动项。yi 和和yi*的关系如下：的关系如下：(7.1.8)10 yi*大大于于临临界界值值0时时，yi=1；小小于于等等于于0时时，yi=0。这这里里把把临临界界值值选选为为0，但但事事实实上上只只要要xi包包含含有有常常数数项项，临临界界值值的的选选择择就就是是无无关关的的，所以不妨设为所以不妨设为0。这样。这样(7.1.9)式式中中：F 是是ui*的的分分布布函函数数，要要求求它它是是一一个个连连续续函函数数，并并且且是是单单调调递递增的。因此，原始的回归模型可以看成如下的一个回归模型：增的。因此，原始的回归模型可以看成如下的一个回归模型：(7.1.10)即即yi关于它的条件均值的一个回归。关于它的条件均值的一个回归。11 分分布布函函数数的的类类型型决决定定了了二二元元选选择择模模型型的的类类型型，根根据据分分布布函函数数F的的不不同同，二二元元选选择择模模型型可可以以有有不不同同的的类类型型，常常用用的的二二元元选选择择模模型型如表如表7.1.1所示：所示：表表表表7.1.17.1.1常用的二元选择模型常用的二元选择模型常用的二元选择模型常用的二元选择模型ui*对应的分布对应的分布分布函数分布函数F相应的二元选择模型相应的二元选择模型标准正态分布标准正态分布Probit模型模型逻辑分布逻辑分布Logit模型模型极值分布极值分布Extreme模型模型12二元选择模型一般采用极大似然估计。似然函数为二元选择模型一般采用极大似然估计。似然函数为(7.1.11)即即(7.1.12)对数似然函数为对数似然函数为(7.1.13)7.1.27.1.2二元选择模型的估计问题二元选择模型的估计问题二元选择模型的估计问题二元选择模型的估计问题 13对数似然函数的一阶条件为对数似然函数的一阶条件为(7.1.14)式式中中：fi 表表示示概概率率密密度度函函数数。那那么么如如果果已已知知分分布布函函数数和和密密度度函函数数的的表表达达式式及及样样本本值值，求求解解该该方方程程组组，就就可可以以得得到到参参数数的的极极大大似似然然估估计计量量。例例如如，将将上上述述3种种分分布布函函数数和和密密度度函函数数代代入入式式(7.1.14)就就可可以以得得到到3种种模模型型的的参参数数极大似然估计。但是式极大似然估计。但是式(7.1.14)通常是非线性的，需用迭代法进行求解。通常是非线性的，需用迭代法进行求解。二二元元选选择择模模型型中中估估计计的的系系数数不不能能被被解解释释成成对对因因变变量量的的边边际际影影响响，只只能能从从符符号号上上判判断断。如如果果为为正正，表表明明解解释释变变量量越越大大，因因变变量量取取1的的概概率率越越大；反之，如果系数为负，表明相应的概率将越小。大；反之，如果系数为负，表明相应的概率将越小。14 例例例例7.17.1二元选择模型实例二元选择模型实例二元选择模型实例二元选择模型实例 1 1考考虑虑Greene给给出出的的斯斯佩佩克克特特和和马马泽泽欧欧（1980）的的例例子子，在在例例子子中中分分析析了了某某种种教教学学方方法法对对成成绩绩的的有有效效性性。因因变变量量（GRADE）代代表表在在接接受受新新教教学学方方法法后后成成绩绩是是否否改改善善，如如果果改改善善为为1，未未改改善善为为0。解解释释变变量量（PSI）代代表表是是否否接接受受新新教教学学方方法法，如如果果接接受受为为1，不不接接受受为为0。还还有有对对新新教教学学方方法法量量度度的的其其他他解解释释变变量量：平平均均分分数数（GPA）和和测测验验得得分分（TUCE），来来分分析析新新的的教教学学方法的效果。方法的效果。15EViewsEViews软件的操作软件的操作软件的操作软件的操作（1 1）模型的估计）模型的估计）模型的估计）模型的估计估计二元选择模型，从估计二元选择模型，从EquationSpecification对话框中，选对话框中，选择择Binary估计方法。在二元模型的设定中分为两部分。首先，在估计方法。在二元模型的设定中分为两部分。首先，在EquationSpecification区域中，键入二元因变量的名字，随后键入区域中，键入二元因变量的名字，随后键入一列回归项。由于二元变量估计只支持列表形式的设定，所以不一列回归项。由于二元变量估计只支持列表形式的设定，所以不能输入公式。然后，在能输入公式。然后，在Binaryestimationmethod中选择中选择Probit，Logit，Extremevalue选择三种估计方法的一种。以例选择三种估计方法的一种。以例7.1为例，选为例，选择择Probit估计方法，对话框如图估计方法，对话框如图7.7.1所示。所示。16图图图图7 7.7.17.1二元选择模型估计对话框二元选择模型估计对话框二元选择模型估计对话框二元选择模型估计对话框17 例例7.1的的Probit方法方法估计输出结果如下：估计输出结果如下：18参参数数估估计计结结果果的的上上半半部部分分包包含含与与一一般般的的回回归归结结果果类类似似的的基基本本信信息息，标标题题包包含含关关于于估估计计方方法法（ML表表示示极极大大似似然然估估计计）和和估估计计中中所所使使用用的的样样本本的的基基本本信信息息，也也包包括括达达到到收收敛敛要要求求的的迭迭代代次次数数。和和计计算算系系数数协协方方差差矩矩阵阵所所使使用用方方法法的的信信息息。在在其其下下面面显显示示的的是是系系数数的的估估计计、渐渐近近的的标标准准误误差差、z-统统计计量量和和相相应应的的概概率值及各种有关统计量。率值及各种有关统计量。在回归结果中还提供几种似然函数：在回归结果中还提供几种似然函数：loglikelihood是是对对数数似似然然函函数数的的最最大大值值L(b)，b是是未未知知参数参数的估计值。的估计值。Avg.loglikelihood是是用用观观察察值值的的个个数数N去去除除以以对对数数似似然函数然函数L(b)，即对数似然函数的平均值。，即对数似然函数的平均值。19 Restr.Loglikelihood是是除除了了常常数数以以外外所所有有系系数数被被限限制制为为0时的极大似然函数时的极大似然函数L(b)。LR统统计计量量检检验验除除了了常常数数以以外外所所有有系系数数都都是是0的的假假设设，这这类类似似于于线线性性回回归归模模型型中中的的统统计计量量，测测试试模模型型整整体体的的显显著著性性。圆圆括括号号中的数字表示自由度，它是该测试下约束变量的个数。中的数字表示自由度，它是该测试下约束变量的个数。Probability（LRstat）是是LR检检验验统统计计量量的的P值值。在在零零假假设设下下，LR检检验验统统计计量量近近似似服服从从于于自自由由度度等等于于检检验验下下约约束束变变量量的的个个数数的的 2分布。分布。McFaddenR-squared是是计计算算似似然然比比率率指指标标，正正像像它它的的名名字字所所表表示示的的，它它同同线线性性回回归归模模型型中中的的R2是是类类似似的的。它它具具有有总总是是介介于于0和和1之间的性质。之间的性质。20例例例例7.17.1二元选择模型实例二元选择模型实例二元选择模型实例二元选择模型实例 1 1（续）（续）（续）（续）利利用用式式(7.1.10)，分分布布函函数数采采用用标标准准正正态态分分布布，即即Probit模模型型，例例7.1计算结果为计算结果为(7.1.15)z=(-2.93)(2.34)(0.62)(2.39)利利用用式式(7.1.15)的的Probit模模型型的的系系数数，本本例例按按如如下下公公式式给给出出新新教教学学法法对学习成绩影响的概率，对学习成绩影响的概率，当当PSI=0时：时：(7.1.19)当当PSI=1时：时：(7.1.20)式式中中测测验验得得分分TUCE取取均均值值(21.938)，平平均均分分数数GPA是是按按从从小小到到大大重重新排序后的序列。新排序后的序列。21图图图图7.1.17.1.1 新新新新教学法对学习成绩影响的概率教学法对学习成绩影响的概率教学法对学习成绩影响的概率教学法对学习成绩影响的概率22（2 2）估计选项估计选项估计选项估计选项因因为为我我们们是是用用迭迭代代法法求求极极大大似似然然函函数数的的最最大大值值，所所以以Option选选项项可可以以从从估估计计选选项项中中设设定定估估计计算算法法与与迭迭代代限限制制。单单击击Options按按钮钮，打开对话框如下所示。打开对话框如下所示。OptionsOptions对话框对话框对话框对话框23Option对话框有以下几项设置：对话框有以下几项设置：稳稳稳稳健健健健标标标标准准准准差差差差(RobustStandardErrors)对对二二元元因因变变量量模模型型而而言言，EViews允允许许使使用用准准-极极大大似似然然函函数数（Huber/White）或或广广义义的的线线性性模模型型（GLM）方方法法估估计计标标准准误误差差。察察看看RobustCovariance对对话话框框，并并从从两两种方法中选择一种。种方法中选择一种。初初初初始始始始值值值值EViews的的默默认认值值是是使使用用经经验验运运算算法法则则而而选选择择出出来来的的，适用于二元选择模型的每一种类型。适用于二元选择模型的每一种类型。估估估估计计计计法法法法则则则则在在Optimizationalgorithm一一栏栏中中选选择择估估计计的的运运算算法法则则。默默认认地地，EViews使使用用quadratichill-climbing方方法法得得到到参参数数估估计计。这这种种运运算算法法则则使使用用对对数数似似然然分分析析二二次次导导数数的的矩矩阵阵来来形形成成迭迭代代和和计计算算估估计计的的系系数数协协方方差差矩矩阵阵。还还有有另另外外两两种种不不同同的的估估计计法法则则，Newton-Raphson也也使使用用二二次次导导数数，BHHH使使用用一一次次导导数数，既既确确定定迭迭代代更更新新，又又确确定定协协方方差差矩阵估计。矩阵估计。24 （3 3）预测）预测）预测）预测从从方方程程工工具具栏栏选选择择Procs/Forecast（FittedProbability/Index），然然后后单单击击想想要要预预测测的的对对象象。既既可可以以计计算算拟拟合合概概率率，也可以计算指标也可以计算指标的拟合值。的拟合值。像像其其他他方方法法一一样样，可可以以选选择择预预测测样样本本，显显示示预预测测图图。如如果果解解释释变变量量向向量量xt包包括括二二元元因因变变量量yt的的滞滞后后值值，选选择择Dynamic选选项项预预测测，EViews使使用用拟拟合合值值得得到到预预测测值值；而而选选择择Static选选项项，将将使使用用实实际际的的（滞滞后后的）的）yt-1得到预测值。得到预测值。对对于于这这种种估估计计方方法法，无无论论预预测测评评价价还还是是预预测测标标准准误误差差通通常常都都无无法法自自动动计计算算。后后者者能能够够通通过过使使用用View/CovarianceMatrix显显示示的的系系数数方方差矩阵，或者使用差矩阵，或者使用covariance函数来计算。函数来计算。25可可以以在在各各种种方方式式上上使使用用拟拟合合指指标标，举举个个例例子子，计计算算解解释释变变量量的的边边际际影影响响。计计算算预预测测拟拟合合的的指指标标，并并用用序序列列xb 中中保保存存这这个个结结果果。然然后后生生成成序序列列dnorm(-xb)、dlogistic(-xb)、dextreme(-xb)，可可以以与与估估计计的的系系数数 j相相乘乘，提提供供一一个个yi的的期期望望值值对对xi的的第第j个个分分量量的的导导数数的估计。的估计。(7.5.1)26（4 4）产生残差序列）产生残差序列）产生残差序列）产生残差序列通通过过Procs/MakeReidualSeries选选项项产产生生下下面面三三种种残残差差类类型型中中的的一一种类型。种类型。表表表表7.1.27.1.2 残差残差残差残差类型类型类型类型普通残差普通残差(Ordinary)标准化残差标准化残差(Standardized)广义残差广义残差(Generalized)27 例例例例7.27.2 二二二二元选择模型实例元选择模型实例元选择模型实例元选择模型实例 2 2某某商商业业银银行行从从历历史史贷贷款款客客户户中中随随机机抽抽取取78个个样样本本，根根据据设设计计的的指指标标体体系系分分别别计计算算它它们们的的“商商业业信信用用支支持持度度”（CC）和和“市市场场竞竞争争地地位位等等级级”（CM），式式（7.1.1）中中的的因因变变量量y取取为为对对它它们们贷贷款款的的结结果果，是是二二元元离离散散变变量量，yi=1表表示示贷贷款款成成功功，yi=0表表示示贷贷款款失失败败。本本例例的的目目的的是是研研究究y与与CC、CM之之间间的的关关系系，并并为为正正确确贷贷款款决决策策提提供供支支持持。“商商业业信信用用支支持持度度”是是由由一一个个指指标标体体系系计计算算得得到到的的，表表征征客客户户的的财财务务状状况况，该该变变量量越越大大，表表明明客客户户财财务务状状况况越越差差；“市市场场竞竞争争地地位位等等级级”也也是是由由一一个个指指标标体体系系计计算算得得到到的的，该变量越大表明客户市场状况越好。该变量越大表明客户市场状况越好。28利用式（利用式（7.1.10），分布函数采用标准正态分布，即），分布函数采用标准正态分布，即Probit模型，计模型，计算结果为：算结果为：z=(1.17)(-1.13)(1.135)从从回回归归结结果果可可以以看看出出商商业业信信用用支支持持度度的的值值越越大大，贷贷款款成成功功的的概概率率越越小小；而而市市场场竞竞争争地地位位等等级级的的值值越越大大贷贷款款成成功功的的概概率率越越大大。将将自自变变量量的的取取值值带带入入到到（7.1.9）式式，就就可可以以预预测测贷贷款款成成功功和和失失败败的的概概率率。例例如如，将将第第9个个样本观测值样本观测值CC=23，CM=0代入得代入得:29表表7.1.4样本观测值和贷款概率预测值样本观测值和贷款概率预测值序号序号yCCCMP(y 1)序号序号yCCCMP(y 1)10125-2040028-2020599-204112500.990630100-204212300.997940160-2043114015046-2044049-106080-2045014-10.549870133-204606102.1E-1280350-104714021912300.997948030-2010060-20490112-1011070-1050078-20121-801511001130400-20520131-20140720053054-10150120-1054142211614010.99985504200.02091713510.9999561182118126115708016.4E-1219115-10.4472581-50120069-105903262030表表7.1.4样本观测值和贷款概率预测值样本观测值和贷款概率预测值(续）续）如如果果有有一一个个新新客客户户，根根据据客客户户资资料料，计计算算其其“商商业业信信用用支支持持度度”（CC）和和“市市场场竞竞争争地地位位等等级级”（CM），然然后后代代入入到到（7.1.9）式式就就可以预测贷款成功和失败的概率，以此决定是否给予贷款。可以预测贷款成功和失败的概率，以此决定是否给予贷款。21010710600261102212911611-2-10.999923121162014-23.9E-072413710.99996312200.999125053-1064011310260194006514210.99872701500-206615720.9999280960067014600291-8016811501300375-2069026-24.4E-1631042-16.5E-1370089-20321521711511330172-20721-9-11341-80173141135089-2074054-20360128-2075132113716017605401.5E-07380150-10770131-2039154217811501317.27.2排序选择模型排序选择模型排序选择模型排序选择模型当当因因变变量量不不止止是是两两种种选选择择时时，就就要要用用到到多多元元选选择择模模型型(multiplechoicemodel)。多元离散选择问题普遍存在于经济生活中。例如：。多元离散选择问题普遍存在于经济生活中。例如：(1)一一个个人人面面临临多多种种职职业业选选择择，将将可可供供选选择择的的职职业业排排队队，用用0，1，2，3表表示示。影影响响选选择择的的因因素素有有不不同同职职业业的的收收入入、发发展展前前景景和和个个人人偏好等；偏好等；(2)同同一一种种商商品品，不不同同的的消消费费者者对对其其偏偏好好不不同同。例例如如，十十分分喜喜欢欢、一一般般喜喜欢欢、无无所所谓谓、一一般般厌厌恶恶和和十十分分厌厌恶恶，分分别别用用0，1，2，3，4表表示示。而而影影响响消消费费者者偏偏好好的的因因素素有有商商品品的的价价格格、性性能能、收收入入及及对对商商品品的需求程度等；的需求程度等；(3)一一个个人人选选择择上上班班时时所所采采用用的的方方式式自自己己开开车车，乘乘出出租租车车，乘公共汽车，还是骑自行车。乘公共汽车，还是骑自行车。32 上上述述3个个例例子子代代表表了了多多元元选选择择问问题题的的不不同同类类型型。前前两两个个例例子子属属于于排排序序选选择择问问题题，所所谓谓“排排序序”是是指指在在各各个个选选择择项项之之间间有有一一定定的的顺顺序序或或级级别别种种类类。而而第第3个个例例子子只只是是同同一一个个决决策策者者面面临临多多种种选选择择，多多种种选选择择之之间间没没有有排排序序，不不属属于于排排序序选选择择问问题题。与与一一般般的的多多元元选选择择模模型型不不同同，排排序序选选择择问问题题需需要要建建立立排排序序选选择择模模型型(orderedchoicemodel)。下面我们主要介绍排序选择模型。下面我们主要介绍排序选择模型。33与与二二元元选选择择模模型型类类似似，设设有有一一个个潜潜在在变变量量yi*，是是不不可可观观测测的的，可可观观测的是测的是yi，设，设yi 有有0，1，2，M等等M+1个取值。个取值。，（7.2.1）其中：其中：ui*是独立同分布的随机变量，是独立同分布的随机变量，yi 可以通过可以通过yi*按下式得到按下式得到（7.2.2）34设设ui*的分布函数为的分布函数为F(x)，可以得到如下的概率，可以得到如下的概率（7.2.3）和和二二元元选选择择模模型型一一样样，根根据据分分布布函函数数F(x)的的不不同同可可以以有有3种种常常见见的的模模型型：Probit模模型型、Logit模模型型和和Extremevalue模模型型。仍仍然然采采用用极极大大似似然然方方法法估估计计参参数数，需需要要指指出出的的是是，M个个临临界界值值c1,c2,cM 事事先先也也是是不不确确定定的的，所以也作为参数和回归系数一起估计。所以也作为参数和回归系数一起估计。35 例例例例7.37.3排序模型的实例排序模型的实例排序模型的实例排序模型的实例1 1 在在调调查查执执政政者者的的支支持持率率的的民民意意测测验验中中，由由于于执执政政者者执执行行了了对对某某一一收收入入阶阶层层有有利利的的政政策策而而使使得得不不同同收收入入的的人人对对其其支支持持不不同同，所所以以收收入入成成为为决决定定人人们们是是否否支支持持的的因因素素。通通过过调调查查取取得得了了市市民民收收入入(INC)与与支支持持与与否否(Y)的的数数据据，其其中中如如果果选选民民支支持持则则Yi 取取0，中中立立取取1，不不支支持持取取2。我我们们选选取取24个个样样本本进进行行排排序序选选择择模型分析。模型分析。36EViewsEViews软件的操作软件的操作软件的操作软件的操作（1 1）模型的估计模型的估计模型的估计模型的估计与二元选择模型类似，从主菜单中选择与二元选择模型类似，从主菜单中选择Objects/NewObject，并从该菜单中选择，并从该菜单中选择Equation选项。从选项。从EquationSpecification对对话框，选择估计方法话框，选择估计方法ORDERED,标准估计对话框将会改变以匹标准估计对话框将会改变以匹配这种设定。在配这种设定。在EquationSpecification区域，键入排序因变量的区域，键入排序因变量的名字，其后列出回归项。排序估计也只支持列表形式的设定，不名字，其后列出回归项。排序估计也只支持列表形式的设定，不用输入一个明确的方程。然后选择用输入一个明确的方程。然后选择Normal，Logist，ExtremeValue三种误差分布中的一种，单击三种误差分布中的一种，单击OK按钮即可。对话框如下所按钮即可。对话框如下所示。示。37 排序模型的输入对话框排序模型的输入对话框排序模型的输入对话框排序模型的输入对话框38 例例7.3估计结果如下：估计结果如下：39有有两两点点需需要要指指出出：首首先先，EViews不不能能把把常常数数项项和和临临界界值值区区分分开开，因因此此在在变变量量列列表表中中设设定定的的常常数数项项会会被被忽忽略略，即即有有无无常常数数项项都都是是等等价价的的。其其次次，EViews要要求求因因变变量量是是整整数数，否否则则将将会会出出现现错错误误信信息息，并并且且估估计计将将会会停停止止。然然而而，由由于于我我们们能能够够在在表表达达式式中中使使用用round、floor或或ceil函函数数自自动动将将一一个个非非整整数数序序列列转转化化成成整整数数序序列列，因因此此这这并并不不是是一一个个很严格的限制。很严格的限制。估估计计收收敛敛后后，EViews将将会会在在方方程程窗窗口口显显示示估估计计结结果果。表表头头包包含含通通常常的的标标题题信信息息，包包括括假假定定的的误误差差分分布布、估估计计样样本本、迭迭代代和和收收敛敛信信息息、y的的排排序序选选择择值值的的个个数数和和计计算算系系数数协协方方差差矩矩阵阵的的方方法法。在在标标题题信信息息之之下下是是系系数数估估计计和和渐渐近近的的标标准准误误差差、相相应应的的z-统统计计量量及及概概率率值值。然然后后，还还给出了临界值给出了临界值LIMIT_1:C(2)，LIMIT_2:C(3)的估计及相应的统计量。的估计及相应的统计量。402.2.常用的两个过程常用的两个过程常用的两个过程常用的两个过程MakeOrderedLimitVector产产生生一一个个临临界界值值向向量量c，此此向向量量被被命命名名为为LIMITS01，如如果果该该名名称称已已被被使使用用，则则命命名名为为LIMITS02，以以此类推。此类推。MakeOrderedLimitCovarianceMatrix产产生生临临界界值值向向量量c的的估估计计值值的的协协方方差差矩矩阵阵。命命名名为为VLIMITS01，如如果果该该名名称称已已被被使使用用，则则命名为命名为VLIMITS02，以此类推。，以此类推。413.3.预测预测预测预测因因为为排排序序选选择择模模型型的的因因变变量量代代表表种种类类或或等等级级数数据据，所所以以不不能能从从估估计计排排序序模模型型中中直直接接预预测测。选选择择Procs/MakeModel，打打开开一一个个包包含含方方程程系系统统的的没没有有标标题题的的模模型型窗窗口口，单单击击模模型型窗窗口口方方程程栏栏的的Solve按钮。按钮。例例7.3因因变变量量 y的的拟拟合合线线性性指指标标序序列列被被命命名名为为i_Y_0，拟拟和和值值落落在在第第一一类类中中的的拟拟合合概概率率被被命命名名为为Y_0_0的的序序列列，落落在在第第二二类类中中的的拟拟合合概概率率命命名名为为Y_1_0的的序序列列中中，落落在在第第三三类类中中的的拟拟合合概概率率命命名名为为Y_2_0的的序序列列中中，等等等等。注注意意对对每每一一个个观观察察值值，落落在在每每个个种类中的拟合概率相加值为种类中的拟合概率相加值为1。表表7.2.2中中Y_0_0（P(y=0)），Y_1_0（P(y=1)），Y_2_0（P(y=2)），分分别别是是支支持持、中中立立、不不支支持持的的概概率率，Y，INC是是实实际样本。际样本。42 4 4产生残差序列产生残差序列产生残差序列产生残差序列选选择择Proc/MakeResidualSeries产产生生广广义义残残差差序序列列，输输入入一一个个名名字字或或用用默默认认的的名名字字，然然后后单单击击OK按按钮钮。一一个个排排序序模模型型的的广广义义残残差差由由下下式给出：式给出：(7.5.2)其中：其中：c0=-，cM+1=。43例例例例7.47.4排序模型的实例排序模型的实例排序模型的实例排序模型的实例2 2本本例例利利用用2010年年中中国国社社会会综综合合调调查查数数据据库库中中的的181个个问问卷卷调调查查数数据据，按按照照调调查查问问卷卷的的原原始始问问题题以以幸幸福福程程度度（y）为为因因变变量量建建立立排排序序选选择择模模型型，研研究究幸幸福福感感的的影影响响因因素素。将将幸幸福福程程度度（y）分分为为4个个等等级级，分分别别为为：不不幸幸福福（用用1表表示示），介介于于幸幸福福和和不不幸幸福福之之间间（用用2表表示示），比比较较幸幸福福（用用3表表示示）和和完完全全幸幸福福（用用4表表示示）。参参考考现现有有关关于于幸幸福福的的研研究究，选选取取与与幸幸福福程程度度相相关关的的7个个变变量量作作为为解解释释变变量量，分分别别为为教教育育水水平平x1（1为为受受过过高高等等教教育育，0为为没没接接受受过过高高等等教教育育）、健健康康状状况况x2（1为为健健康康，0为为不不健健康康）、婚婚姻姻状状况况x3（已已婚婚为为1，未未婚婚或或丧丧偶偶、离离异异等等为为0）、住住房房面面积积x4、收收入入水水平平x5，所所在在地地是是否否为为乡乡村村x6（1为为是是，0为为否否）、宗宗教教信信仰仰x7（1为为信信仰仰宗宗教教，0为为不不信信仰仰宗宗教教）。建建立立排排序序因因变变量量模模型型，分分布布函数采用标准正态分布，即函数采用标准正态分布，即Probit模型，估计结果为：模型，估计结果为：44z=（0.18）（4.57)（-0.69)（2.01）（2.40）（0.73）（2.36）（7.2.6）回回归归系系数数为为正正表表示示解解释释变变量量的的取取值值越越大大，潜潜在在变变量量取取较较大大值值的的概概率率越越大大，从从而而幸幸福福的的可可能能性性越越大大。利利用用本本例例所所选选取取的的样样本本数数据据进进行行估估计计表表明明，影影响响幸幸福福感感的的主主要要因因素素包包括括健健康康状状况况、是是否否具具有有宗宗教教信信仰仰、住住房房面面积积和和收收入入水水平平。而而婚婚姻姻似似乎乎没没有有提提升升个个人人的的幸幸福福感感，教教育育水水平平和和居居住住地地也非影响幸福感的主要因素。也非影响幸福感的主要因素。45去掉不显著变量重新进行回归，分布函数采用去掉不显著变量重新进行回归，分布函数采用Logit模型，估计结模型，估计结果为：果为：另外，两个临界值的估计为另外，两个临界值的估计为:并且均为显著的。由此得出结论：健康是幸福的最重要因素，其次是宗并且均为显著的。由此得出结论：健康是幸福的最重要因素，其次是宗教信仰和收入。教信仰和收入。z=（4.39）（1.86）（2.73）（2.36）（7.2.7）467.37.3受限因变量模型受限因变量模型受限因变量模型受限因变量模型在在现现实实的的经经济济问问题题中中，有有时时会会遇遇到到因因变变量量是是连连续续的的，但但是是受受到到某某种种限限制制不不能能完完全全被被观观测测到到的的情情形形，此此时时得得到到的的数数据据就就出出现现了了审审查查（Censoring）或或者者断断尾尾（Truncation）的的现现象象。也也就就是是说说所所得得到到的的因因变变量量的的观观测测值值来来源源于于总总体体的的一一个个受受限限制制的的子子集集，并并不不能能完完全全反反映映总总体体的的实实际际特特征征，这这一一类类数数据据由由于于违违背背了了经经典典计计量量经经济济学学模模型型对对被被解解释释变变量量样样本本观观测测值值的的要要求求，因因此此进进行行普普通通的的最最小小二二乘乘估估计计会会产产生生偏偏误误。审审查查样样本本、截截断断样样本本以以及及选选择择性性样样本本在在非非实实验验性性的的社社会会科科学学研研究究中中广广泛泛存存在在，詹詹姆姆斯斯托托宾宾（JamesTobin）1958年的论文引发了对这类问题的现代研究。年的论文引发了对这类问题的现代研究。477.3.17.3.1审查、选择性样本和截断数据审查、选择性样本和截断数据审查、选择性样本和截断数据审查、选择性样本和截断数据对对于于三三种种类类型型的的样样本本数数据据，因因变变量量都都具具有有截截断断特特征征。具具体体表表述述如如下下：若若对对于于随随机机变变量量y 有有某某个个数数值值c，对对于于y c 的的所所有有样样本本，y 的的观观测测值值是是可可获获得得的的，而而对对于于其其他他样样本本仅仅仅仅已已知知y c 的的事事实实，具具体体观观测测值值获获得得不不了了，则则称称为为y 是是右右截截断断的的；同同时时还还有有左左截截断断，即即已已知知所所有有大大于于某某一一阈阈值值c 的的y 的的观观测测值值，但但对对于于其其他他所所有有样样本本仅仅仅仅知知道道yc 的的事事实实，具具体体观观测测值值获获得得不不了了。一一个个典典型型的的例例子子是是收收入入，对对于于样样本本中中的的高高收收入入群群体体我我们们可可能能仅仅仅仅知知道道其其年年收收入入是是10万万美美元元以以上上，而而不不知知道道具具体体是是多多少少。还还可可能能存存在在两两个个或或者者更更多多的的阈阈值值，如如存存在在两两个个阈阈值值d，c（不不妨妨设设dc），若若cyc 时时x的观测值。的观测值。2 2截断样本截断样本截断样本截断样本如如果果仅仅仅仅是是对对于于那那些些有有观观测测值值的的y 才才可可以以观观测测到到x的的样样本本，则则该该样样本本被被称称为为是是截截断断性性样样本本（Truncation），某某些些抽抽样样会会导导致致截截断断问问题题。截截断断是是数数据据收收集集效效应应与与数数据据生生成成无无关关，当当样样本本数数据据从从研研究究总总体体的的子子样样本本中抽取时就会出现。中抽取时就会出现。493 3选择性样本选择性样本选择性样本选择性样本还还存存在在一一类类选选择择性性样样本本问问题题，它它的的因因变变量量也也是是截截断断样样本本，但但是是和和审审查查问问题题的的区区别别在在于于决决定定因因变变量量y 是是否否有有观观测测值值的的机机制制不不同同。在在审审查查问问题题中中，如如前前面面举举的的因因变变量量是是高高收收入入群群体体的的例例子子，y的的观观测测值值的的特特性性取取决决于于其其本本身身，例例如如y大大于于阈阈值值10万万美美元元时时，y的的观观测测值值是是不不可可确确切切获获得得的的。而而在在选选择择性性样样本本问问题题中中，y能能否否被被观观测测到到取取决决于于另另一一个个变变量量z的的值值。例例如如，我我们们要要研研究究成成年年人人给给予予其其孩孩子子零零花花钱钱的的数数额额（y），因因为为不不是是所所有有的的成成年年人人都都有有孩孩子子，所所有有在在某某些些子子样样本本中中我我们们不不具具备备y的的观观测测值值。设设zi=1表表示示第第i位位成成年年人人有有孩孩子子，反反之，之，zi=0。50则我们需要两个步骤来解决问题：则我们需要两个步骤来解决问题：（1）拟合所有样本中成年人有孩子的概率；）拟合所有样本中成年人有孩子的概率；（2）在所有有孩子的成年人中拟合）在所有有孩子的成年人中拟合y 的期望值。的期望值。此时会有两类解释变量：此时会有两类解释变量：z 用以解释成年人是否有孩子；以用以解释成年人是否有孩子；以及自变量及自变量x 用以解释用以解释y 的观测值。对于所有的样本，我们都能得的观测值。对于所有的样本，我们都能得到到z 和和x的观测值，并不管其处于被选择范围之内（的观测值，并不管其处于被选择范围之内（y 可被观测可被观测到）还是之外（到）还是之外（y 不能具体观测到）。表不能具体观测到）。表7.3.1给出了三类样本的给出了三类样本的特征总结。特征总结。51样本类型样本类型因变量因变量自变量自变量审查样本审查样本y 仅仅在在其其值值满满足足某某些些条条件件时时，如如y c 时时，才才可可获获知知其其确确切切取值。取值。y 是截断的随机变量。是截断的随机变量。无无论论y是是否否有有确确切切的的取取值值，对对于于整整个个样样本本，自自变变量量x都都具具有有观观测值。测值。选择性样本选择性样本y 仅仅当当一一个个随随机机变变量量z满满足足某某些些条条件件，如如z=1时时，才才具具有有观观测值。测值。y 是截断的随机变量。是截断的随机变量。无无论论y是是否否有有观观测测值值，对对于于整整个个样样本本，自自变变量量x和和z 都都可可被被观观测。测。截断样本截断样本y 仅仅在在其其值值满满足足某某些些条条件件时时，如如y c 时时，才才具具有有观观测测值值。y是截断的随机变量。是截断的随机变量。仅仅当当y具具备备观观测测值值时时，自自变变量量才具有观测值。才具有观测值。表表表表7.3.17.3.1审查、选择性样本和截断样本审查、选择性样本和截断样本审查、选择性样本和截断样本审查、选择性样本和截断样本527.3.27.3.2受限因变量数据为什么不能用普通最小二乘估计受限因变量数据为什么不能用普通最小二乘估计受限因变量数据为什么不能用普通最小二乘估计受限因变量数据为什么不能用普通最小二乘估计受受限限因因变变量量模模型型共共同同认认为为存存在在一一个个潜潜在在的的因因变变量量yi*，y 是是yi*的的现现实观测值，潜在因变量的回归模型为：实观测值，潜在因变量的回归模型为：假假设设ui 是是独独立立且且服服从从正正态态分分布布的的误误差差项项，均均值值为为0，方方差差为为 2。观观测变量和潜在变量的关系为：测变量和潜在变量的关系为：不妨设不妨设c=0，求得，求得yi 的条件均值为：的条件均值为：（7.3.1）（7.3.2）（7.3.3）53式中：式中：（7.3.4）将模型（将模型（7.3.1）与式（）与式（7.3.4）比较可知，由于因变量的截断问题）比较可知，由于因变量的截断问题使得采用普通最小二乘估计忽略了非线性项。进一步的计算表明：使得采用普通最小二乘估计忽略了非线性项。进一步的计算表明：由此可见普通最小二乘法同时忽略了随机误差项实际上的异方差性。由此可见普通最小二乘法同时忽略了随机误差项实际上的异方差性。（7.3.5）54 7.3.37.3.3审查回归模型审查回归模型审查回归模型审查回归模型1 1模型的形式模型的形式模型的形式模型的形式考虑下面的潜在因变量回归模型考虑下面的潜在因变量回归模型(7.3.6)式式中中：是是比比例例系系数数；y*是是潜潜在在变变量量。被被观观察察的的数数据据y 与与潜潜在在变变量量y*的的关系如下：关系如下：(7.3.7)55换换句句话话说说，yi*的的所所有有负负值值被被定定义义为为0值值。我我们们称称这这些些数数据据在在0处处进进行行了了左左截截取取（审审查查）（leftcensored）。而而不不是是把把观观测测不不到到的的yi*的的所所有有负负值值简简单单地地从从样样本本中中除除掉掉。此此模模型型称称为为规规范范的的审审查查回回归归模模型型，也也称称为为Tobit模型。模型。更一般地，可以在任意有限点的左边和右边截取（审查），即更一般地，可以在任意有限点的左边和右边截取（审查），即(7.3.8)式中：式中：，代表截取（审查）点，是常数值。如果没有左截取代表截取（审查）点，是常数值。如果没有左截取(审查审查)点，点，可以设为可以设为。如果没有右截取。如果没有右截取(审查审查)点，可以设为点，可以设为。规。规范的范的Tobit模型是具有模型是具有和和的一个特例。的一个特例。562 2审查回归模型的极大似然估计审查回归模型的极大似然估计审查回归模型的极大似然估计审查回归模型的极大似然估计与与前前边边介介绍绍的的几几个个模模型型类类似似，可可以以采采用用极极大大似似然然法法估估计计审审查查回回归归模型的参数，对数似然函数为模型的参数，对数似然函数为(7.3.12)求式求式(7.3.12)的最大值即可得参数的最大值即可得参数,的估计。这里的估计。这里f,F 分别是分别是u 的密度函数和分布函数。的密度函数和分布函数。57特别地，对于特别地，对于Tobit模型，设模型，设uN(0,1)，这时对数似然函数为，这时对数似然函数为(7.3.13)式式(7.3.5)是是由由两两部部分分组组成成的的。第第一一部部分分对对应应没没有有限限制制的的观观测测值值，与与经经典典回回归归的的表表达达式式是是相相同同的的；第第二二部部分分对对应应于于受受限限制制的的观观测测值值。因因此此，此此似似然然函函数数是是离离散散分分布布与与连连续续分分布布的的混混合合。将将似似然然函函数数最最大大化化就就可可以以得得到到参参数数的极大似然估计。的极大似然估计。58例例例例7.57.5审查模型的实例审查模型的实例审查模型的实例审查模型的实例1 1 本本例例研研究究已已婚婚妇妇女女工工作作时时间间问问题题，共共有有50个个调调查查数数据据，来来自自于于美美国国国国势势调调查查局局 U.S.Bureau of the Census(CurrentPopulationSurvey,1993)，其其中中y 表表示示已已婚婚妇妇女女工工作作时时间间，x1 x4分分别别表表示示已已婚婚妇妇女女的的未未成成年年子子女女个个数数、年年龄龄、受受教教育育的的年年限限和和丈丈夫夫的的收收入入。只只要要已已婚婚妇妇女女没没有有提提供供工工作作时时间间，就就将将工工作作时时间间作零对待，符合审查回归模型的特点。作零对待，符合审查回归模型的特点。59本本例采用例采用Tobit模型，分布函数采用标准正态分布，计算结果为：模型，分布函数采用标准正态分布，计算结果为：（7.3.14）z=(0.9)(-1.95)(-2.88)(2.27)(0.92)式（式（7.3.14）中回归系数为正，则解释变量越大，已婚妇女工作时间越长。）中回归系数为正，则解释变量越大，已婚妇女工作时间越长。例如已婚妇女受教育的年限（例如已婚妇女受教育的年限（x3）越长或丈夫的收入（）越长或丈夫的收入（x4）越高，则工作的）越高，则工作的时间越长，但是时间越长，但是x4的系数不显著并且也很小，所以对已婚妇女工作时间影的系数不显著并且也很小，所以对已婚妇女工作时间影响不大。式（响不大。式（7.3.14）中回归系数为负，则解释变量越大，已婚妇女工作时）中回归系数为负，则解释变量越大，已婚妇女工作时间越短，如已婚妇女的未成年子女个数（间越短，如已婚妇女的未成年子女个数（x1）越多或年龄（）越多或年龄（x2）越大，则工）越大，则工作的时间越短。且作的时间越短。且x1,x2的系数都很显著，说明这两个因素对已婚妇女工作的系数都很显著，说明这两个因素对已婚妇女工作时间有较大影响。时间有较大影响。60EViewsEViews软件的操作软件的操作软件的操作软件的操作 1.1.模型模型模型模型的估计的估计的估计的估计为估计审查模型，打开为估计审查模型，打开Equation对话框，从对话框，从EquationSpecification对话框所列估计方法中选择对话框所列估计方法中选择CENSORED估计方法。在估计方法。在EquationSpecification区域，输入被审查的因变量的名字及一系列回区域，输入被审查的因变量的名字及一系列回归项。审查回归模型的估计只支持列表形式的设定。归项。审查回归模型的

展开阅读全文

第07章--离散因变量和受限因变量模型(第三版)课件

最新文档