《计数数据模型》PPT课件.ppt

资源描述

4 4离散计数数据模型ModelsForCountData 一离散计数数据模型的提出二计数过程及其分布三泊松回归模型四负二项分布回归模型五零变换泊松模型一离散计数数据模型的提出 1 经济社会研究中的离散计数问题计数变量是取值为非负整数的变量许多经济社会问题的描述变量都为计数变量一定时间内发生事故的次数一年中公司申请的专利数量一定时间内变换工作的次数一定时间内到医院就诊的次数家庭生育孩子的数量学生在本科4年中不及格课程门数以这些变量为被解释变量研究它们的影响因素构成了计量经济学的一类问题 2 计量经济学中的离散计数数据模型以离散计数变量为被解释变量研究它们的影响因素构成了计量经济学的一类问题这类问题的共同特点是被解释变量观测值表现为非负整数假设是Y计数变量 X是一组解释变量建立如下的经典线性模型左端为非负整数而右端并无限制致使左右端矛盾如果对Y采用对数变换可以解决非负限制问题在计数数据应用研究中难以实现因为相当比例的Y的观测值为0 当y没有上界时可以采用指数函数模型非线性最小二乘方法 NLS 可以用于该模型的估计但效果不理想因为NLS估计量非有效除非y的方差为常数而实际上所有计数数据的标准分布都意味着异方差被解释变量观测值的非负整数特征计数数据中零元素和绝对值较小的数据出现得较为频繁而且离散特征十分明显以及模型的异方差特征决定了有必要引进描述非负整数特征的概率分布建立离散计数数据模型七十年代末以来许多学者在计数数据模型的处理方法方面作出了较大贡献包括 Gilbert 1979 提出了泊松回归模型 Hausman Hall和Griliches 1984 提出了负二项回归模型和Panel方法 Gourier Monfort和Trogonon 1984 提出了仿最大似然法其中最先提出的泊松方法在研究计数数据模型问题中应用得非常广泛二计数过程及其分布 1 计数过程计数过程的定义随机过程 N t t 0 被称为计数过程 N t 表示t时间前发生的事件总量平稳性 Stationary 在任何时间区间上事件发生数量的分布只由时间区间的长度决定 2 单变量泊松过程在时间区间 t t t 上事件发生1次的概率与t时间前事件发生的数量无关在时间区间 t t t 上事件发生1次和0次的概率分别为即在一个足够短的区间上事件发生两次以上的概率趋近于0 在t时刻已经发生k次的概率乘以 t t 内发生0次的概率在t时刻已经发生 k 1 次的概率乘以 t t 内发生1次的概率使用初始条件求解以上微分方程利用概率生成函数得到泊松分布 3 泊松分布 Poissondistribution 在泊松过程中标准化时间区间长度为t 1 则可以得到参数为的标准泊松分布泊松分布的一个重要特征是均值和方差相等称为分散均衡 equidispersion 泊松分布是计数过程最常见的一类分布所谓均值和方差相等指的是如果对同一个个体例如某个人一年内到医院就诊的次数进行无数次重复抽样得到的计数数据序列的均值和方差相等在实际社会经济生活中所谓重复抽样是不可能实现的只能根据对不同个体的一次抽样得到的序列近似地判断是否服从泊松分布定理令当且仅当X与Y独立时随机变量Z X Y是泊松分布当X与Y独立时 Z的概率生成函数为则Z服从泊松分布参数为 4 二项分布 Binomialdistribution 随机变量X服从参数为n和p的二项分布 X B n p 0 p 1 即均值和方差为 E X np Var X np 1 p 计数过程的均值大于方差称为分散不足 underdispersion 5 负二项分布 NegativeBinomialdistribution 如果计数过程的均值小于方差称为分散过度 overdispersion 对于这样的计数过程一般服从负二项分布 X NB 00 6 对数分布 Logarithmicdistribution 方差和均值为 7 计数数据分布特征如果以泊松分布作为标准二项分布更集中于均值而负二项分布更为分散所有分布都向左侧倾斜 skewedtotheleft 说明在计数分布中数值较小的数据出现的概率较高 8 Katz分布族非负整数分布可以用递归概率比表示Katz分布族定义为其中且当当分布为泊松分布当分布为二项分布当分布为负二项分布当分布为对数分布三泊松回归模型 1 泊松回归模型 Poissonregressionmodel 被解释变量Yi服从参数为 i的泊松分布其中 i与解释变量Xi存在某种关系模型的初始方程为 2 极大似然估计 MLE 对数似然函数最大化似然函数一阶条件 Hessian矩阵由于Hessian矩阵是负定的对数似然函数是凹函数估计值的二阶条件满足利用迭代算法可以求解一阶条件例如 Newton Raphson方法g 是梯度向量 3 例题本科不及格门数的原因分析变量Unpass 不及格门数Score 高考成绩Stime 平均每周于用学习的时间Dsa 理文科虚变量Dbody 健康状况虚变量数据数据经典模型 OLS Poisson回归模型剔除不显著变量 4 估计量的性质模型正确设定当且仅当存在满足假设模型正确设定围绕对进行Taylor展开由一阶条件可知根据iid假设和大数定律 I为Fisher信息矩阵根据中心极限定理因此以上结果表明是的一致估计量由于大样本方差矩阵达到Cramer Rao下界估计量是大样本有效的因此正确设定的泊松回归模型满足 5 泊松回归模型的假设检验泊松回归模型假定被解释变量的均值等于方差这是一个非常强的假设如何检验这个假设条件是否成立主要有以下两种基于回归的检验方法拉格朗日乘子检验法基于回归的分布检验如果的估计趋近于1 则不拒绝零假设如果的估计趋近于1 的估计趋近于0 则不拒绝零假设拉格朗日乘子检验泊松分布是负二项分布的一种特殊情况如果对负二项分布的某个参数施加一定的限制条件后就能够得到泊松分布构造LM统计量权重为1 例题采用基于回归的检验方法检验被解释变量的均值等于方差得到回归方程拒绝均值等于方差零假设由简单统计分析得到序列UNPASS的均值为0 48 方差为0 9078 可以认为该序列为分散过度型应该采用负二项分布回归模型 6 泊松回归模型的拟合优度检验由于泊松回归模型的条件均值非线性且回归方程存在异方差所以它不能产生类似于经典线性模型中的R2统计量提出了若干个替代性的统计量用以衡量该模型的拟合优度 PseudoR squared 该统计量被应用软件例如Eviews等普遍采用从直观看如果完全拟合 R2 1 Rp2统计量该统计量通过把泊松模型同只有一种观察值的模型相比较的方法考察该模型的拟合优度但是这个统计量有时为负而且会随变量的减少而变小 G2统计量该统计量为各样本观察值的偏差 deviance 之和如果拟合达到完美状态则该统计量为零分子和分母都衡量了模型在只有一种观察值的模型基础上的改进分母为改进的最大空间所以该统计量的数值在0到1之间 Rd2统计量四负二项分布回归模型负二项分布模型 NegativeBinomialRegressionModel 由于泊松模型假定被解释变量的均值等于方差人们提出了许多替代该模型的方法其中应用得较多的是负二项分布模型 Cameron和Trivedi在1986年提出负二项分布的一种形式引入无法观察的随机影响来使泊松模型一般化被解释变量的条件分布被解释变量的分布该分布是负二项分布的一种形式其条件均值为 i 条件方差为 i 1 1 i 由概率密度可以求得最大似然函数再通过迭代法求出参数估计对于负二项分布假设可以用Wald或者LR统计量进行检验例题的负二项分布回归模型用回归方程表示如下 UNPASS EXP 21 46440508 0 03152123676 SCORE 0 1039909045 STIME 0 1233402396 DSA 0 2315551204 DBODY 从估计结果发现检验拟合优度的统计量的值为0 465 表明模型具有比较好的拟合优度检验总体显著性的LR统计量的值为43 39 表明模型具有很高的总体显著性通过变量显著性的Z检验发现理文科虚变量 Dsa 和健康状况虚变量 Dbody 对不及格门数的影响并不显著五零变换泊松模型被解释变量为零值的产生过程与它取正值的过程差异很大例如 1年内到医院就诊的次数假设1 身体健康的人就诊次数为0 身体不健康的人就诊次数大于0 假设2 身体健康的人就诊次数为0 身体不健康的人就诊次数一般大于0 但也可能为0 零变换泊松模型 HurdleandZero AlteredPossionModels Mullahey 1986 最先提出了一个Hurdle模型用白努利分布来描述被解释变量分别为零值和正值的概率改变了被解释变量取零值的概率但是所有取值的概率之和保持为1 假设1 Mullahey 1986 Lambert 1992 等人还分析了在hurdle模型的一种扩展情况即假定被解释变量的零值产生于两个区域 regime 中的一个在一个区域里被解释变量总是零而另一个区域里被解释变量的取值符合泊松过程既可能产生零也可能产生其他数值即假设2模型形式如下如果用z表示白努利分布的两种情况事件发生在区域1时令z 0 发生在区域2时令z 1 并用y 表示区域2内被解释变量服从的泊松过程则所有观察值都可以表示为z y 于是这个分离模型可表示为式中F为设定的分布函数 Lambert 1992 和Greene 1994 考虑了许多方法其中包括应用logit和probit模型描述两个区域各自的发生概率这些修正的方法都改变了泊松过程即均值和方差不再相等关于分离模型的进一步探讨比较复杂请同学们自行参考Greene的教科书和相关文献

展开阅读全文

《计数数据模型》PPT课件.ppt

最新文档