《计数数据模型》PPT课件.ppt

上传人:za****8 文档编号:6222696 上传时间:2020-02-19 格式:PPT 页数:62 大小:778.56KB
返回 下载 相关 举报
《计数数据模型》PPT课件.ppt_第1页
第1页 / 共62页
《计数数据模型》PPT课件.ppt_第2页
第2页 / 共62页
《计数数据模型》PPT课件.ppt_第3页
第3页 / 共62页
点击查看更多>>
资源描述
4 4离散计数数据模型ModelsForCountData 一 离散计数数据模型的提出二 计数过程及其分布三 泊松回归模型四 负二项分布回归模型五 零变换泊松模型 一 离散计数数据模型的提出 1 经济社会研究中的离散计数问题 计数变量是取值为非负整数的变量许多经济 社会问题的描述变量都为计数变量一定时间内发生事故的次数一年中公司申请的专利数量一定时间内变换工作的次数一定时间内到医院就诊的次数家庭生育孩子的数量学生在本科4年中不及格课程门数以这些变量为被解释变量 研究它们的影响因素 构成了计量经济学的一类问题 2 计量经济学中的离散计数数据模型 以离散计数变量为被解释变量 研究它们的影响因素 构成了计量经济学的一类问题 这类问题的共同特点是 被解释变量观测值表现为非负整数 假设是Y计数变量 X是一组解释变量 建立如下的经典线性模型 左端为非负整数 而右端并无限制 致使左右端矛盾 如果对Y采用对数变换 可以解决非负限制问题 在计数数据应用研究中难以实现 因为相当比例的Y的观测值为0 当y没有上界时 可以采用指数函数模型 非线性最小二乘方法 NLS 可以用于该模型的估计 但效果不理想 因为NLS估计量非有效 除非y的方差为常数 而实际上 所有计数数据的标准分布都意味着异方差 被解释变量观测值的非负整数特征 计数数据中零元素和绝对值较小的数据出现得较为频繁 而且离散特征十分明显 以及模型的异方差特征 决定了有必要引进描述非负整数特征的概率分布建立离散计数数据模型 七十年代末以来 许多学者在计数数据模型的处理方法方面作出了较大贡献 包括 Gilbert 1979 提出了泊松回归模型 Hausman Hall和Griliches 1984 提出了负二项回归模型和Panel方法 Gourier Monfort和Trogonon 1984 提出了仿最大似然法 其中 最先提出的泊松方法在研究计数数据模型问题中应用得非常广泛 二 计数过程及其分布 1 计数过程 计数过程的定义随机过程 N t t 0 被称为计数过程 N t 表示t时间前发生的事件总量 平稳性 Stationary 在任何时间区间上 事件发生数量的分布只由时间区间的长度决定 2 单变量泊松过程 在时间区间 t t t 上 事件发生1次的概率与t时间前事件发生的数量无关 在时间区间 t t t 上 事件发生1次和0次的概率分别为 即 在一个足够短的区间上 事件发生两次以上的概率趋近于0 在t时刻已经发生k次的概率乘以 t t 内发生0次的概率 在t时刻已经发生 k 1 次的概率乘以 t t 内发生1次的概率 使用初始条件 求解以上微分方程利用概率生成函数得到泊松分布 3 泊松分布 Poissondistribution 在泊松过程中 标准化时间区间长度为t 1 则可以得到参数为 的标准泊松分布 泊松分布的一个重要特征是均值和方差相等 称为分散均衡 equidispersion 泊松分布是计数过程最常见的一类分布 所谓均值和方差相等 指的是 如果对同一个个体 例如某个人一年内到医院就诊的次数 进行无数次重复抽样 得到的计数数据序列的均值和方差相等 在实际社会经济生活中 所谓 重复抽样 是不可能实现的 只能根据对不同个体的一次抽样得到的序列近似地判断是否服从泊松分布 定理令 当且仅当X与Y独立时 随机变量Z X Y是泊松分布 当X与Y独立时 Z的概率生成函数为则Z服从泊松分布 参数为 4 二项分布 Binomialdistribution 随机变量X服从参数为n和p的二项分布 X B n p 0 p 1 即 均值和方差为 E X np Var X np 1 p 计数过程的均值大于方差 称为分散不足 underdispersion 5 负二项分布 NegativeBinomialdistribution 如果计数过程的均值小于方差 称为分散过度 overdispersion 对于这样的计数过程 一般服从负二项分布 X NB 00 6 对数分布 Logarithmicdistribution 方差和均值为 7 计数数据分布特征 如果以泊松分布作为标准 二项分布更集中于均值 而负二项分布更为分散所有分布都向左侧倾斜 skewedtotheleft 说明在计数分布中 数值较小的数据出现的概率较高 8 Katz分布族 非负整数分布可以用递归概率比表示Katz分布族定义为其中 且当 当 分布为泊松分布当 分布为二项分布当 分布为负二项分布当 分布为对数分布 三 泊松回归模型 1 泊松回归模型 Poissonregressionmodel 被解释变量Yi服从参数为 i的泊松分布 其中 i与解释变量Xi存在某种关系 模型的初始方程为 2 极大似然估计 MLE 对数似然函数最大化似然函数 一阶条件 Hessian矩阵 由于Hessian矩阵是负定的 对数似然函数是凹函数 估计值的二阶条件满足利用迭代算法 可以求解一阶条件例如 Newton Raphson方法g 是梯度向量 3 例题 本科不及格门数的原因分析 变量Unpass 不及格门数Score 高考成绩Stime 平均每周于用学习的时间Dsa 理 文科虚变量Dbody 健康状况虚变量 数据 数据 经典模型 OLS Poisson回归模型 剔除不显著变量 4 估计量的性质 模型正确设定 当且仅当存在满足假设模型正确设定 围绕对进行Taylor展开由一阶条件可知 根据iid假设和大数定律 I为Fisher信息矩阵根据中心极限定理因此 以上结果表明 是的一致估计量由于大样本方差矩阵达到Cramer Rao下界 估计量是大样本有效的因此 正确设定的泊松回归模型满足 5 泊松回归模型的假设检验 泊松回归模型假定被解释变量的均值等于方差 这是一个非常强的假设 如何检验这个假设条件是否成立 主要有以下两种 基于回归的检验方法拉格朗日乘子检验法 基于回归的分布检验 如果 的估计趋近于1 则不拒绝零假设 如果 的估计趋近于1 的估计趋近于0 则不拒绝零假设 拉格朗日乘子检验泊松分布是负二项分布的一种特殊情况 如果对负二项分布的某个参数施加一定的限制条件后 就能够得到泊松分布 构造LM统计量 权重为1 例题 采用基于回归的检验方法检验被解释变量的均值等于方差 得到回归方程 拒绝均值等于方差零假设 由简单统计分析得到 序列UNPASS的均值为0 48 方差为0 9078 可以认为该序列为分散过度型 应该采用负二项分布回归模型 6 泊松回归模型的拟合优度检验 由于泊松回归模型的条件均值非线性 且回归方程存在异方差 所以它不能产生类似于经典线性模型中的R2统计量 提出了若干个替代性的统计量 用以衡量该模型的拟合优度 PseudoR squared 该统计量被应用软件 例如Eviews等 普遍采用 从直观看 如果完全拟合 R2 1 Rp2统计量 该统计量通过把泊松模型同只有一种观察值的模型相比较的方法 考察该模型的拟合优度 但是这个统计量有时为负 而且会随变量的减少而变小 G2统计量 该统计量为各样本观察值的偏差 deviance 之和 如果拟合达到完美状态 则该统计量为零 分子和分母都衡量了模型在只有一种观察值的模型基础上的改进 分母为改进的最大空间 所以该统计量的数值在0到1之间 Rd2统计量 四 负二项分布回归模型 负二项分布模型 NegativeBinomialRegressionModel 由于泊松模型假定被解释变量的均值等于方差 人们提出了许多替代该模型的方法 其中应用得较多的是负二项分布模型 Cameron和Trivedi在1986年提出负二项分布的一种形式 引入无法观察的随机影响来使泊松模型一般化 被解释变量的条件分布 被解释变量的分布 该分布是负二项分布的一种形式 其条件均值为 i 条件方差为 i 1 1 i 由概率密度可以求得最大似然函数 再通过迭代法求出参数估计 对于负二项分布假设可以用Wald或者LR统计量进行检验 例题的负二项分布回归模型 用回归方程表示如下 UNPASS EXP 21 46440508 0 03152123676 SCORE 0 1039909045 STIME 0 1233402396 DSA 0 2315551204 DBODY 从估计结果发现 检验拟合优度的统计量的值为0 465 表明模型具有比较好的拟合优度 检验总体显著性的LR统计量的值为43 39 表明模型具有很高的总体显著性 通过变量显著性的Z检验发现 理文科虚变量 Dsa 和健康状况虚变量 Dbody 对不及格门数的影响并不显著 五 零变换泊松模型 被解释变量为零值的产生过程与它取正值的过程差异很大 例如 1年内到医院就诊的次数假设1 身体健康的人就诊次数为0 身体不健康的人就诊次数大于0 假设2 身体健康的人就诊次数为0 身体不健康的人就诊次数一般大于0 但也可能为0 零变换泊松模型 HurdleandZero AlteredPossionModels Mullahey 1986 最先提出了一个Hurdle模型 用白努利分布来描述被解释变量分别为零值和正值的概率 改变了被解释变量取零值的概率 但是所有取值的概率之和保持为1 假设1 Mullahey 1986 Lambert 1992 等人还分析了在hurdle模型的一种扩展情况 即假定被解释变量的零值产生于两个区域 regime 中的一个 在一个区域里 被解释变量总是零 而另一个区域里 被解释变量的取值符合泊松过程 既可能产生零 也可能产生其他数值 即假设2模型形式如下 如果用z表示白努利分布的两种情况 事件发生在区域1时令z 0 发生在区域2时令z 1 并用y 表示区域2内被解释变量服从的泊松过程 则所有观察值都可以表示为z y 于是这个分离模型可表示为 式中F为设定的分布函数 Lambert 1992 和Greene 1994 考虑了许多方法 其中包括应用logit和probit模型描述两个区域各自的发生概率 这些修正的方法都改变了泊松过程 即均值和方差不再相等 关于分离模型的进一步探讨比较复杂 请同学们自行参考Greene的教科书和相关文献
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!