stata第六讲山大陈波

上传人:sx****84 文档编号:243022720 上传时间:2024-09-14 格式:PPT 页数:43 大小:115.50KB
返回 下载 相关 举报
stata第六讲山大陈波_第1页
第1页 / 共43页
stata第六讲山大陈波_第2页
第2页 / 共43页
stata第六讲山大陈波_第3页
第3页 / 共43页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,Stata上机实验,1,离散选择模型,1。二项选择模型,主要包括:,Probit模型(标准正态分布),Logit模型(逻辑分布),2,Logit 模型,Logit模型假定模型的误差项服从Logistic分布,利用极大似然估计方法拟合,,Yhat=0 负的产出,Yhat0(通常yhat=1) 正的产出,3,例如:,sysuse auto,clear,logit foreign weight mpg,相当于计算如下概率:,Pr(foreign = 1) = F(B0 + B1weight + B2mpg),4,1。获得个体取值为1的概率。,predict p1,pr,list p1 foreign,对比一下结果,判断有正有误,2。对预测准确率的判断,estat class,结果解读,5,敏感性(Sensitivity)指,即真实值取1而预测准确的概率;,特异性(Specificity)是指,即真实值取0而预测准确的概率。,默认的门限值为0.5。,6,3。受试者操控曲线(Receiver operating characteristic,简称为ROC曲线)是指敏感性与(1-特异性)的散点图,即预测值等于1的准确率与错误率的散点图。,lroc,4。goodness-of-fit 拟合优度检验,estat gof,5。变量的边际影响,回归结果中,估计量,并非“边际效应”(marginal effects),因此要用命令:,mfx,7,Probit模型,Probit模型假定误差项的分布形式为标准正态分布:,回归方法和检验方法与Logit模型类似。,probit foreign weight mpg,8,注意:由于Probit 与Logit 所使用的分布函数不同,其参数估计值并不直接可比。雨宫(Amemiya)提出:同一个模型的logit和probit模型大概具有如下关系:,B,logit,约等于 1.6*B,Probit,但利用mfx计算的两者的边际效应应该大致相同。,9,一个综合例子,使用美国妇女就业数据集“womenwork.dta”,估计决定就业的Probit与Logit模型。被解释变量为work=1,就业;work=0,不就业。解释变量为age(年龄), married(婚否), children(子女数), education(教育年限)。,10,use womenwork,clear,logit work age married children education,mfx,estat class,predict p1,pr,list work p1,lroc,estat gof,注意:married是离散变量,因此执行mfx后的结果的含义不同。,11,probit work age married children education,mfx,estat class,predict p2,pr,list work p2,lroc,estat gof,tab work,tab work if p20.5,12,2。多项选择模型,多项Logit模型:由于可选项目有多项,因此输出结果时stata将自动指定一个为基础类别(Base Output),显示各个变量对另外几个类别的影响系数 。,13,use brand,clear,tab brand,mlogit brand age female,结果分析,可以利用predict提取个体选择概率,predict p1 p2 p3,list,可以根据研究需要,自由地指定用来比较的base outcome(参照点)。mlogit brand age female,base(3),14,排序选择模型,根据GSS的调查数据,不同的家庭母亲与子女之间的关系也不同。根据调查显示,有的家庭母子(女)关系比较紧张,有的比较融洽。变量包括:warm=关系融洽度(0、1、2、3);educ=子女接受教育的程度;age=子女年龄;male=儿子;prst=职业威望;white=白人;y89=89年调查结果。分析不同因素对母子(女)关系的融洽程度有何影响。,15,use ordwarm,clear,tab warm,建立如下方程:,16,ologit warm ed age male prst white yr89,oprobit warm ed age male prst white yr89,结果解读,predict p1 p2 p3 p4,list p1 p2 p3 p4,17,18,计数模型,1。泊松回归,2。负二项回归,19,泊松回归模型,有些被解释变量只能取非负整数,即0,1, 2, .,对于这一类“计数数据” ,常使用“泊松回归”(Poisson regression)。,yi,=1, 2,。,我们知道,泊松分布的最大特点是条件期望和方差相等。即,20,利用数据集poissonreg.dta估计决定初中生旷课天数(daysabs)的计数模型。解释变量为langarts(语言艺术课成绩)与male(是否男性)。,use poissonreg,clear,poisson daysabs langarts male,predict p1,n,list,mfx,estat gof,21,泊松MLE分析常常受到很多限制,如泊松分布的所有概率以及更高阶矩完全由其均值决定,特别是方差等于均值这一点有明显的局限性。事实表明,大多数应用都难以满足这一条件。如果被解释变量的方差明显大于期望,即存在“过度分散”(overdispersion),因此,如果出现“过度分散”,可以考虑使用“负二项回归”。,22,负二项回归模型,所谓负二项分布是指,在独立的实验中,成功n次的时候,失败次数x的概率分布。当成功n次时,实验停止,此时失败次数为x,那么总的实验次数为(n+x),而且最后一次(即第(n+x)次)是成功的。那么,前(n+x-1)次试验中成功次数为(n-1)、失败次数为x。负二项分布适用于当试验成功的次数(n)确定下来后,试验失败的次数(x)的分布。,23,nbreg daysabs langarts male,命令结果中将提供一个LR 检验,,原假设:不存在过度分散,应该使用泊松回归。此时alpha=0。,备则假设: alpha0,不能使用泊松回归。,24,受限因变量模型,1。断尾回归,2。截取回归,25,断尾回归,对于线性模型,yi,=,xB,+,i,,假设由于某种原因,只有满足,yi,c,(,c,为常数)的数据才能观测到。因此,当,yi,=10000,27,截取回归,对于线性模型,yi,=,xB,+,i,,如果满足,yi,c,或者( yi c)( c为常数),使得yi=c。,截取回归与断尾回归不同的是,我们虽然有全部的观测数据,但对于某些观测数据,被,解释变量,yi,被压缩在一个点上了。此时,,yi,的概率分布就变成由一个离散点与一个连续分布所组成的“混合分布”。,28,tobit y x1 x2 x3,ll(#) (变量#的被右截断),tobit y x1 x2 x3,ll(#) ul(#)(l同时定义下限和上限),29,利用womenwork.dta的数据进行普通OLS回归和截取回归。被解释变量为lwf(log of wage if working and 0 if not working)。解释变量为age(年龄), married(婚否), children(子女数), education(教育年限)。,use womenwork,clear,reg lwf age married children education,tobit lwf age married children education,ll(0),30,随机数的产生和常用分布,例1:产生10000个服从0,1均匀分布的随机数和10000个服从正态分布的随机数。,clear,set obs 10000,gen x = uniform(),histogram x,gen y = invnormal(uniform(),histogram y, normal,31,伪随机数,例二:,clear,set obs 10000,gen x1 = uniform(),gen x2 = uniform(),list x1 x2 in 1/50,但是如果加上一句话:,set seed 123,,情况会发生变化。,32,set seed 12345,gen x3 = uniform(),set seed 12345,gen x4 = uniform(),list x3 x4 in 1/50,33,原因:计算机产生的随机数是伪随机数,它是通过一个或者多个复杂的公式计算出来的,是有迹可寻的。,例如:公式可以为:,X_j = (a*X_(j-1) + c) mod m (j = 1,2, .),其中:,m,是一个很大的数;,a*X_(j-1),为种子。,蒙特卡罗模拟和自抽样一般都要提供种子,已被检验和分析。,34,常用分布随机数的产生,findit rnd,1。自由度为k的chi2 分布 Chi2(k),clear,rndchi 10000 5,histogram xc, normal,特点:向右拖尾。,2,。自由度为,k,的,t,分布 t(k),clear,rndt 10000 5,histogram xt, normal,特点:尖峰厚尾,35,3。自由度为k1,k2的F分布,clear,rndf 1000 3 20,histogram xf,4。参数为,的指数,分布:,clear,rndexp 10000 3,histogram xe,更多的统计分布量察看 help rnd,36,自抽样(Bootstrap),实质:可重复抽样,通过一个简单例子说明基本原理:1-9九个数求均值。,clear,input x 输入1-9九个数,保存为sample.dta,use sample,clear,bsample 9,list,反复执行:可以发现每次不同的重复抽样。,37,利用Bootstrap命令实现模拟:,use sample,clear,bootstrap x_m = r(mean), reps(500) saving(sample1,replace): sum x,或者简写为:,bs x_m = r(mean), reps(500) saving(sample1,replace): sum x,use sample1,clear,sum x_m,38,使用BS得到标准误,sysuse auto,clear,普通回归: reg price weight length foreign,利用BS方法:reg price weight length foreign,vce(bs,reps(500),或者使用下列方法:,bootstrap, reps(500):reg price weight length foreign,39,蒙特卡罗模拟,基本思想:,向这个正方形随机地射箭,并假设其落点在该正方形上服从二维均匀分布。重复实验,n,次(,n,很大),其中有,m,次落在1/4圆内。根据大数定律,,m/n,/,4 ,故, 4,m/n,。,40,模拟中心极限定理,根据中心极限定理(CLT),当样本容量,n, 时,样本均值收敛于正态分布。假设,x,服从在(0,1) 上的均匀分布,样本容量为30,我们用蒙特卡罗法得到样本均值的分布,并将其与正态分布相比较。为此,抽取10,000 个样本容量为30 的随机样本,得到30个样本均值的10,000 个观测值,然后画其直方图。,41,建立程序:lnsim.ado,cap program drop lnsim,program define lnsim, rclass,version 10,drop _all,set obs 30,tempvar z,gen z = uniform(),summarize z,return scalar mean = r(mean),end,42,simulate mean=r(mean) ,reps(10000): lnsim,hist mean,normal,edit,显示的每一个数是30个0,1之间随机数的均值,一共10000个,其分布为正态分布。,43,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!