Stata统计分析命令

资源描述

Stata统计分析常用命令汇总一、winsorize极端值处理范围：一般在1%和99%分位做极端值处理，对于小于1%的数用1%的值赋值，对于大于99%的数用99%的值赋值。1、Stata中的单变量极端值处理：stata11.0,在命令窗口输入5nditwinsor后，系统弹出一个窗口，安装winsor模块安装好模块之后，就可以调用winsor命令，命令格式：winsorvar1,gen(newvar)p(0.01)或者在命令窗口中输入：sscinstallwinsor安装winsor命令。winsor命令不能进行批量处理。2、批量进行winsorize极端值处理：打开链接：http:personal.anderson.ucla.edu/judson.caskey/data.html,找至UwinsorizeJ,点击右键，另存为到stata中的ado/plus/目录下即可。命令格式：winsorizeJvar1var2var3,suffix(w)即可，这样会生成三个新变量，var1wvar2wvar3w,而且默认的是上下1%winsorize。如果要修改分位点，则写成如下格式：winsorizeJvar1var2var3,suffix(w)cuts(595)。3、Excel中的极端值处理：(略)winsor2命令使用说明简介：winsor2winsorizeortrim(iftrimoptionisspecified)thevariablesinvarlistatparticularpercentilesspecifiedbyoptioncuts(#).Indefult,newvariableswillbegeneratedwithasuffix_wor_tr,whichcanbechangedbyspecifyingsuffix()option.Thereplaceoptionreplacesthevariableswiththeirwinsorizedortrimmedones.相比于winsor命令的改进：(1)可以批量处理多个变量；(2)不仅可以winsor,也可以trimming;(3)附力了by()选项，可以分组winsor或trimming;(4)增加了replace选项，可以不必生成新变量，直接替换原变量。范例：* -winsorat(p1p99),getnewvariablewage_wsysusenlsw88,clearwinsor2wage* -left-trimmingat2thpercentilewinsor2wage,cuts(2100)trim* -winsorvariablesby(industrysouth),overwritetheoldvariableswinsor2wagehours,replaceby(industrysouth)使用方法：1 .请将winsor2.ado和winsor2.sthlp放置于stata12adobasew文件夹下;2 .输入helpwinsor2可以查看帮助文件；、描述性统计1、summarize命令格式：su、sum或者summarizevarlistifinweight,options如果summarize或sum后不加任何变量，则默认对数据中的所有变量进行描述统计options选项：detail表示产生更加详细的统计变量Separator(n)表示每n个变量画一条分界线，n=0表示禁止使用分界线Summarize描述统计输出表中包含：样本容量、平均数、标准差、最小值和最大值2、tabstat命令格式：tabstatvarlistifinweight,optionsoptions选项：stat(statname)表示设定所需要的统计量col(stat)或3s)表示将结果报表转置统计量：mean:平均数count/n:观测值数目sum：加总max/min:最大值/最小值range:极差sd:标准差cv：变异系数semean:平均标准误差skewness：偏度var:方差kurtosis:峰度median/p50:中位数p#:#%百分位数例如：tabstatvarlist,stat(countmeansdmedianminmaxrange)col(stat)3、描述性统计结果输出到word或Excel用sum做的描述性统计：logout,save(miaoshutongji)wordreplace:sum用tabstat做的描述性统计：logout,save(miaoshutongji)wordreplace:tabstatvarlist,stat(countmeansdmedianminmaxrange)col(stat)分组描述：bysortvar:三、相关性分析(一)相关性分析1、Pearson相关系数命令格式：correlate(简写：cor或corr)varlistifinweight,options2、spearman相关系数命令格式：spearmanvarlist,stats(rhop)3、在Stata中，命令corr用于计算一组变量间的协方差或相关系数矩阵；4、命令pwcorr可用于计算一组变量中两两变量的相关系数，同时还可以对相关系数的显著性进行检验；option选项中加上sig可显示显著性水平：pwcorrvarlist,sig5、命令pcorr用于计算一组变量中两两变量的偏相关系数并进行显著性检验。6、Spearman和Pearson检验同在一个表的命令：corrtblvarlist,corrvars(varlist)输出结果中，上三角为Spearman相关系数和显著水平，下三角为Pearson系数和显著水平。(二)输出相关系数表到word或Excel中例如：logout,save(mytable)wordreplace:pwcorr_apricempgrep78headroomtrunk,star1(0.01)star5(0.05)star10(0.1)四、截面数据单方程线性回归模型的Stata实现命令格式：regress（简写：reg）depvarindepvarsifinweighoption（depvar表示因变量，indepvars表示自变量）五、异方差的检验与处理1、检验异方差命令格式：hettest2、判断异方差的标准：.hertestBreusch-Pagan/cook-weisbergTestforheteroskeda.sticityHd:Constantvariancevariables:fittedvaluesofLpfmschi2(1)=0,55Probchi2=0.4584看P值的大小来判断，如果P值小于0.05,则不能排除异方差的可能，上图中P值等于0.45840.05,因此，可以排除异方差的可能性。3、处理异方差命令格式：在reg命令后加上“，r”或者“，robust”即可。经异方差处理后的回归不显示调整后的R2(adj-R2),如果要查看调整后的R2,再输入命令：die(r2_a)六、多重共线性(自变量之间高度相关)命令格式：vif(一)判断多重共线性的标准(两个标准必须同时满足)：1、最大的vif大于10;2、平均的vif大于1。(二)多重共线性的修正1、采用逐步回归进行修正，命令格式：swregdepvarindepvar,pr(0.05)2、对于含二次项的，使用“对中”的方法，既可以保留二次项，又可以在一定程度上克服多重共线性的问题：先定义两个变量，分别为该变量减去其均值和该变量的平方，命令如下:sumvargenvar1=var-r(mean)genvar2=varA2再用新变量代替原来的变量进行回归处理七、内生性的检验与处理(内生性是指自变量与误差项之间有关系)1、内生性的检验：ovtest.ovtestRamseyRESETtestusingpowersofrhefirtedvaluesofLpfmsho:modelhasnoomittedvariablesFQ1379)=0.84ProbF=0.4717看P值的大小来判断，如果P值小于0.05,则不能排除内生性的可能，上图中P值等于0.47170.05,因此，可以排除内生性的可能。2、内生性的处理：使用工具变量法：ivreg内生性的三个来源：测量误差、遗漏变量和双向因果。1、变量的内生性。这个是没有办法单独检验的。当有合适工具变量时候，是可以检验的，就是hausman检验2、工具变量的外生性。这个也是没办法检验的。当有很多工具变量时候，可以检验是否有不是外生的，就是“过度识别”问题3、工具变量的相关性。这个可以说成是“弱工具变量”问题，检验可以通过一阶段的F值。还可以利用PartialR2。4、估计方法stata里面有这么几个2sls,2slssmal、liml、gmm,各自适用情况：small适合小木本；liml适合弱工具变量；gmm适合异方差。【例子】webusehsng2*Fitaregressionvia2SLS,requestingsmall-samplestatisticsivregress2slsrentpcturban(hsngval=faminciregion),small*FitaregressionusingtheLIMLestimatorivregresslimlrentpcturban(hsngval=faminciregion)*FitaregressionviaGMMusingthedefaultheteroskedasticity-robustweightmatrixivregressgmmrentpcturban(hsngval=faminciregion)*FitaregressionviaGMMusingaheteroskedasticity-robustweightmatrix,requestingnonrobuststandarderrorsivregressgmmrentpcturban(hsngval=faminciregion),vce(unadjusted)*检验可以查看第一阶段F值，已经partialR2查看是否过度识别查看是否异方差regress2slsrentpcturbanhsngvaleststorem1ivregress2slsrentpcturban(hsngval=faminciregion)eststorem2内生检验八、线性方程组的回归分析命令格式：sureg(depvar1varlist1)(depvar2varlist2)(depvarNvarlistN)ifinweigh九、联立方程组命令格式：reg3(depvar1varlist1)(depvar2varlist2)(depvarNvarlistN)ifinweigh十、面板数据的固定效应和随机效应Xtset固定效应命令格式：xtregdepvarindepvarsifin,feFE_options随机效应命令格式：xtregdepvarindepvarsifin,reFE_optionshausman检验固定效应还是随机效应？【例子】xtregyvarlvar2var3,feeststorefextregyvarlvar2var3,reeststorerehausmanfere,sigmamorehausmanfere,sigmaless*sigmamore利用有效估计量方差，即re*sigmaless利用一致估计量方差，即feStata回归结果的导由1、在命令窗口中输入：sscinstallesttab,安装命令esttab2、reg回归3、esttabusingfilename.rtf将以word形式输出回归结果，后缀改成.xls或者.csv则以Excel格式输出，输出内容为变量名称和相应的回归系数，t值，显著性水平标识。系统默认显著性水平是0.001,0.01和0.05,若要改成0.01,0.05和0.1，则输出esttabmlm2usingaaa.rtf,star(*0.10*0.05*0.01)。4、批量输出回归结果：每运行一个regression,存起来：eststorem1。m1是你要改的，第一个model所以我叫m1,第二个的话指令就变成eststorem2,依次类推，最后运行指令：esttabm1m2.usingtest.rtf。esttabm11111usingaaaaa.rtf,star(*0.10*0.05*0.01)b(%6.4f)5、outreg2可以将回归结果导入word、excle、latex等，而且可以根据自己需要改变格式：sscinstalloutreg2useauto,clearvarlisteststorem1outreg2m1usingtest.doc,replace十二、合并样本(将关键词相同的多个样本合并为一个)命令格式：duplicatesdropvarlist,force例如将同一企业在同一天发生的多起并购合为一起，可根据证券代码和公告日期关键词，将其合并，命令：duplicatesdropcompany_idevent_date,force十三、均值t检验命令格式：ttestCAR1=CAR2,unpaired十四、中位数Z检验(非参数Wilcoxon秩和检验)命令格式：ranksumvar,by(groupvar)groupvar为分组变量十五、检验两组均值的显著性差异，在t检验的后面数值上面加星号可以用ttest命令执行检验，它会直接报告星号。亦可采用外部命令meantab执行检验，自己根据t值大小标注星号。helpmeantab/这个最好用sysusenlsw88,clearmeantabcollgradwagehoursttl_exptenure,/over(union)tstatdiffnoncells另有一个李春涛老师编写的命令，可以直接标注星号：finditttable多变量，两组差异十六、删除有缺失值的样本egenmis=rowmiss(_all)dropifmis条件语句：cond例如：cond(missing(x),.,cond(x2,50,70)returns.ifxismissing,returns50ifx2,andreturns70ifx2十七、中心化处理与标准化处理1、安装命令：finditcenter2、中心化：centervarlist(注：生成的新变量默认加前置c_,可一次对多个变量进行处理)或：centervar,g(newvar)(注：只能对一个变量进行中心化，并生成给定名称的新变量)3、标准化：centervarlist,prefix(z_)standardize(注：生成的新变量加前置z_,可多个，可更改)十八、恢复数据命令preserve(处理数据前使用该命令，否则没有数据可恢复)dropvar1-var100(处理数据)restore(恢复数据)十九、genicv产生交叉项【问题】有时候，想生成很多交叉项，但是又不愿意一个一个写。有时候，想看一个交叉项，但是又不愿意生成。【方法】genicv可以一键生成很多交叉项#可以直接表示交叉项。【例子】labelsscinstallgenicvsysuseauto,cleargenicvlengthweightforeign会生成4个交叉项，所有可能情况，并且有regpricelengthweightlength_weight*如果不愿意生成，直接用和上面回归一样一样的二十、用stata统计变量的个数，但是要去掉重复的部分bysid:gn=_ncountifn=1二H一、stata中的主成分分析法1、首先，需要对变量进行哪些检验？KMO?还有什么？KMO检验结果符合什么条件才能继续进行主成分分析？答：首先使用KMO检验和SMC检验。KMO的判断为，UsingtheKaiser(1974)characterizationofKMOvalues,0.00to0.49unacceptable0.50to0.59miserable0.60to0.69mediocre0.70to0.79middling0.80to0.89meritorious0.90to1.00marvelousSMC即一个变量与其他所有变量的复相关系数的平方，也就是复回归方程的可决系数。SMC比较高表明变量的线性关系越强，共性越强，主成分分析就越合适。命令是estatkmoestatsmc确定是否需要进行主成分分析。如果有些KMO或者SMC值太小，则要考虑要不要将它们放入主成分中。然后进行主成分回归。使用命令为：pcavarlist(不清楚就helppca)2、例如，对Y的5各指标执行了命令pcay1y2y3y4y5得出结果方差贡献率(proportion)就是权重吗？答：不是。假如设定方差贡献率为95%,那么，累积方差超过95%的那几个特征值、所对应的特征变量，就是权重。3、看有的帖子上回复说，需要接着执行predicty1y2y3y4y5,score,这是为了得到每个指标的主成分得分吗？为什么我执行了一下，只生成了一个y1,别y2、y3、y4、y5都没生成呢答：直接predicty1-y4”就可以。生成的四个就是得分。4、不知道你要问什么?总之，主成分的步骤为1、先通过KMO检验和SMC检验确定是否需要主成分分析2、进行主成分分析，通过累计贡献率确定需要的哪几个主成分3、根据情况看是否需要rotate4、通过predict进行得分。或者通过scoreplot看得分分布图。二十二、将一般的数据转化为面板数据原数据的形式（excel中）是：2008一张sheet,2009一张sheet。即:DFHYitKitLit12261224623230273276416.532062354178262503431794011201807705868023159175.562695304184055371574767060190s|29357914520789191242417101277375222401127906141347979866.5124862926042S.51376127622567319,5141251951335669然后改成这样的数据形式是:ABCDEFGHIJ公司名称Ylt2008YK2009Ylt2010Kit200BKit2009KH2010Lit2008Li12009LitEOlO122611860B.251105.42522464986.5984108.49523233123027340102.0627645657.7326843.39816.511.520320623542B92514303301317S262296305.6332315.350345S场9431794014225323634362612013096017.53305598.37703B1.5739536802563322,7559918.131591819,58S39254.86175.514.513462695303549E9.736459.574184043796191U070.62553504.54347157476290664.9200974.470605902.06235080.861905715E8293579228195.9479237.51452025136.0843561.92786075.5919124773.196537*3593424778.35052010.2351710.5IB10127737113150,593694.9852229156.70110556.814020201127906141(72324(1216146713479799964001137663866.52208.5251E124962957061.8672251.7926041S45.3614833.1632E+512.531,513761276134907510718942256734651.55125246.7319.515520114125195114422.71S2454-5133562S05.15516806.55693M57915442694332010.3395230.3370B527*331381.47469403.5327.5粘贴在stata里就是这样的形式（注意：变量名字一定要改）：其中Y为因变量，可以是很多个，X1、X2为自变量，也可以是很多个，stata中的变量名依次为：id、Y2008、Y2009、Y2010、X12008、X12009、X12010、X22008、X22009、X22010-idV20MYZ009Y2Q10XIZOQBXIZOOX1ZQ10X22Q0BX2Z0O9XZOID122611860B.21105.42224649S6.64108.5232331223027340102,160248+7”545657.736S43.416.S11.520332.9e+0G3.0&06178262332315503458489443.2C1-064d066.3&t061201BDeniT.g305S99770M同1S73355皿中573181819,5175hS1346626953035499036459.6418404m7960410706553504.54347715747620097417Q6Q59030635080.a1905715SSS2935792281964723714”。2513rl435G1.9786075.59今19124773.2537.35942477fl.3512010.241710.518!10127737113L&193695522291S6+71DSS6.840202011112.SetOG1.1et071.2&+O7l,3ErHJ69964001.比HIEB66.52208.5251812124莒片2957061.甘72251.82041B45.164RMM.162S.512.S31.S131376127&le+oel,le+0G工25甘341.5125247319.5201141412519-51144231824541335628O5.1S16B06.66933.579151S4404332010-B95Z3D370SS27S43+3312B1.S469403.S327.S1616208057e7,019501.5427722352.5S2790.1720.514191717S20S42.26S7号6,MN九工外1721.652713.4123N52&在stata中输入命令：reshapelongYX1X2,i(id)j(year)回车即可,变为:id1year200SY2261XI2246X2231a00918608-2498E.fi23120101105,42410B.5mi2200830273276416.52200940102.15657.7311.52201D60248.7634M.4203200fi2.le+0617B262503320092.9C4-0629CB8G4&a320103.0C+06332315489420083.2e+06120180770420094.2e+0696。”.5331.5420106.3e+0630S5997395200fiS6802315a17545S200956332S1819.5914.S5201055951839254491346200826553041840553G200935499043796.9504.56201D3459.641D70.64347200S157476706019072009290GGSS902.0G7720102OQ974B508Q.9158二十三、关于数值型转换为字符型的问题1、股票代码导入STATA后都变成数值型，现想用tostring命令变回字符型，但长度小于6位的代码，在变回字符型后在前面补够不足6位的0。方法：formatvariable%06s这只是在显示上补充了0,没有在值上补充。以下可以改变x的值：replacex=substr(000000+x,-6,6)2、将一个12位的数值转换为字符，再从字符里提取前五个字符。转成字符后以科学计数法显示，提取前五位数是提取的科学计数法的前五位，如将110102002016转成字符后显示为1.10e+11,提取时提的是“1.10e而不是我想要的“11010”gy=substr(string(x,%12.0f),1,5)|3、将字符型转化为数值型命令为：destringvar,replace(转换后替换原来的值)若字符型中含其他符号并要生成新变量则用：destringvarlist,gen(newvarlist)ignore(%”)二十四、分组均分四组：sortvarxtileprop=var,nq(x)(括号中的x代表分成的group数)例如：sortinsto_maxtileprop=insto_ma,nq(4)/以insto_ma的四分位点分成四组sortpropinsto_msdegenstdI=xtile(insto_msd),by(prop)nq(4)按prop,以insto_msd的四分位点分成四组二十五、估计残差做完回归后，使用命令predicte,r排列组合计算C；=3,C：=6：dicomb(3,2),dicomb(4,2)取整：1 .ceil(x),returnstheuniqueintegernsuchthatn-1x=n.returnsx(not.)ifxismissing,meaningthatceil(.a)=.a2 .floor(x),returnstheuniqueintegernsuchthatn=xn+1,returnsx(not.)ifxismissing,meaningthatfloor(.a)=.a3.int(x),returnstheintegerobtainedbytruncatingxtoward0;thus,int(5.2)=5,int(-5.8)=-5,returnsx(not.)ifxismissing,meaningthatint(.O)rre.waytoobtaintheclosestintegertoxisint(x+sign(x)/2),whichsimplifiestoint(x+0.5)forx0.However,useoftheround()functionispreferred任何两种软件之间的数据转换，有一种方法是人挡杀人，佛挡杀佛。那就是：先在A软件里面将其另存为文本格式，然后在B软件里面里面以文本文件导入，再保存为B软件的文件格式。文本格式，我一般习惯将其存为.csv格式，即变量数据间以逗号分隔，也可以以制表符分隔或、空格分隔或是固定列宽。伍德里奇横截面与面板数据的经济计量分析卜面简要地分享一下安装步骤或过程（这里演示的是WIN7_32）一、下载全部的安装文件包Stata_SE_12.1.rar然后解压，再打开其中的文件夹Stata12_Win,再以管理员身份运行其中的Setup.exe。二、选择并点击next,再选择并点击“Iacceptthelicenseagreement再选择并点击“anyonewhousesthiscomputer或Onlyforme然后；就进入到以下界面，给你4个选择：32-bitMP,32-bitSE,32-bitIC,32-bitSmall。这里，注意，请选择32-bitSE（这里演示的是WIN7_32,若你的系统是64位的，则选择64-bitSE）。说明一下，STATA的最高级的版本是MP。SE的版本级别仅次于MP。MP与SE的唯一区别在于，前者designedforparallelprocessing,而后者没有。言下之意，前者可以通过同时运行多处理器或内核来加快运算速度，两者在功能上完全没有区别，只是在大数据处理时，MP要占优。因此，我们通常的教学与科研使用，SE版本已经足够。目前网上释放出来的破解的最高版本仅限于SE版，MP版未有破解。我想，如果你真的需要以MP版进行大数据处理，那一定是相当高级别的用户了，购买一个正版的MP版就一点都不过分了。三、然后再次点击“next：next然后选择点击“UseEachUsersDocumentsFolde同TUseaFixedFolderforAllusers本人建议选择后者，并在非系统分区中建议一个文件夹，比如，我通常以C分区为系统盘，因此，我通常在D分区中建立一个工作文件夹即D:data）。继续next,next,则开始复制文件与安装软件，直到出现Finish,点击它，就安装完成了。四、将crack文件夹中的文件“STATA.LIC复制到安装文件夹中（通常为:C:ProgramFilesStata12）。五、运行STATA,在command中输入“dbupdate并回车（注意，不能输入updateall命令，这是自动升级的命令，一方面自动升级通常很慢，另一方面，自动升级往往不成功），在随后出现的update（heckforofficialupdates对话框中，选择Fromalternativelocation点击“browse找到本人提供的安装文件中的文件夹“stata12update_win32（若你是64位的系统，则为stata12update_win64），点击确定、OK。六、按提示，或点击“installavailableupdate,或在command中输入“updateall。七、升级完成后，会提示，这是一个SpecialEdition,点击help中的“AboutStata则显示版本为“Stata/SE12.1forWindows（32-bit）”其最新的更新日期为2013年3月20日。享用。

展开阅读全文

Stata统计分析命令

最新文档