stata中变量描述分析和作.ppt

资源描述

第三讲描述性分析与画图进行描述性统计分析的目的对数据进行描述性分析的目的是熟悉和了解数据的基本统计特征把握数据的总体分布形态进而决定如何对数据作进一步处理进而回答所要研究的问题本章主要内容 6 1 频数分布6 2 条件频数分布6 3 频数分布的常见错误分析及解决方法6 4 变量的中央趋势和离散趋势6 5 描述数值型数据统计量的其它方法6 6 画图数据描述的方法获得数据的目的是为了描述和分析数据回答研究问题数据分析的第一步是描述变量的基本特征只有在熟悉数据的基本特征和变量分布的基础上才能决定如何对数据作进一步处理描述性统计通过一系列的程序帮助组织归纳总结样本的基本特征常见的方法包括频数分布百分比分位数均值和标准差中数众数最大值和最小值等单变量分析 univariateanalysis 考察变量的属性分布二元或多元交叉表二元相关关系分析图形描述性分析的菜单窗口该内容是statistics菜单下的首个选项 Statistics Summaries tables tests 6 1 频数分布频数比例 proportion 百分比 percentage 和比率 ratio 等描述性统计方法适用于所有类型数据包括定性定序定距和定比数据频数与频数分布频数也称次数即分布在各个类别中的数据个数频数分布就是对样本中变量的不同属性出现次数的描述假如一个班60 的同学是女生 40 的同学是男生则60 和40 是女生和男生的分布情况2000年人口普查显示中国7 的人群年龄在65岁及以上则7 是当时老年人口在总人口中所占的比例菜单窗口在Stata的窗口菜单下有多种描述数据频数分布特征的选项每一选项都具有一定独特的功能但有些功能是相通的单变量频数分布 tab 变量名 tab也可写为tabulation 是获得频数分布的基本命令需要输出频数分布的变量名称该命令不对频数分布作任何定义只提供单个变量的频数分布 tabgirl该命令告诉Stata 给变量girl生成一张频数分布表 girlin 2004 0 boy 1 girl Freq PercentCum 0 1 24853 7053 701 1 07646 30100 00 Total 2 324100 00输出结果显示该数据一共有2324个观察值变量girl有两个取值 0代表男孩 1代表女孩样本中有1248个男孩占53 7 女孩为1075 占46 3 多变量频数分布 tab1 变量a变量b变量c 同时获得多个变量频数分布的基本命令需要输出频数分布的变量名称与tab或tabulate不同的是 tab1可接多个变量 tabgirlurban该命令告诉Stata 给变量girl和urban各自生成一张频数分布表 6 2 条件频数分布条件频数分布也称交叉频数表为或列联表同时生成两个变量之间关系的频数分布属于相关分析中的一种基本命令 tab提供且只能提供双变量的交叉分析生成二者之间的交叉频数分布相当于命令tabulate若其令后面仅有一个变量则Stata输出该变量的频数分布若多于两个变量则会出现错误提示Stata的默认方法是 tab后面的第一个变量被当成行变量第二个变量被当成列变量 tab2也提供双变量的交叉分析表 tab和tab2的主要区别在于前者仅可以用于两个变量的交互分析 tab后面最多只能有两个变量 tab2可同时生成多个两两变量之间的交互频数分布表例1 tabgirlenroll chi2columnrowmissnokey 提供两个变量关系的卡方提供列变量的百分比提供行变量的百分比提供缺失变量的比例压缩单元格内容的提示 6 3 频数分布的常见错误之一 toomanyvariablesspecified导致I类错误的原因在于混淆了tab tab1 tab2的用法 tab可用于生成单个变量的频数分布其后只能接一个变量 tab也可用来描述两个变量的交叉分布其后面只能接两个变量tab1后面可以接多个变量但只能分别生成单个变量的频数分布而不能生成交叉表tab2则可以生成多个双变量的交叉表因此若使用下列命令则会遇到这类错误 taburbanyrschenrolltoomanyvariablesspecifiedr 103 6 3 频数分布的常见错误之二 toomanyvalues导致这类错误的原因在于在试图生成两个变量的交叉表时每个变量都包含太多的取值比如 tabageweight toomanyvalues 变量的取值太多这里变量age和weight均为连续变量且都有很多的取值尤其是weight若需要生成二者之间的交叉表可以限制其中一个或两个变量的取值或者将它们转换为分类变量 6 4 变量的中央趋势和离散趋势集中趋势众数数据分布的一种表现形式频数最多的组段代表了中心位置平均水平从两侧到中心频数分布逐渐增加描述集中趋势的方式包括众数均值中位数众数 mode 最常出现的观察值或属性如果在全班30个学生中 20个18岁的学生 5个19岁 5个20岁则18是众数众数适用于所有类型数据但主要用于测度分类数据的集中趋势一个数据可以有两个或多个众数故众数具有不唯一性的特点集中趋势算术均值 mean average 加总多个观察值除以总观察量得到的数值适用于正态分布或者近似正态分布均数受特大值和特小值的影响会偏大或偏小故对偏态分布的资料均数的代表性差不适合描述偏态分布的集中趋势全域总体均数称为样本均数称为集中趋势中位数 median 将一组数值从小到大排列后位于中间的数值若5个人的年龄分别为1 3 6 8 32 则中位数为6 均值为10 中位数度量方式适用于偏态分布数据中位数不受两端特大值和特小值的影响只和位置居中的观察值有关对于正态分布理论上中位数等于均数离散趋势极差或者全距 range R 数据分布的另一种表现形式从中心到两侧频数分布逐渐减少反映了数据的离散程度或变异程度描述离散趋势的方法包括级差方差标准差极差或者全距 range R 表示变量取值中的最大值和最小值之差适合所有分布类型的数据 R 最大值最小值计算简单但不能反映所有变量值的变异程度易受最大值和最小值的影响不稳定离散趋势方差 variance 方差 variance 表示一组变量取值的平均离散程度方差越大离散或者变异程度越大适合描述近似正态分布资料的离散趋势离散趋势标准差 standarddeviation 方差的开方和均数的单位一致也是数据波动性的一种度量即是对围绕均值的离散趋势的测量标准差和方差是实际中应用最广的测量离散程度的统计量如果一个变量具有正态分布则均值68 的数值将会位于离平均值加减一个标准差的范围内 95 的个案将会位于加减两个标准差的范围内 99 9 的个案将会位于加减三个标准差的范围内标准差越小数据的分布就越围绕均值聚集标准差越大散数据的分布就越分散离散趋势标准差 II 适合描述近似正态分布资料的离散趋势方差或标准差都是根据全部数据计算的反映了每个数据与其均值相比平均相差的数值因此能准确地反映数据的离散程度计算公式离散趋势自由度为什么样本标准差的分母是n 1呢自由度一组数据中可以自由取值的个数当样本的个数为n时若样本均值确定后必有一个数据不能自由取值因此只有n 1个数据可以自由取值假如样本有3个数值 x 4 y 8 z 18 则均值 10 当均值 10确定后 x y z中只有两个数可以自由取值在抽样估计中当用样本方差去估计总体方差时样本方差是总体方差的无偏估计量正态分布与偏态分布正态分布 normaldistribution 一个变量的集中位置居中左右两侧频数基本对称的分布从形态上看正态曲线两头低中间高左右对称正态分布是一条单峰对称呈钟形的曲线其对称轴为x 并在x 时取最大值从x 点开始曲线向正负两个方向递减延伸不断逼近x轴但永不与x轴相交因此说曲线在正负两个方向都是以x轴为渐近线的其性质如下函数方程中为位置参数为形状参数若不变函数曲线形状不变变大时曲线位置向右移变小时曲线位置向左移若不变函数曲线位置不变变大时曲线形状变得越来越胖矮变小时曲线形状变得越来越瘦高正态分布 histogramyrschifyrsch 13 percentstart 0 width 1 normal 偏态分布数据的集中位置偏向一侧频数分布不对称偏态分布有两种表现形式正偏态分布集中位置偏向数值小的一侧或者左侧有较长的右尾部负偏态分布集中位置偏向数值大的一侧或者右侧有较长的左尾部 histogramweight percentstart 0 normalysize 4 5 xsize 2 5 histogramheight percentstart 0 normalysize 4 5 xsize 2 5 6 5描述性统计 sum 连续变量该命令给出标准统计量输出结果包括 ObsMeanStd Dev MinMax 观察量均值标准差最小值最大值 sum 连续变量 detailsumm或summarize得出同样的结果标准信息描述 sumageyrschweightheightVariable ObsMeanStd Dev MinMax age 234110 092275 283423019yrsch 18306 0316943 440358015weight 210334 8563518 54676 4151height 2100132 819330 602770185 5由于缺失值个数的差异几个变量的观察值都不一样详细情况描述 sumage detailagein2004 PercentilesSmallest1 005 1010 20Obs232125 50SumofWgt 232150 10Mean9 658337LargestStd Dev 5 08463175 141890 1618Variance25 8534795 1719Skewness 31632799 1719Kurtosis1 917769 变量age有2321个观察值最小值为0 最大值为191 的样本为0岁5 的样本1岁或以下10 的样本2岁或以下25 的样本5岁或以下 99 的样本在19岁及以下样本的均值为9 66 标准差为5 08 Variance Skewness和Kurtosis分别表示样本的方差为25 85 偏移度为 0 32和年龄分布的峰度为1 92 6 5 描述数值型数据统计量的其它方法均值估计 mean meangirlurbanMeanestimationNumberofobs 5381 MeanStd Err 95 Conf Interval girl 4781639 0068103 464813 4915148urban 1908567 0053577 1803535 2013599 比例估计 proportion proportiongirlurbanProportionestimationNumberofobs 5381 prop 1 girl 0 boy prop 2 girl 1 girl prop 3 urban 0 Rural prop 4 urban 1 Urban BinomialWald ProportionStd Err 95 Conf Interval girl prop 1 5218361 0068103 5084852 535187 prop 2 4781639 0068103 464813 4915148 urban prop 3 8091433 0053577 7986401 8196465 prop 4 1908567 0053577 1803535 2013599 使用table命令描述数据 table 变量a contents mean变量bsd变量b 计算和表现统计量的命令分组变量按照其分类描述中央趋势或离散趋势的统计量需要输出统计量的内容后面括号内列出 1 要描述的统计量 2 需要计算统计量的变量名称分别指均值和标准差需要计算均值和标准差的变量 tableab contents meancsdd 按变量a和b的分类计算变量c的均值 d的标准差 tableurban contents meanyrschsdsibs urban residence mean yrsch sd sibs 0 Rural 5 622172 62964511 Urban 7 109127 5369387 按urban的分类计算变量yrsch的均值和sibs的标准差使用tabstat命令描述数据 tabstatabcd 展示一个或多个数值型变量的描述性统计为变量a b c d提供均值统计量输出的统计量是可选择的若不选择则默认值为均值其主要选项包括 tabstatabcd by e statistics meansd columns statistics 按照选项by后面变量的类别分组计算统计量 by后面的变量多是分类变量也可以是取值不多的连续变量需要得到的统计量可多选不同统计量之间需用空格隔开输出结果的格式可以选择选择columns statistics 则竖列表述的是统计量横行表现的是变量若选择columns variables 格式则反之使用tabulate sum命令描述数据 tabab sum c 接变量a b的分类变量计算变量c的统计量并输出a b的频数分布 sum后面接一个需要输出统计量的数值型变量分类变量连续变量 tabstrata sum yrsch Summaryofyearofschoolstrata MeanStd Dev Freq 1 city 5 41916173 69704186682 suburb 6 69467213 38783494883 town 5 75415283 18214153014 village 6 48525472 9960408373 Total 6 0316943 44035821830 6 6画图数据往往使人眼花缭乱没有人能记住数据中的所有数值频数分布提供数据分布的一些基本特征和规律若用图形表示频数分布则更形象和直观统计图形是用点的位置线段的升降线条的长短或面积的大小等方法来表达数据的内容包括统计资料反应的变化趋势数量的多少分布状态和相互关系等通过图形描述出来的数据便于阅读比较和分析一张好的统计图表胜过冗长的文字表述 Stata的制图功能既可通过命令产生图形也可以直接使用Graphics窗口菜单中的选项来实现在Easygraph的菜单下 Stata的作图模块主要提供十种基本图形的制作散点图 twoway 线图 line 面积图 area 柱形图 bar 点图 dot 圆形图饼图 pie 直方图 histogram 箱线图盒型图 boxplot 矩阵图回归线图和功能图对简单图形 Easygraph 的巧妙应用可以满足绝大多数用户的统计作图要求但有时我们必须求助于复杂的制图功能在Graphics的主菜单下可选择制作更复杂的图形 Stata制图的窗口菜单 Stata的其它制图功能 Stata的某些非绘图命令也具有绘制图形的功能比如在频数分布命令中有制作简单茎叶图的选项事件史分析提供生存曲线图回归分析提供回归线或残差图等Stata制图功能比较复杂生成图形的过程中往往会遇到错误有时命令中一个不恰当的空格一个不正确的标点符号都将使程序不能正常运行因此从窗口菜单入手可能更容易一些但是 Stata的图形种类及每种图形的选项虽多但许多基本命令十分类似可举一反三图形的种类及适用范围数据结构和变量属性的不同要求采用不同的图形散点图 ScatterPlot scatter描绘散点图双向关系图型 twowayplottypes 之母适合于y轴和x轴均为数值型的数据用于反映两个或多个变量之间的关系 y轴往往被假定为因变量 x轴被当作为自变量其图形反映y轴的数值是否随x轴数值的变化而发生相应变化 scatter既是命令也是双向关系图型 twowaygraph 中的一种散点图的基本命令 graphtwoway scatteryx lfityx 这里graphtwoway是命令scatter表示图形类型y代表y变量表现为纵轴x代表x变量表现为横轴由于没有指定其它的限定条件散点将表现为实心圆圈 twowayscatteryx同上 twoway是命令 scatter表示图形类型 scatteryx这里的scatter既表示图形类型也表示命令散点图的选项总体外观 scatterheightage title HeightofChildren subtitle StataExample note 1 caption Source Chapter7 scheme economist 生成height和age散点图的基本命令给图形附上标题标题在括号内给图形添加副标题副标题在括号内给图形编号给图形提供注释 note和caption的意思基本是一样的定义图形的外观括号内的economist告Stata输出一个经济型的图形逗号后面所有的内容都属于选项在所有图形中都是通用的散点图的选项绘图区域的大小绘图区格式的比例通过region optionsysize 和xsize 选项控制该选项指明绘图区的高度和宽度单位英寸比如 scatteryx xsize 4 ysize 4 横轴宽度的选项横轴的宽度这里将其定义为4英寸纵轴高度的选项纵轴的高度这里将其定义为4英寸该命令将生成一个4英寸x4英寸的图形

展开阅读全文

stata中变量描述分析和作.ppt

最新文档