stata中变量描述分析和作.ppt

上传人:sh****n 文档编号:6418164 上传时间:2020-02-25 格式:PPT 页数:51 大小:595.05KB
返回 下载 相关 举报
stata中变量描述分析和作.ppt_第1页
第1页 / 共51页
stata中变量描述分析和作.ppt_第2页
第2页 / 共51页
stata中变量描述分析和作.ppt_第3页
第3页 / 共51页
点击查看更多>>
资源描述
第三讲描述性分析与画图 进行描述性统计分析的目的 对数据进行描述性分析的目的是熟悉和了解数据的基本统计特征 把握数据的总体分布形态 进而决定如何对数据作进一步处理 进而回答所要研究的问题 本章主要内容 6 1 频数分布6 2 条件频数分布6 3 频数分布的常见错误分析及解决方法6 4 变量的中央趋势和离散趋势6 5 描述数值型数据统计量的其它方法6 6 画图 数据描述的方法 获得数据的目的是为了描述和分析数据 回答研究问题数据分析的第一步是描述变量的基本特征 只有在熟悉数据的基本特征和变量分布的基础上 才能决定如何对数据作进一步处理描述性统计通过一系列的程序帮助组织 归纳 总结样本的基本特征 常见的方法包括频数分布 百分比 分位数 均值和标准差 中数 众数 最大值和最小值等单变量分析 univariateanalysis 考察变量的属性分布二元或多元交叉表 二元相关关系分析图形 描述性分析的菜单窗口 该内容是statistics菜单下的首个选项 Statistics Summaries tables tests 6 1 频数分布频数 比例 proportion 百分比 percentage 和比率 ratio 等描述性统计方法适用于所有类型数据 包括定性 定序 定距和定比数据 频数与频数分布 频数也称次数 即分布在各个类别中的数据个数频数分布就是对样本中变量的不同属性出现次数的描述假如一个班60 的同学是女生 40 的同学是男生 则60 和40 是女生和男生的分布情况2000年人口普查显示 中国7 的人群年龄在65岁及以上 则7 是当时老年人口在总人口中所占的比例 菜单窗口 在Stata的窗口菜单下 有多种描述数据频数分布特征的选项 每一选项都具有一定独特的功能 但有些功能是相通的 单变量频数分布 tab 变量名 tab也可写为tabulation 是获得频数分布的基本命令 需要输出频数分布的变量名称该命令不对频数分布作任何定义 只提供单个变量的频数分布 tabgirl该命令告诉Stata 给变量girl生成一张频数分布表 girlin 2004 0 boy 1 girl Freq PercentCum 0 1 24853 7053 701 1 07646 30100 00 Total 2 324100 00输出结果显示 该数据一共有2324个观察值变量girl有两个取值 0代表男孩 1代表女孩样本中有1248个男孩 占53 7 女孩为1075 占46 3 多变量频数分布 tab1 变量a变量b变量c 同时获得多个变量频数分布的基本命令 需要输出频数分布的变量名称与tab或tabulate不同的是 tab1可接多个变量 tabgirlurban该命令告诉Stata 给变量girl和urban各自生成一张频数分布表 6 2 条件频数分布条件频数分布也称交叉频数表为或列联表 同时生成两个变量之间关系的频数分布 属于相关分析中的一种 基本命令 tab提供 且只能提供双变量的交叉分析 生成二者之间的交叉频数分布 相当于命令tabulate若其令后面仅有一个变量 则Stata输出该变量的频数分布若多于两个变量 则会出现错误提示Stata的默认方法是 tab后面的第一个变量被当成行变量 第二个变量被当成列变量 tab2也提供双变量的交叉分析表 tab和tab2的主要区别在于 前者仅可以用于两个变量的交互分析 tab后面最多只能有两个变量 tab2可同时生成多个两两变量之间的交互频数分布表 例1 tabgirlenroll chi2columnrowmissnokey 提供两个变量关系的卡方 提供列变量的百分比 提供行变量的百分比 提供缺失变量的比例 压缩单元格内容的提示 6 3 频数分布的常见错误之一 toomanyvariablesspecified导致I类错误的原因在于 混淆了tab tab1 tab2的用法 tab可用于生成单个变量的频数分布 其后只能接一个变量 tab也可用来描述两个变量的交叉分布 其后面只能接两个变量tab1后面可以接多个变量 但只能分别生成单个变量的频数分布 而不能生成交叉表tab2则可以生成多个双变量的交叉表因此 若使用下列命令 则会遇到这类错误 taburbanyrschenrolltoomanyvariablesspecifiedr 103 6 3 频数分布的常见错误之二 toomanyvalues导致这类错误的原因在于 在试图生成两个变量的交叉表时 每个变量都包含太多的取值 比如 tabageweight toomanyvalues 变量的取值太多 这里 变量age和weight均为连续变量 且都有很多的取值 尤其是weight若需要生成二者之间的交叉表 可以限制其中一个或两个变量的取值 或者将它们转换为分类变量 6 4 变量的中央趋势和离散趋势 集中趋势 众数 数据分布的一种表现形式 频数最多的组段代表了中心位置 平均水平 从两侧到中心 频数分布逐渐增加描述集中趋势的方式包括 众数 均值 中位数众数 mode 最常出现的观察值或属性如果在全班30个学生中 20个18岁的学生 5个19岁 5个20岁 则18是众数众数适用于所有类型数据 但主要用于测度分类数据的集中趋势一个数据可以有两个或多个众数 故众数具有不唯一性的特点 集中趋势 算术均值 mean average 加总多个观察值 除以总观察量得到的数值适用于正态分布或者近似正态分布 均数受特大值和特小值的影响 会偏大或偏小 故对偏态分布的资料 均数的代表性差 不适合描述偏态分布的集中趋势 全域 总体 均数称为 样本均数称为 集中趋势 中位数 median 将一组数值从小到大排列后 位于中间的数值 若5个人的年龄分别为1 3 6 8 32 则中位数为6 均值为10 中位数度量方式适用于偏态分布数据 中位数不受两端特大值和特小值的影响 只和位置居中的观察值有关 对于正态分布 理论上中位数等于均数 离散趋势 极差或者全距 range R 数据分布的另一种表现形式 从中心到两侧 频数分布逐渐减少 反映了数据的离散程度或变异程度 描述离散趋势的方法包括 级差 方差 标准差 极差或者全距 range R 表示变量取值中的最大值和最小值之差 适合所有分布类型的数据 R 最大值 最小值计算简单 但不能反映所有变量值的变异程度 易受最大值和最小值的影响 不稳定 离散趋势 方差 variance 方差 variance 表示一组变量取值的平均离散程度 方差越大 离散或者变异程度越大 适合描述近似正态分布资料的离散趋势 离散趋势 标准差 standarddeviation 方差的开方 和均数的单位一致 也是数据波动性的一种度量 即是对围绕均值的离散趋势的测量标准差和方差是实际中应用最广的测量离散程度的统计量如果一个变量具有正态分布 则均值68 的数值将会位于离平均值加减一个标准差的范围内 95 的个案将会位于加减两个标准差的范围内 99 9 的个案将会位于加减三个标准差的范围内标准差越小 数据的分布就越围绕均值聚集 标准差越大散 数据的分布就越分散 离散趋势 标准差 II 适合描述近似正态分布资料的离散趋势方差或标准差都是根据全部数据计算的 反映了每个数据与其均值相比平均相差的数值 因此能准确地反映数据的离散程度计算公式 离散趋势 自由度 为什么样本标准差的分母是n 1呢自由度 一组数据中可以自由取值的个数 当样本的个数为n时 若样本均值确定后 必有一个数据不能自由取值 因此 只有n 1个数据可以自由取值 假如样本有3个数值 x 4 y 8 z 18 则均值 10 当均值 10确定后 x y z中只有两个数可以自由取值 在抽样估计中 当用样本方差去估计总体方差时 样本方差是总体方差的无偏估计量 正态分布与偏态分布 正态分布 normaldistribution 一个变量的集中位置居中 左右两侧频数基本对称的分布从形态上看 正态曲线两头低 中间高 左右对称正态分布是一条单峰 对称呈钟形的曲线 其对称轴为x 并在x 时取最大值 从x 点开始 曲线向正负两个方向递减延伸 不断逼近x轴 但永不与x轴相交 因此说曲线在正负两个方向都是以x轴为渐近线的其性质如下 函数方程中 为位置参数 为形状参数若 不变 函数曲线形状不变 变大时 曲线位置向右移 变小时 曲线位置向左移若 不变 函数曲线位置不变 变大时 曲线形状变得越来越胖 矮 变小时 曲线形状变得越来越瘦 高 正态分布 histogramyrschifyrsch 13 percentstart 0 width 1 normal 偏态分布 数据的集中位置偏向一侧 频数分布不对称 偏态分布有两种表现形式正偏态分布 集中位置偏向数值小的一侧或者左侧 有较长的右尾部负偏态分布 集中位置偏向数值大的一侧或者右侧 有较长的左尾部 histogramweight percentstart 0 normalysize 4 5 xsize 2 5 histogramheight percentstart 0 normalysize 4 5 xsize 2 5 6 5描述性统计 sum 连续变量 该命令给出标准统计量 输出结果包括 ObsMeanStd Dev MinMax 观察量 均值 标准差 最小值 最大值 sum 连续变量 detailsumm或summarize得出同样的结果 标准信息描述 sumageyrschweightheightVariable ObsMeanStd Dev MinMax age 234110 092275 283423019yrsch 18306 0316943 440358015weight 210334 8563518 54676 4151height 2100132 819330 602770185 5由于缺失值个数的差异 几个变量的观察值都不一样 详细情况描述 sumage detailagein2004 PercentilesSmallest1 005 1010 20Obs232125 50SumofWgt 232150 10Mean9 658337LargestStd Dev 5 08463175 141890 1618Variance25 8534795 1719Skewness 31632799 1719Kurtosis1 917769 变量age有2321个观察值最小值为0 最大值为191 的样本为0岁5 的样本1岁或以下10 的样本2岁或以下25 的样本5岁或以下 99 的样本在19岁及以下样本的均值为9 66 标准差为5 08 Variance Skewness和Kurtosis分别表示样本的方差为25 85 偏移度为 0 32和年龄分布的峰度为1 92 6 5 描述数值型数据统计量的其它方法 均值估计 mean meangirlurbanMeanestimationNumberofobs 5381 MeanStd Err 95 Conf Interval girl 4781639 0068103 464813 4915148urban 1908567 0053577 1803535 2013599 比例估计 proportion proportiongirlurbanProportionestimationNumberofobs 5381 prop 1 girl 0 boy prop 2 girl 1 girl prop 3 urban 0 Rural prop 4 urban 1 Urban BinomialWald ProportionStd Err 95 Conf Interval girl prop 1 5218361 0068103 5084852 535187 prop 2 4781639 0068103 464813 4915148 urban prop 3 8091433 0053577 7986401 8196465 prop 4 1908567 0053577 1803535 2013599 使用table命令描述数据 table 变量a contents mean变量bsd变量b 计算和表现统计量的命令 分组变量 按照其分类描述中央趋势或离散趋势的统计量 需要输出统计量的内容 后面括号内列出 1 要描述的统计量 2 需要计算统计量的变量名称 分别指均值和标准差 需要计算均值和标准差的变量 tableab contents meancsdd 按变量a和b的分类 计算变量c的均值 d的标准差 tableurban contents meanyrschsdsibs urban residence mean yrsch sd sibs 0 Rural 5 622172 62964511 Urban 7 109127 5369387 按urban的分类 计算变量yrsch的均值和sibs的标准差 使用tabstat命令描述数据 tabstatabcd 展示一个或多个数值型变量的描述性统计 为变量a b c d提供均值统计量输出的统计量是可选择的 若不选择 则默认值为均值 其主要选项包括 tabstatabcd by e statistics meansd columns statistics 按照选项by后面变量的类别 分组计算统计量 by后面的变量多是分类变量 也可以是取值不多的连续变量 需要得到的统计量 可多选 不同统计量之间需用空格隔开 输出结果的格式可以选择 选择columns statistics 则竖列表述的是统计量 横行表现的是变量 若选择columns variables 格式 则反之 使用tabulate sum命令描述数据 tabab sum c 接变量a b的分类变量 计算变量c的统计量 并输出a b的频数分布 sum后面接一个需要输出统计量的数值型变量 分类变量 连续变量 tabstrata sum yrsch Summaryofyearofschoolstrata MeanStd Dev Freq 1 city 5 41916173 69704186682 suburb 6 69467213 38783494883 town 5 75415283 18214153014 village 6 48525472 9960408373 Total 6 0316943 44035821830 6 6画图 数据往往使人眼花缭乱 没有人能记住数据中的所有数值 频数分布提供数据分布的一些基本特征和规律 若用图形表示频数分布 则更形象和直观统计图形是用点的位置 线段的升降 线条的长短或面积的大小等方法来表达数据的内容 包括统计资料反应的变化趋势 数量的多少 分布状态和相互关系等通过图形描述出来的数据便于阅读 比较和分析一张好的统计图表 胜过冗长的文字表述 Stata的制图功能 既可通过命令产生图形 也可以直接使用Graphics窗口菜单中的选项来实现在Easygraph的菜单下 Stata的作图模块主要提供十种基本图形的制作 散点图 twoway 线图 line 面积图 area 柱形图 bar 点图 dot 圆形图 饼图 pie 直方图 histogram 箱线图 盒型图 boxplot 矩阵图 回归线图和功能图对简单图形 Easygraph 的巧妙应用 可以满足绝大多数用户的统计作图要求 但有时我们必须求助于复杂的制图功能在Graphics的主菜单下 可选择制作更复杂的图形 Stata制图的窗口菜单 Stata的其它制图功能 Stata的某些非绘图命令也具有绘制图形的功能 比如在频数分布命令中 有制作简单茎叶图的选项事件史分析提供生存曲线图回归分析提供回归线或残差图等Stata制图功能比较复杂 生成图形的过程中往往会遇到错误 有时 命令中一个不恰当的空格 一个不正确的标点符号都将使程序不能正常运行 因此 从窗口菜单入手可能更容易一些但是 Stata的图形种类及每种图形的选项虽多 但许多基本命令十分类似 可举一反三 图形的种类及适用范围 数据结构和变量属性的不同要求采用不同的图形 散点图 ScatterPlot scatter描绘散点图 双向关系图型 twowayplottypes 之母适合于y轴和x轴均为数值型的数据用于反映两个或多个变量之间的关系 y轴往往被假定为因变量 x轴被当作为自变量 其图形反映y轴的数值是否随x轴数值的变化而发生相应变化 scatter既是命令 也是双向关系图型 twowaygraph 中的一种 散点图的基本命令 graphtwoway scatteryx lfityx 这里graphtwoway是命令scatter表示图形类型y代表y变量 表现为纵轴x代表x变量 表现为横轴由于没有指定其它的限定条件 散点将表现为实心圆圈 twowayscatteryx同上 twoway是命令 scatter表示图形类型 scatteryx这里的scatter既表示图形类型 也表示命令 散点图的选项 总体外观 scatterheightage title HeightofChildren subtitle StataExample note 1 caption Source Chapter7 scheme economist 生成height和age散点图的基本命令 给图形附上标题 标题在括号内 给图形添加副标题 副标题在括号内 给图形编号 给图形提供注释 note和caption的意思基本是一样的 定义图形的外观 括号内的economist告Stata输出一个经济型的图形逗号后面所有的内容都属于选项 在所有图形中都是通用的 散点图的选项 绘图区域的大小 绘图区格式的比例通过region optionsysize 和xsize 选项控制 该选项指明绘图区的高度和宽度 单位 英寸 比如 scatteryx xsize 4 ysize 4 横轴 宽度 的选项 横轴的宽度 这里将其定义为4英寸 纵轴 高度 的选项 纵轴的高度 这里将其定义为4英寸该命令将生成一个4英寸x4英寸的图形
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!