SAS的描述性统计.ppt

上传人:sh****n 文档编号:6412115 上传时间:2020-02-25 格式:PPT 页数:73 大小:2.54MB
返回 下载 相关 举报
SAS的描述性统计.ppt_第1页
第1页 / 共73页
SAS的描述性统计.ppt_第2页
第2页 / 共73页
SAS的描述性统计.ppt_第3页
第3页 / 共73页
点击查看更多>>
资源描述
第四主题SAS统计的描述性统计 广西工学院信息与计算科学系统计教研室 蒙家富jiafumeng 手机号码 13627724219 第一节描述性统计的基本概念统计学的基本概念表示数据位置的统计量表示数据分散程度的统计量表示数据分布形状的统计量其它统计量 一 统计学的基本概念1 总体与样本总体 population 总体是指所研究对象的全体组成的集合 样本 sample 样本是指从总体中抽取的部分对象 个体 组成的集合 样本中包含个体的个数称为样本容量 容量为n的样本常用n个随机变量X1 X2 Xn表示 其观测值 样本数据 则表示为x1 xn 为简单起见 有时不加区别 2 参数与统计量参数 parameter 参数是用来描述总体特征的概括性值 如总体平均值 总体方差 2 总体比例 等 统计量 statistics 统计量是用来描述样本特征的概括性值 如样本均值 样本方差 s2 样本比例 P 等 二 表示数据位置的统计量如果要用简单的数字来概括一组观测数据x1 xn 可以使用 位置统计量 来作为数据的总体代表 常见的位置统计量有 均值 中位数 分位数 众数等 1 均值 Mean 均值是所有观测值的平均值 是描述数据取值中心位置的一个度量 2 中位数 Median或Med 中位数是描述观测值数据中心位置的统计量 大体上比中位数大 小 的数据为观测值的一半 中位数的一个优点是它不受个别极端数据的影响 具有稳健性 中位数的计算方法是 首先将数据从小到大排序为 x 1 x n 然后计算 3 众数 Mode 观测值中出现最多的数称为众数 众数用得不如均值和中位数普遍 在属性变量分析中 常需考虑频数 因此众数用得多些 4 百分位数 Percentile 分位数也是描述数据分布和位置的统计量 0 5分位数就是中位数 0 75分位数和0 25分位数又分别称为上 下四分位数 并分别记为Q3和Q1 三 表示数据分散程度的统计量1 极差 Range 与半极差 Interquartilerange 极差就是数据中的最大值和最小值之间的差 极差 max xi min xi 上 下四分位数之差Q3 Q1称为四分位极差或半极差 它描述了中间半数观测值的散布情况 2 方差 Variance或Var 方差是由各观测值到均值距离的平方和除以观测量减1 3 标准差 Standarddeviation或StdDev 方差的开方称为标准差 标准差的量纲与原变量一致 4 变异系数 CoefficientofVariation或CV 变异系数是将标准差表示为均值的百分数 是观测数据分散性的一个度量 它在比较用不同单位测量的数据的分散性时是有用的 四 表示数据分布形状的统计量偏度和峰度是描述数据分布形状的指标 1 偏度 skewness 偏度是刻画数据对称性的指标 偏度的计算公式为 在SAS中 关于均值对称的数据其偏度为0 左侧更为分散的数据 其偏度为负 称为左偏 右侧更为分散的数据 其偏度为正 称为右偏 2 峰度 kurtosis 峰度描述数据向分布尾端散布的趋势 峰度的计算公式为 利用峰度研究数据分布的形状是以正态分布为标准 假定正态分布的方差与所研究分布的方差相等 比较两端极端数据的分布情况 若 近似于标准正态分布 则峰度接近于零 尾部较正态分布更分散 则峰度为正 称为轻尾 尾部较正态分布更集中 则峰度为负 称为厚尾 五 其它统计量1 均值的标准误 StdErrorMean或StdMean或Stderror 2 校正平方和 Correctedsumofsquares 3 未校正平方和 Uncorrectedsumofsquares 4 k阶原点矩其中A1即为均值 5 k阶中心矩 第二节在SAS中计算统计量用INSIGHT计算统计量用 分析家 计算统计量编程实现描述性统计 一 用INSIGHT计算统计量INSIGHT可以非常方便地计算各种统计量 1 实例数据 例2 1 表2 1为两个不同地区居民家庭收入和支出情况的抽样调查 单位 元 试分别统计收入和支出情况 将表2 1中数据通过Excel导入到SAS数据集TT中 4个变量名分别为 ID R ID Income和Outgo 相应的标签名为家庭编号 地区编号 家庭总收入和家庭总支出 2 在INSIGHT中打开数据集在菜单中选择 Solution 解决方案 Analysis 分析 InteractiveDataAnalysis 交互式数据分析 打开 SAS INSIGHTOpen 对话框 在对话框中选择数据集 TT 单击 Open 打开 按钮 即可在INSIGHT中打开数据窗口 如图所示 3 计算统计量选择菜单 Analyze 分析 Distribution Y 分布 打开 Distribution Y 对话框 在数据集sryzc的变量列表中 选择Income为分析变量 选择R Id 为分组变量 单击 Output 输出 按钮 在打开的对话框中包含描述性统计量选项 选择选项矩统计量和分位数 取消默认的选项 BoxPlot MosaicPlot 和 Histogram BarChart 单击 OK 按钮 即可得到变量Income按 R Id 分组的各种矩统计量 Moments 和分位数 Quantiles 如图所示 二 用 分析家 计算统计量1 启动 分析家 选择主菜单 Solutions 解决方案 Analysis 分析 Analyst 分析家 打开 分析家 窗口 选择主菜单 File 文件 OpenBySASName 打开 SelectAMember 对话框 选择数据集TT 2 通过SummaryStatistics菜单计算描述性统计量选择主菜单 Statistics 统计 Descriptive 描述性统计 SummaryStatistics 汇总统计量 打开 SummaryStatistics 对话框 选择变量列表中的Income 单击 Analysis 按钮 选定分析变量 如图所示 单击 Statistics 按钮 打开 SummaryStatistics Statistics 对话框 对话框中列出可以计算的所有统计量 如右图所示 描述性统计量如下图所示 3 通过Distributions菜单计算描述性统计量选择主菜单 Statistics 统计 Descriptive 描述性统计 Distributions 分布 打开 Distributions 对话框 选择变量列表中的Income 单击 Analysis 按钮 选定分析变量 单击 OK 按钮 即可得到关于变量Income的矩统计量和基本统计测度 三 编程实现描述性统计SAS提供有多个不同的过程来实现统计量的计算 它们在功能范围上有许多的重复 下面介绍用FREQ MEANS和UNIVARIATE这三个过程来计算简单的描述统计量 FREQ过程常用来计算分类变量取值的频数 而MEANS和UNIVARIATE过程则对数值型变量计算均值 标准差等统计量 1 FREQ过程 ex7 3 1 ex7 3 2 ex7 3 3 ex7 3 4 FREQ过程包括多个控制频数输出与检验的语句和选项 格式如下 PROCFREQDATA TABLES FORMAT RUN 其中PROCFREQ语句调用FREQ过程 标志FREQ过程的开始 TABLES语句用于创建有关变量所构成的各种表格并进行相应的假设检验和计算 可以多次使用 2 MEANS过程 ex7 2 1 ex7 2 2 ex7 2 3 1 语法格式MEANS过程的一般格式 PROCMEANSDATA VAR BY CLASS RUN PROCMEANS语句后的选项主要用来指定所要计算的统计量 默认情况下 MEANS过程会给出频数 均数 标准差 最大值和最小值等 其余统计量的计算均需要在选项中指定 VAR语句引导所要进行分析的所有变量的列表 SAS将对VAR语句所引导的所有变量分别进行描述性统计分析 BY语句与CLASS语句所指定的分类变量用来进行分组统计 但输出格式不同 可以计算的描述性统计量关键字及其含义见下表 3 使用CLASS语句和BY语句使用CLASS语句和BY语句可以分组计算分析变量的描述统计量值 由CLASS语句和BY语句指定的变量在分析中起分组 类 的作用 被称为分类变量 两个语句的区别是 使用BY语句时要求数据集须按BY变量排序 使用CLASS语句无此要求 使用BY语句时输出按BY变量的每个值分别提供一个表 使用CLASS语句则将所有结果排列在一个表之中 3 UNIVARIATE过程 ex7 5 1 UNIVARIATE过程的一般格式为 PROCUNIVARIATEDATA VAR BY CLASS HISTOGRAM OUTPUTOUT RUN UNIVARIATE过程和MEANS过程的格式非常相似 相同的语句和选项其含义也相同 所不同的是某些统计量只能在UNIVARIATE过程中计算 如众数 而且UNIVARIATE过程中具有绘图功能 其中 HISTOGRAM语句用来指示SAS对其后所指定的变量绘制直方图 其后的选项用来指示SAS添加不同类型的拟合图形 如正态分布的分布密度曲线 输出包括五个部分 第一部分是矩统计量 各统计量已在2 1 1中作了介绍 第二部分为基本的位置和分散程度统计量 位置统计量包括均值 中位数 众数 分散程度统计量包括标准差 方差 极差 四分位间距第三部分为关于均值等于零的三种检验的结果 包括t检验 符号检验和符号秩检验 第四部分为各个重要的分位数 第五部分是观测数据的五个最低值和五个最高值 第三节统计图形定量变量的图形表示分类变量的图形表示 一 定量变量的图形表示1 直方图对于数值型变量 常用直方图 histogram 来展示变量取值的分布 将变量取值的范围分成若干区间 在等间隔区间的情况 每个区间的长度称为组距 考察数据落入每一区间的频数与频率 在每个区间上画一个矩形 它的宽度是组距 它的高度可以是频数 频率或密度 频率 组距 在高度是密度的情况 每一矩形的面积恰是数据落入区间的频率 这种直方图可以估计总体的概率密度 图2 22密度直方图与频数直方图SAS软件会根据样本容量在样本取值范围内自动地确定一个分组方式 另外也提供了设定分组的方法 2 盒形图盒形图 boxplot 又称箱图 箱线图 盒子图 是用更为简洁的方法表现数据在数轴上的分布及其特点的图形 图2 23的左边是根据居民家庭的收入情况所绘的盒形图 右边是分地区情况所绘的盒形图 3 散点图通常得到的数据可能有两个变量 比如家庭的收入和支出情况的数据 这里家庭总收入是一个变量 而家庭总支出是第二个变量 希望通过图形了解收入和支出的关系 这时可以用一个变量为横坐标 如家庭总收入 另一个为纵坐标 这里是家庭总支出 来作图 图2 24 这种图称为散点图 ScatterPlot 4 线图线图 LinePlot 用来表示变量间的取值变化情况 有单式和复式两种 图2 25 在复式线图中可用不同颜色的实线来标志区别 如图2 25右所示 2 3 2分类变量的图形表示分类变量也可以通过图形直观地描绘出它们各类的数量和所占比例 常用的有条形图 饼图和马赛克图 1 条形图条形图 BarChart 给出分类变量取每个值的频数 如图2 26所示为变量R ID取值的条形图 2 饼图通常 饼图 PieChart 可以对分类变量描述其频数取值的比例 对于数值变量 则像直方图那样应先计算各区间取值的频数 再按比例画出 图2 27中给出的是家庭支出分组频数的饼图 要注意的是 如果有太多的分组 那么饼图就不那么好看了 3 马赛克图马赛克图 MosaicPlot 一般不对单个变量作 而是对两个分类变量来作 这种图的好处是直观显示了两个变量每种取值组合的观测个数和比例 如图2 28所示 第四节用SAS绘制统计图形用INSIGHT绘制统计图形用 分析家 绘制统计图形编程绘制统计图图形的调整与输出 一 用INSIGHT绘制统计图形INSIGHT模块可以画出多种统计图形 而且图形清晰 美观 1 绘制直方图选择菜单 Analyze 分析 Histogram BarChart Y 直方图 条形图 打开 Histogram BarChart Y 对话框 在数据集的变量列表中 选择变量 然后单击 Y 按钮 单击 Output 输出 按钮 在打开的对话框中选择 Labels 标签 选项 如图所示 以便输出的图形显示中文标签名 单击 OK 按钮返回对话框 单击 OK 按钮 即可得到直方图如图2 30左所示 单击图形框左下角处的三角形 在打开的菜单中选择 Values 值 即可在图中显示频数值 如图2 30右所示 2 绘制条形图INSIGHT模块对分类变量绘制条形图 首先单击R Id变量名上边的变量作用按钮 在弹出的菜单中选择 Nominal 列名型 如图左所示 选择菜单 Analyze Histogram BarChart Y 打开 Histogram BarChart Y 对话框 在数据集的变量列表中选择变量 然后单击 Y 按钮 如图右所示 单击 Output 输出 按钮 在打开的对话框中选择 Labels 标签 选项 单击 OK 按钮返回对话框 单击 OK 按钮 即可得到条形图如图2 34左所示 如果选择Income freq 见2 2 2节 作为分析变量 则可以得到图2 34右所示的条形图 3 绘制盒形图选择菜单 Analyze BoxPlot MosaicPlot Y 可以对区间型变量作盒形图 对分类型变量作马赛克图 打开 BoxPlot MosaicPlot Y 对话框 在数据表sryzc的变量列表中 选择income变量 然后单击 Y 按钮 income变量被选定 如图左所示 单击 Output 按钮 在打开的对话框中选择 Labels 选项 取消 YAxisVertical 如图右所示 单击 OK 按钮 即可得到盒形图如图2 36左所示 在 BoxPlot MosaicPlot Y 对话框中选定多个分析变量 可以将多个盒形图画在一个坐标系下 这样便于比较变量的取值情况 如图所示 图形分析 从图中可以看到支出数据在均值两边的分布近似对称 说明低于和高于平均支出的家庭几乎各占一半 收入数据的二分之一分位数在均值的左边 说明大部分人的收入低于平均收入 另外 10号家庭的收入是一个极端值 它不具有代表性 4 绘制马赛克图选择 Analyze 分析 BoxPlot MosaicPlot Y 盒形图 马赛克图 命令 可以对分类变量作马赛克图 下面以2 2 2中修改过的数据集sryzc为例 作出R Id变量和Income freq变量的马赛克图 4 绘制马赛克图首先将R Id变量改为 列名型 参见图2 33左 选择菜单 Analyze 分析 BoxPlot MosaicPlot Y 盒形图 马赛克图 打开 BoxPlot MosaicPlot Y 对话框 在数据集sryzc的变量列表中 选择R Id变量 然后单击 Y 按钮 R Id变量被选定 单击 OK 按钮 得到结果如图2 38所示 5 绘制散点图选择菜单 Analyze ScatterPlot YX 打开 ScatterPlot YX 对话框 在变量列表中 选择Income 单击 Y 按钮 Income变量被选定为Y轴变量 选择Outgo 单击 X 按钮 Outgo变量被选定为X轴变量 如图左所示 单击 OK 按钮 即可得到散点图如图右所示 可以看出收入与支出有一定的线性相关关系 在数据集窗口选中所有1号地区的观测号 图2 40是在散点图中区分两个地区的情况 细点为2号地区 粗点为1号地区 从该图可以看出1号地区比2号地区在收入和支出水平上都要高出许多 若在 LinePlot YX 对话框中 将ID变量选定为X轴 选择Income变量和Outgo变量 单击 Y 按钮 单击 Output 输出 按钮 在打开的对话框中选择 Labels 标签 选项 如图左所示 以便输出的图形显示中文标签名 两次单击 OK 按钮 得到关于Income变量和Outgo变量的复式线图 图右 二 用 分析家 绘制统计图形1 绘制饼图在 分析家 中打开数据集mylib sryzc 选择主菜单 Graphs PieChart 打开 PieChart 对话框 选择变量列表中的Income 单击 Chart 按钮 选定分析变量 如图左所示 所得饼图如图右所示 2 绘制条形图选择主菜单 Graphs BarChart Horizontal 打开 HorizontalBarChart 对话框 选择变量列表中的INCOME 单击 Chart 按钮 选定分析变量 选择R ID变量 单击 StackBy 按钮 再选中3 D选项 如图左所示 单击 OK 按钮 得到水平条形图 如图右所示 三 编程绘制统计图SAS可以把存贮在SAS数据集中的数据以图形的方式形象直观地显示出来 在SAS GRAPH模块的支持下 SAS可以作散点图 曲线图 直方图 扇形图 三维曲面图 等高线图 地图 等等 Plot过程 Ex7 6 1 Ex7 6 2 Ex7 6 3 Chart过程 Ex7 7 1 Ex7 7 2 Ex7 7 3 1 GCHART过程 1 语法格式GCHART过程用于绘制直方图 饼形图 扇形图 三维直方图等表示变量分布的图形 其语法格式为 PROCGCHARTDATA RUN GCHART过程可以使用的图形关键字及其所绘制的图形类型见表2 5 图形关键字后的变量名用以指定进行图形描述时的分组变量 可以是数值型的 此时以各组的组中值为分组的标志 也可以是字符型的 选项比较重要的有 TYPE 统计量关键字 表示以图形对变量 SUMVAR所指定的变量 的哪一种统计量进行描述 比如频数 FREQ 均数 MEAN 总计 SUM 频数百分比 PCTN 等 SUBGROUP 变量名 分组变量 指定要进行分组 各组段内再分组 的变量 SUMVAR 变量名 数值变量 指定要进行统计计算的变量 也就是 TYPE 统计量关键字 选项中统计量的计算所依据的变量 其中绘图用的变量用VBAR语句给出 如果把VBAR改成HBAR则条形方向变为横向 用GCHART绘制的条形图和在INSIGHT中绘制的直方图有所不同 它在横轴标的是区间的中点值 而在INSIGHT中横轴标的是区间的端点值 可以指定分组的变量 例如在每个区段内再分段 可以用如下代码 procgchartdata mylib sryzc vbarIncome subgroup R Id run 结果如图所示 3 画三维条形图使用BLOCK关键字可以画三维条形图 例如 画出数据集mylib sryzc中Income变量的三维条形图的代码如下 procgchartdata mylib sryzc blockIncome group R Id run 结果如图所示 4 画饼形图使用PIE关键字可以画饼形图 PIE3D关键字可以画三维饼形图 例如 画出数据集mylib sryzc中Income变量的三维饼形图的代码如下 procgchartdata mylib sryzc PIE3DIncome run 结果如图所示 2 使用GPLOT过程绘制散点图和连线图通常用散点图和连线图可以表示 一个变量随另一个变量的变化 变量之间的关系 数据值的分布 1 GPLOT过程的一般格式PROCGPLOTDATA PLOT SYMBOLn RUN 常用的选项见表2 6 表2 6PLOT语句的选项 SYMBOL语句用来控制表示点的符号和点间的连线 其中n是不同SYMBOL语句的序号 可以是1 99 缺省为1 选项见表2 7 表2 7SYMBOL语句的选项 2 散点图绘制家庭总收入对家庭总支出的散点图 代码如下 procgplotdata mylib sryzc plotIncome outgo run 结果显示了一个GRAPHICS窗口 绘出了以Income为纵轴 以Outgo为横轴的散点图 见图 可以在图中按第三个变量分组画出散点图 如图2 48右 代码如下 procgplotdata mylib sryzc plotIncome outgo r id symbol1color blackv star symbol2color bluev dot run 3 连线图为了绘制连线 只要在SYMBOL语句中指定i join 例如绘制家庭总收入对家庭编号的连线图 图2 49左 代码如下 procgplotdata mylib sryzc plotIncome id symboli joinv star run 也可以分地区绘制家庭总收入对家庭编号的连线图 图2 49右 代码如下 procgplotdata mylib sryzc plotIncome id r id symbol1color blacki joinv star symbol2color bluei joinv dot run 四 图形的调整与输出在图形中也可以用TITLE语句和FOOTNOTE语句给图形加标题和脚注 还可以在图形的标题 标签中使用TrueType字型的汉字 例如 goptionsftext 宋体 htitle 4cellshtext 3cells procgplotdata sasuser class title 试验SAS图形的汉字功能 symboli nonev square plotweight height labelweight 体重 height 身高 run 输出结果见图 其中GOPTIONS中的FTEXT选项指定图形中文本的字体 为了把GRAPH绘制的图形保存为兼容的图形文件 只要在显示某一页图形输出时 选 File Export 菜单 在出现的输入文件名的窗口选择适当的文件类型 如BMP WMF JPEG PS 等等 要打印GRAPH生成的图形 只要选 File Print 这样用Windows的打印驱动程序与SAS GRAPH的图形驱动配合来打印 另外 SAS GRAPH模块还提供了许多种打印机的独立的驱动程序 可以不依赖于Windows的打印驱动 具体请参考有关资料或帮助
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!