资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第三章 数据描述与分析,*,第三章 数据描述与分析,本章内容,3.1 集中趋势的测定与分析,3.2 离中趋势的测定与分析,3.3 分布形态的测定与分析,3.4 描述统计分析工具的使用,下一页,返回目录,1,第三章 数据描述与分析,3.1,集中趋势的测定与分析,3.1.1 集中趋势的测定内容,3.1.2 用,Excel,函数描述集中趋势,3.1.3 三种平均数的特点,3.1.4 案例研究-网上冲浪者的年龄,上一页,下一页,返回本章首页,2,第三章 数据描述与分析,3.1.1 集中趋势的测定内容,在上图的分布中,各个变量值与中间位置的距离越近,所出,现的次越多,与中间位置的距离越远,所出现的次数越少,,从而形成了以中间值为中心的集中趋势。,集中趋势是现象共性的特征,是现象规律性的数量表现。,用均值来描述总体分布的集中趋势。,上一页,下一页,返回本节首页,3,第三章 数据描述与分析,3.1.2 用,Excel,工作表函数描述集中趋势,在,Excel,中既可手工创建公式计算各种平均数,也可利用,Excel,中的统计函数。,在“统计函数”类别中用于集中趋势测定的常用函数有三种:,均值、中位数和众数。,上一页,下一页,返回本节首页,4,第三章 数据描述与分析,1.,Excel,的平均数函数,(1)均值函数(,AVERAGE,),均值函数是应用比较广泛的一种平均数函数,它能够计算一组数据的算术平均数。其语法结构为:,AVERAGE(number1,number2, .)。,其中:,number1, number2, .,为要计算平均数的 130 个参数。,均值的计算公式为: 。,上一页,下一页,返回本节首页,5,第三章 数据描述与分析,(2),中位数函数(,MEDIAN,),中位数函数用于描述居于数据分布中心位置的数值。,其语法结构为:,MEDIAN(number1,number2, .)。,其中:,number1, number2,.,是需要找出中位数的,1 30 个数字参数。,(3)众数函数(,MODE),众数函数用于计算一组数据中出现频率最多的数值。,其语法结构为:,MODE(number1,number2, .)。,其中:,number1, number2, .,是用于众数计算的 1 30,个参数,也可以使用单一数组(即对数组区域的引,用)来代替由逗号分隔的参数。,上一页,下一页,返回本节首页,6,第三章 数据描述与分析,(4)切尾均值函数(,TRIMMEAN),返回数据分布中心部分的算术平均值。其语法结,构为:,TRIMMEAN(array,percent) 。,其中:,Array,为需要进行筛选并求平均值的数组或,数据区域。,Percent,为计算时所要除去的数据点的,比例。,上一页,下一页,返回本节首页,7,第三章 数据描述与分析,2. 均值函数的使用,例,某企业的生产部门使用抽样方法检测一批新产品的质量,该批产品的抗拉强度见“原始数据”。管理人员希望知道这批产品的抗拉强度的平均水平,以决定产品质量是否合格。由此需要计算抗拉强度的均值、中位数与众数 。,操作步骤如下:,上一页,下一页,返回本节首页,8,第三章 数据描述与分析,打开“第3章 数据描述分析.,xls,”,工作簿,选择“抗拉强 度”工作表。如图所示:在单元格,A7,中输入“均值”,在,A8,中输入“中位数”, 在,A9,中输入“众数”,。,上一页,下一页,返回本节首页,9,第三章 数据描述与分析,选定单元格,B7,,单击“插入”菜单,选择“函数”选项,,Excel,会弹出“粘贴函数”对话框窗口。,上一页,下一页,返回本节首页,10,第三章 数据描述与分析,在“函数分类”列表中选择“统计”,在“函数名” 列表中选均值函数“,AVERAGE”。,单击“确定”, 则弹出“,AVERAGE”,函数对话窗口。,上一页,下一页,返回本节首页,11,第三章 数据描述与分析,在“,Number1”,区域中输入数据,B2:B6,后,对话窗口底部便显示出计算结果30。如果对话窗口中没有计算结果,便说明计算有错误,需要再检查一下。,单击“确定”按钮,计算完成。,也可以直接在单元格,B7,中输入均值函数公式“=,AVERAGE(B2:B6)”,,然后敲回车键,得到同样结果。,在单元格,B8,中输入公式“=,MEDIAN(B2:B6)”,计算中位数。,在单元格,B9,中输入公式“=,MODE(B2:B6)”,计算众数。,计算结果如图所示:,上一页,下一页,返回本节首页,12,第三章 数据描述与分析,计算结果表明,抗拉强度的均值是30,中位数也是,30,由于数据中的数值所出现的次数都为1,所以,没有众数 。,上一页,下一页,返回本节首页,13,第三章 数据描述与分析,3.1.3 三种平均数的特点,均值,是所有的标志值之和除以其观察值的个数。它考虑了所有数值,因而均值的大小受总体中极端数值的影响。,如果总体中有极大值出现,则会使均值偏于分布的右边,如果总体中出现极小值,均值则会偏于分布的左边。,上一页,下一页,返回本节首页,14,第三章 数据描述与分析,众数,众数是总体中出现次数最多的数值,它只考虑总体中各数值出现频数的多少,不受极端数值的影响,但当总体中出现多个众数时,众数便没有意义,。,中位数,中位数只是考虑各单位数值在总体中的顺序变化,它受极端数值的影响不大。,三种平均数的这些特点通过,Excel,更容易理解。下面通过修改例题中的数据来观察三种平均数的变化。,上一页,下一页,返回本节首页,15,第三章 数据描述与分析,3.1.4 案例研究:网上冲浪者的年龄,据报道,越来越多的人热心于网上冲浪,因为它能够打开空间的界限,带给人许多新的知识。现随机抽取一些上网人进行调查,得知其年龄数据如下:22、58、24、50、29、52、57、31、30、41、44、40、46、29、31、37、32、44、49、29。,试根据此样本资料对网上冲浪者的年龄水平给以描述。,上一页,下一页,返回本节首页,16,第三章 数据描述与分析,操作步骤如下:打开“第3章 数据描述分析.,xls,”,工作簿,选择 “网上冲浪” 工作表。在单元格,A22:A25,中分别输入“均值”、“中位数”、“众数”和“切尾平均数”。,上一页,下一页,返回本节首页,17,第三章 数据描述与分析,在单元格,B22,中输入公式“=,AVERAGE(B2:B21)”,,计算均值为为38.75。,在单元格,B23,中输入公式“=,MEDIAN(B2:B21)”,,计算中位数为38.5。,在单元格,B24,中输入公式“=,MODE(B2:B21)”,,计算众数为29。,在单元格,B25,中输入公式“=,TRIMMEAN(B2:B21,0.05)”,,便在两端各切掉5%,其平均值为38.75。,上一页,下一页,返回本节首页,18,第三章 数据描述与分析,3.2,离中趋势的测定与分析,3.2.1 离中趋势的测定内容,3.2.2 用,Excel,函数计算标准差,3.2.3 四分位数与四分位距,3.2.4 案例研究:磁盘存储量质量控制,上一页,下一页,返回本章首页,19,第三章 数据描述与分析,3.2.1 离中趋势的测定内容,如下如所示,三个不同的曲线表示三个不同的总体,,其均值相同,但离中趋势不同。,上一页,下一页,返回本节首页,20,第三章 数据描述与分析,离中趋势,用于测定数据集中各数值之间的差异程度。表现在一个分布中各数值与均值的离差程度。它的作用主要有以下三方面:,用于说明均值的代表性大小,反映现象的质量与风险,用于统计推断。,标准差的计算公式:,总体标准差:,样本标准差:,上一页,下一页,返回本节首页,21,第三章 数据描述与分析,3.2.2 用,Excel,函数计算标准差,可以利用,Excel,来创建公式进行标准差测定,也可以,利用,Excel,中的工作表函数来直接进行计算。,在,Excel,中用于计算标准差的函数有两个,。,(1)总体标准差函数(,STDEVP),总体标准差函数用来反映相对于均值的离散程度。,其语法结构为:,STDEVP(number1,number2,.)。,其中,,number1,number2,.,为对应于样本总体的 1 30,个参数。,上一页,下一页,返回本节首页,22,第三章 数据描述与分析,(2)样本标准差函数(,STDEV),样本标准差函数用来计算样本中相对于均值的离,散程度。其语法结构为:,STDEV(number1,number2,.),其中,,,Number1,number2,.,为对应于总体样本的 1,30 个参数。,上一页,下一页,返回本节首页,23,第三章 数据描述与分析,操作步骤如下:,建立如前述的“网上冲浪”工作表。,单击工具栏中的“函数”快捷按钮,弹出对话框如前述所示的“粘贴 函数”的对话框。在“函数分类”列表中选择“统计”,在“函数名”列表中选择总体标准差函数,STDEVP,,对话框如下图所示,。,上一页,下一页,返回本节首页,24,第三章 数据描述与分析,在数据区域中输入,B2:B21,,则计算结果便显示在对话窗口下面,其值为10.61543687,单击“确定”按钮结束。,样本标准差的计算方法与其相同。,上一页,下一页,返回本节首页,25,第三章 数据描述与分析,3.2.3 四分位数与四分位距,将总体分成相等的四个部分的测定数为四分位数。,位于总体第25%位置的数值是第1四分位数,Q,1;,位于总体第50%位置的数值是第2四分位数,Q,2;,位于总体第75%位置的数值是第3四分位数,Q,3,。,四分位数函数,QUARTILE,可以计算一组数据的四分位数。其语法结构为:,QUARTILE(array,quart),其中:,上一页,下一页,返回本节首页,26,第三章 数据描述与分析,(1),Array,为计算四分位数的数组或数据区域。,(2),Quart,决定返回第几个四分位数。,如果,quart,等于0,函数,QUARTILE,返回最小值;,quart,等于1,函数,QUARTILE,返回第1四分位数,(第25 个百分排位);,quart,等于2,函数,QUARTILE,返回中位数(第 50 个百分排位);如果,quart,等于3,,函数,QUARTILE,返回第3四分位数(第 75 个百分排,位);如果,quart,等于4,函数,QUARTILE,返回最大,值。,上一页,下一页,返回本节首页,27,第三章 数据描述与分析,四分位距是总体中第3四分位数与第1四分数之差,四分位距可包括位于总体分布中心的50%,它能集中地反映总体的特征。,例,仍以网上冲浪者年龄为例,计算数据的最小值、第1四分位数、第2四分位数、第3四分位数和四分位距。,上一页,下一页,返回本节首页,28,第三章 数据描述与分析,打开“第3章 数据描述分析.,xls,”,工作簿,选择“网上冲浪” 工作表。,上一页,下一页,返回本节首页,29,第三章 数据描述与分析,在单元格,A27、A28、A29、A30,和,A31,中分别输入“最 小值”、“第1四分位数”、“第2四分位数”、“第3四分位 数”、“最大值”和“四分位距”。,上一页,下一页,返回本节首页,30,第三章 数据描述与分析,在,B27,单元格中打开“插入”菜单,单击“函数”选项,在 “函数类型”列表中选择“统计”,在“函数名”列表中选择 四分位数函数,QUARTILE,,单击“确定”按钮,进入四分 位数对话框窗口。,上一页,下一页,返回本节首页,31,第三章 数据描述与分析,在四分位数函数,QUARTILE,的对话框中,,在,Array,中输入数据区域,B2:B21;,在,Quart,中输入0,表示计算最小值或第0四分位数;,单击“确定”按钮,其值便显示在单元格,B27,中。,在单元格,B28,中输入“=,QUARTILE(B2:B21,1)”,,计算第1四分位数,显示29.75。,在单元格,B29,中输入“=,QUARTILE(B2:B21,2)”,,计算第2四分位数,显示38.5。,在单元格,B30,中输入“=,QUARTILE(B2:B21,3)”,,计算第3四分位数,显示46.75。,上一页,下一页,返回本节首页,32,第三章 数据描述与分析,在单元格,B31,中输入“=,QUARTILE(B2:B21,4)”,,计算最大值,显示58。,在单元格,B32,中输入“=,B30-B28”,,计算四分位距,显示值为17。,四分位距表明整个总体中位于29.75到46.75之间的数,值有50%。换句话说,从29.75到46.75这个17岁范围,内可包括总体的50%。,上一页,下一页,返回本节首页,33,第三章 数据描述与分析,3.2.4,案例研究:磁盘存储量质量控制,某生产磁盘公司的管理人员要监测磁盘存储量的质量。10,天为一个周期,得到如下图的数据。试根据这些样本资料,对该公司的产品进行质量控制分析。,上一页,下一页,返回本节首页,34,第三章 数据描述与分析,操作步骤如下:,(1)求样本均值,打开“第3章 数据描述分析”工作簿,选择“磁盘质量”工作表。,在,J2,单元格中输入“样本均值”。,在单元格,J3,中输入公式“=,AVERAGE(B3:I3)”,,并复制到,J4:J12,各单元格中 。,上一页,下一页,返回本节首页,35,第三章 数据描述与分析,(2),制作折线图,在,EXCEL“,插入”菜单中选择“图表”选项,打开“图表向导”对话框。,在步骤1的“图表类型”列表中选择“折线图”,在“子图表类型”中选择“数据点折线图”,单击“下一步”按钮。,在步骤2中确认数据源,为,J3:J12,,单击“下一步”按钮。,在步骤3的图表选项中,单击“标题”页面,在“图表标题”中输入“质量控制图”,在分类,(,X),轴中输入“样本数”,在分类(,Y),轴中输入“样本均值”。,上一页,下一页,返回本节首页,36,第三章 数据描述与分析,打开“网格线”页面,去掉网格线;打开“图例”页面,去掉图例。单击“下一步”按钮,单击“完成”按钮,得质量控制草图。,上一页,下一页,返回本节首页,37,第三章 数据描述与分析,(3)绘制质量控制图的中心线,在,I13,单元格中输入“总体均值”,在,J13,单元格中输入公式,“=,AVERAGE(J3:J12)”。,在,K2,单元格中输入“中心线”,单击,K3,单元格,输入公式“=$,J$13”。,将单元格,K3,,复制,到,K4:K12,的各单元格中。,选取单元格,K3:K12,,然后将鼠标移近所选单元格的边缘,直到变成一个箭头,然后把单元格的值拖动到图中并释放鼠标键,则中心线便出现在图中。,双击图表,选取中心线并双击,在“数据系列格式”对话框中将“数据标记”选为“无”,单击“确定”按钮。,上一页,下一页,返回本节首页,38,第三章 数据描述与分析,(4)绘制质量控制图的上下限,在单元格,L2,中输入“样本标准差”,在单元格,L3,中输入公式“=,STDEV(B3:I3)”,,并复制,到,L4:L12,各单元格中,以确定控制界限。,在单元格,L13,中输入公式,“=,AVERAGE(L3:L12)”,,计算总体标准差。,在单元格,M2,和,N2,中分别输入“控制下限”和“控制上限”。,在单元格,M3,中输入公式,“=,K3-1.96*$L$13”,,并向下复制到,K13,各个单元格中,用来计算控制下限。其中的1.96为概率度,数据点在均值加减1.96标准差范围内可包括总体的95%。,在单元格,N3,中输入公式“,=,K3+1.96*$L$13”,,并向下复制,到,N13,各个单元格中,用来计算控制上限。,上一页,下一页,返回本节首页,39,第三章 数据描述与分析,选取单元格,M3:N12,,然后将鼠标移近所选单元格的边缘,直到变成一个箭头,然后把单元格的值拖动到图中并释放鼠标键,则控制上、下限便出现在图中。,双击图表,选取控制上、下限并双击,在“数据系列格式”对话框中将“数据标记”选为“无”,单击确定。,所得下图为质量控制图,从图中可以看到大多数数,据点都位于控制范围之内。但第8个数据点跃出范,围之外,在质量控制中称其为失控点,对于这种情况,,需要仔细检查生产,过程,以判断质量异常的原因。,上一页,下一页,返回本节首页,40,第三章 数据描述与分析,上一页,下一页,返回本节首页,41,第三章 数据描述与分析,3.3,分布形态的测定与分析,3.3.1,分布形态的测定内容,3.3.2,用,Excel,工作表函数描述分布形态,上一页,下一页,返回本章首页,42,第三章 数据描述与分析,3.3.1 分布形态的测定内容,对于一组数据,不仅要描述其集中趋势、离中趋势,而且也要描述其分布形态。,这是因为一个总体如果均值相同,标准差相同,但也可能分布形态不同。,另外,分布的形态有助于识别整个总体的数量特征。总体的分布形态可以从两个角度考虑,一是分布的对称程度,另一个是分布的高低。,前者的测定参数称为偏度或偏斜度,后者的测定参数称为峰度。,上一页,下一页,返回本节首页,43,第三章 数据描述与分析,在统计分析中,用偏度指标对其进行测定。偏度数值等于零,说明分布为对称;偏度数值大于零,说明分布呈现右偏态;如果偏度数值小于零,说明分布呈左偏态。,峰度是掌握分布形态的另一个指标,它能够描述分布的平缓或陡峭。如果峰度数值等于0,说明分布为正态;如果峰度数值大于0,说明分布呈陡峭状态;如果峰度值小于0,则说明分布形态趋于平缓。,上一页,下一页,返回本节首页,44,第三章 数据描述与分析,3.3.2 用,Excel,工作表函数描述分布形态,Excel,提供了计算偏度与峰度的工作表函数。,偏度函数,(,SKEW),用于计算次数分布的不对称程度。其语法结构为:,SKEW(number1,number2,.),其中:,number1,number2.,为需要计算偏斜度的 1 30 个参数。,峰度函数(,KURT),用于反映次数分布的尖锐度或平坦度。其语法结构为:,KURT(number1,number2, .),其中:,number1,number2,为需要计算其峰值的 1 30 个参数。,上一页,下一页,返回本节首页,45,第三章 数据描述与分析,仍以网上冲浪者年龄为例,计算其偏态与峰度。,计算步骤如下:,建立如下图“网上冲浪”工作表。,在,A33,单元格中输入“偏态”,在,B33,单元格中输入“=,SKEW(B2:B21)”,,其显示值为0.27701322。,上一页,下一页,返回本节首页,46,第三章 数据描述与分析,在,A34,单元格中输入“峰度”,,在,B34,单元格中输入“=,KURT(B2:B21)”,,其显示值为 -1.0811953。结果如下图所示。,从图中偏度与峰度计算结果中可以看出,偏度0.27701322,说明其分布形态呈轻微右偏态,基本接近于对称分布。峰度系数为-1.0811953,小于0,说明其分布形态趋势于平坦。这主要是由于观察数据过少,不能表现其应有的峰度。,上一页,下一页,返回本节首页,47,第三章 数据描述与分析,3.4 描述统计分析工具的使用,3.4.1 描述统计分析工具的输入内容,3.4.2 描述统计分析工具的输出结果解释,3.4.3 案例研究:“,Old Faithful”,间歇喷泉的喷发,上一页,下一页,返回本章首页,48,第三章 数据描述与分析,3.4.1 描述统计分析工具的输入内容,Excel,描述统计工具计算与数据的集中趋势、离中趋势、偏度等有关的描述性统计指标。“描述统计”对话框如下图所示。,上一页,下一页,返回本节首页,49,第三章 数据描述与分析,“描述统计”对话框中选项的主要内容包括:,输入区域,在此输入待分析数据区域的单元格引用。,该引用必须由两个或两个以上按列或行组织的相邻,数据区域组成。,分组方式,如果需要指出输入区域中的数据是按行还是按列排列,请单击“行”或“列”。,标志位于第一行,如果输入区域的第一行中包含标志项,请选中“标志位于第一行”复选框。如果输入区域没有标志项,则不选择,,Excel,将在输出表中,自动生成数据标志。,上一页,下一页,返回本节首页,50,第三章 数据描述与分析,输出区域,在此输入对输出表左上角单元格的引用。,此工具将为每个数据集产生两列信息。左边一列包含统计标志项,右边一列包含统计值。根据所选择的“分组方式”选项的不同,,,Excel,将为输入表中的每一行或每一列生成一个两列的统计表,。,新工作表组,单击此选项,可在当前工作簿中插入新,工作表,并由新工作表的,A1,单元格开始粘贴计算结果。如果需要给新工作表命名,请在右侧编辑框中键入名称。,上一页,下一页,返回本节首页,51,第三章 数据描述与分析,新工作簿,单击此选项,可创建一新工作簿,并在新工作簿的新工作表中粘贴计算结果。,汇总统计,如果需要,Excel,在输出表中生成下列统计结果,请选中此项。这些统计结果有:均值、标准差、中位数、众数、标准误差、方差、峰值、偏度、全距、最小值、最大值、总和、总个数、第,K,个最大值、第,K,个最小值和置信度。,平均数置信度,如果需要在输出表的某一行中包含均值的置信度,请选中此项,然后在右侧的编辑框中,输入所要使用的置信度。例如,数值 95% 可用来计算在显著性水平为 5% 时的均值置信度。,上一页,下一页,返回本节首页,52,第三章 数据描述与分析,第,k,个最大值,如果需要在输出表的某一行中包含每个区域的数据的,第,k,个最大值,请选中复选框,然后在右侧的编辑框中,输入,k,的数值。如果输入 1,则这一行将包含数据集中的最大数值。,第,k,个最小值,如果需要在输出表的某一行中包含每个区域的数据的第,k,个最小值,请选复选取框,然后在右侧的编辑框中,输入,k,的数值。如果输入 1,则这一行将包含数据集中的最小数值。,上一页,下一页,返回本节首页,53,第三章 数据描述与分析,3.4.2 描述分析工具的输出结果解释,打开“第3章 数据描述分析.,xls,”,工作簿,选择“描述工具”工作表。,打开“工具”菜单,选择“数据分析”选项,打开数据分析对话框如图所示。,上一页,下一页,返回本节首页,54,第三章 数据描述与分析,双击“描述统计”项或先单击此项再选择“确定”按钮,描述统计对话框打开如图所示。,在“输入区域”中输入,A1:A7。,上一页,下一页,返回本节首页,55,第三章 数据描述与分析,由于所选数据范围包括一个标志名称,单击“标志位于第一行”选项边上的复选框。,单击“输出区域”项,旁边出现了一个输入框,单击此框出现插入符,单击,B1,,在输入框中出现输出地址“$,B$1”,,这是输出结果的左上角起始位置。,单击“汇总统计”,如不选此项,则,Excel,省略部分输出结果。,上一页,下一页,返回本节首页,56,第三章 数据描述与分析,单击“确定”按钮,将产生输出结果,如下图所示。,结果输出在,B、C,两栏的1到16行中。如果结果只是,3行,说明没有选择“汇总统计”,可以重新打开对,话框进行选择。,上一页,下一页,返回本节首页,57,第三章 数据描述与分析,3.4.3,案例研究:“,Old Faithful”,间歇喷泉的喷发,间歇喷泉是一种向空中喷出热水和热气的温泉,其名字的由来是因为这种喷泉要经过一段相对稳定的状态后才能喷发。有时它喷射的时间间隔不太稳定。,Ohio(,俄亥俄)州黄石国家公园中的“,Old Faithful”,间歇喷泉是世界上最著名的间歇喷泉之一。参观者们都希望到公园后不用等多久就能看到喷泉的喷发。,国家公园的服务部门就在喷泉处安装了一个指示牌预报下次喷泉喷发的时间如下表所示。,上一页,下一页,返回本节首页,58,第三章 数据描述与分析,开始时间,持续时间,预测区间,预测下一次喷发时间,6:35,1分,55秒,58分,7:33,am,7:32,接近4秒,82分,8:54,am,8:59,1分,51秒,58分,9:57,am,10:12,4分,33秒,89分,11:41,am,11:46,1分,42秒,58分,12:44,am,中午吃饭,2:06,1分,41秒,55分,3:01,am,注:数据来源:应用线性回归第二版,作者:,S,Weisberg,。,“,Old Faithful”,间歇喷泉喷发时间表,上一页,下一页,返回本节首页,59,第三章 数据描述与分析,那么,公园是如何得到这个结果的呢?为了了解,喷泉喷发间隔时间的规律,以1978年8月至1979年,8月间喷泉222次喷发)的间隔时间记录为样本(见上,表)进行分析。,打开”第三章 数据描述分析.,xls,”,工作簿,“喷泉“工作表。,单击“工具”菜单,选择“数据分析”选项,打开“直方图”对话框。,在输入区域输入单元格,C1:C223,,选择“标志”,在输出区域中输入单元格“,D1”,,选择“图表输出”,单击“确定”按钮。,上一页,下一页,返回本节首页,60,第三章 数据描述与分析,将所得的直方图进行修饰,便得到下图:,从图中可以看出,喷泉喷发的间隔时间一般在40100分钟内变,动。但是,在数据中明显地存在两个子群,它们的中心大约分,别在喷发间隔55分钟和80分钟,这样在图形中间形成一个缺口。,然而我们利用描述统计分析工具所得的结果与此便大不一样。,上一页,下一页,返回本节首页,61,第三章 数据描述与分析,利用描述统计分析工具分析该喷泉的间隔时间,,方法如下:,打开“第三章 数据描述分析.,xls,”,工作簿,选择“喷泉”工作表。,从“工具”菜单中选择“数据分析”选项,打开“描述统计”对话框。,在输入区域中输入“,C1:C223”,,选择标志位于第一行。“输出区域”选择,D19。,选择“汇总统计”和“平均数置信度”,单击“确定”按钮,结果如下表所示。,上一页,下一页,返回本节首页,62,第三章 数据描述与分析,“,Old,Faithfaul,”,喷泉间隔时间描述统计表,(表一,) (,表二),统计指标,数值,平均数,71.00901,标准误差,0.859024,中位数,75,众差,75,标准差,12.799018,样本方差,163.8189,峰度,-0.48552,统计指标,数值,偏度,-,0.48552,全距,53,最小值,42,最大值,95,合计,15764,单位数,222,置信度,1.692928,上一页,下一页,返回本节首页,63,第三章 数据描述与分析,由于描述统计指标的概括性与抽象性,容易使人对事物的真实情况产生误解。例如:从上表中可以看出平均间隔时间大约为71分钟。事实上,间歇时间大致呈现双峰分布,因而这一平均数并不能确切描述上述两个子群中任何一个子群的特征。,按喷发持续的时间将观察值分成两组,可以对两种喷,发的不同特性在更多细节上作出检测。下表是以喷发,持续的时间是少于还是大于3分钟为依据分组,分别列,出喷发间歇时间的主要统计指标。,上一页,下一页,返回本节首页,64,第三章 数据描述与分析,喷泉喷发间歇时间的主要描述统计指标,间歇时间,统计指标,喷发时间3分钟,样本数,67,155,平均数,54.463,78.161,标准差,6.2989,6.8911,最小值,42.000,53.000,中位数,53.000,78.000,最大值,78.000,95.000,上一页,下一页,返回本节首页,65,第三章 数据描述与分析,根据上述统计指标和图表,可以得出一个简单的预测规律:一个持续时间少于3分钟的喷发将必然伴随着一个大约55分钟的间歇;一个持续时间大于3分钟的喷发将必然伴随着一个大约80分钟的间歇。并且,后者这种较长的间歇发生的可能性为67%。,这样,通过一个非常简单的规则,国家公园的工作人员能够保证来黄石公园的游客不用等很长时间就会观看到“旧费尔斯福”间歇喷泉的喷发。,上一页,下一页,返回本节首页,66,第三章 数据描述与分析,那么,如何帮助游客呢?这里有两个重要事实:一,是的确存在两个有区别的子群;二是每次较长时间的,喷发都伴随着一个较长时间的间歇。,J.S.Rinehart,在1969,年地理研究杂志中的一篇论文中,对这种类型的,问题提供了一种解释。当间歇喷泉顶部的水达到沸点,是以其管状部分底部的水温为基础的。较短时间的喷,发将伴随着较短时间的间歇,这和,Rinehart,模型是一致,的。因为短期喷发的特征是较多的水在喷泉底部被加,热,较少的水达到沸点并留在管状部分。由于喷泉底,部较多的水已被加热,所以用不了多少时间下次喷发,就会发生。长期喷发会导致喷泉管状部分是空的,所,以喷泉底部的水必须从较低的温度被加热,因此就会,花费较长时间。,上一页,下一页,返回本节首页,67,第三章 数据描述与分析,Thank you very much!,谢谢!,上一页,退出,返回本章首页,68,第三章 数据描述与分析,
展开阅读全文