数据统计方法

上传人:h****M 文档编号:89042533 上传时间:2022-05-12 格式:DOC 页数:25 大小:1.32MB
返回 下载 相关 举报
数据统计方法_第1页
第1页 / 共25页
数据统计方法_第2页
第2页 / 共25页
数据统计方法_第3页
第3页 / 共25页
点击查看更多>>
资源描述
.第一节 统计数据的位置特征统计数据的位置特征是对一组统计数据集中趋势和平均水平的度量,通常将位置特征的度量称为平均指标。常用来表述统计数据位置特征的平均指标有两类:数值平均数和位置平均数。数值平均数主要有算数平均数、调和平均数和几何平均数。位置平均数主要有中位数和众数。分析、研究一组统计数据的集中趋势,就是寻找该组数据一般水平的代表值。一、数值平均数数值平均数是全部数据的平均值。主要有三种形式:算术平均数、调和平均数和几何平均数。(一)算术平均数算术平均数是对一组数据中心位置的度量。可分为简单算术平均数和加权算术平均数两种。1. 简单算术平均数适用未分组数据,计算公式为:(3.1)式中,(或) 简单算数平均数; 第项的数据值; 数据的项数。例 3.1 假设某商场 200 名职工月销售额的统计资料如表 .1 所示,试求该商场200 名职工月平均销售额。1/25.解 根据表中资料, 200 名职工月平均销售额为:2. 加权算数平均数适用未分组数据,计算公式为:(3.2)式中,(或) 加权算术平均数; 第组的数据值或组中值;2/25. 第组的数据值或组中值出现的次数; 分组的组数。例 3.2 将表 .1 的某商场 200 名职工月销售额的统计资料编制成表 3.2 的分组资料形式。表 3.2 200 名职工月销售额的分组资料单位:万元解 根据表 3.2 中资料,按分组资料估计 200 名职工月平均销售额应采用加权算术平均数方法,计算过程列表如下:单位:万元于是, 200 名职工月平均销售额为:3/25.(二)调和平均数调和平均数又称“倒数平均数”, 它是数据倒数的算术平均数的倒数。当在实际工作中所采集的数据不能直接应用算术平均数的计算公式时, 可利用调和平均数来度量一组数据的中心位置。1. 简单调和平均数适用未分组数据,计算公式为:(3.3)例 3.3假设 4 个企业的每万元工业产值耗能源的统计资料如下:试求: 4 个企业的平均能耗。解 每万元工业产值耗能源是逆指标,在计算平均水平时应采用调和平均数方法。2. 加权调和平均数适用分组数据,计算公式为:(3.4)4/25.例 3.4假设某企业某月按工人劳动生产率分组的统计资料如表3.3 所示,试求该企业工人平均劳动生产率。表 3.3按工人劳动生产率分组按工人劳动生产率分组(件/人)生产班组各组产量 ( 件)50-60108250060-7086500070-8055250080-9022550090 - 100115200解 首先求出各组的组中值,然后求出各组工人数,采用加权调和平均数方法计算平均水平。计算过程列表如下:注意,生产班组数虽然是不同的劳动生产率各个组的次数,但它和分组的组中值相乘无任何实际意义,因此它不能做权数。(三)几何平均数主要用于计算比率或者速度的平均,用表示。1. 简单几何平均数适用未分组数据,计算公式为:5/25.例 3.5 假设某工厂生产的产品要经过 3 道连续作业的工序,每道工序的合格率依次为 95 %、90 % 和 98 %,试求 3 道工序的平均合格率。解 因为产品的总合格率是各道工序合格率的连乘积,所以计算3 道工序的平均合格率应采用几何平均数方法。2. 加权几何平均数适用分组数据,计算公式为:例 4.6 假设某投资银行 10 年期的投资年利率是按复利计算的,年利率的分配情况为:第 1、 2 年为 3 %,第 3 至第 5 年为 5 %,第 6 至第 10 年为 8 %。求平均年利率。解 首先采用加权几何平均数方法计算平均年本利率。于是,得平均年利率为。二、位置平均数位置平均数是根据其在全部数据中所处的位置确定的平均值。主要有二种形式:中位数和众数。(一)中位数中位数是将全部数据项按从小到大顺序排列后,处于中间位置的数据值,用表示。6/25.1.未分组数据计算步骤为:第一步,将一组数据, ,按从小到大的顺序排列后,不妨表示为, ,;第二步,确定中位数的位次。式中,为数据的项数;第三步,确定中位数的数值,计算公式为(3.7)例 3.7 根据表 3.1 的未分组数据,计算200 名职工月销售额的中位数。解 首先将全部数据项按从小到大顺序排列后,得表3.4。表 3.4200 名职工月销售额按从小到大顺序排列单位:万元5698126140154168175189210238569812614015416817518921023863101.5126140157.5171.5175192.521024166.5101.5126140157.5171.5175192.521024170105126140157.5171.5175196210241.570105129.5140161171.517519621024570105133140161175182196210245701051331401611751821962102457710513314016117518219621024580.5105133140164.517518219621724581105133143.51681751822032172528411213314716817518220321725984112136.514716817518220321727387.5112136.514716817518220322427387.5112136.5147168175182206.522427391112136.5154168175182206.52242807/25.91119136.5154168175182206.522428098119136.5154168175185.5206.522428098122.514015416817518921022430898122.5140154168175189210231315因为 n=200 为偶数,根据公式(3.7),中位数为第100 项和第 101 项数据的算数平均数,2.分组数据计算步骤为:第一步,确定中位数的位次。式中,各组次数总和;第二步,确定中位数所在组。从第一组开始计算累计次数,当累计次数大于时,该组即为中位数所在组;第三步,确定中位数的数值,计算公式为(3.8)式中, 中位数所在组的下限值; 中位数所在组的次数; 各组次数总和;8/25. 中位数所在组以前各组的次数之和; 中位数所在组的组距。例 3.8 根据表 3.2 的分组数据,计算200 名职工月销售额的中位数。解从第一组开始累计到第4 组时,累计职工人数为142 人, 所以第 4 组为中位数所在组。于是中位数为(二)众数众数是一组数据中出现次数最多的数据值,用表示。1. 未分组数据对于未分组数据,直接找出出现次数最多的数据值即可。例 3.9 根据表 3.1 的未分组数据,计算 200 名职工月销售额的众数。解 首先将全部数据项按从小到大顺序排列后,得表 3.4 。从表 3.4 可以看出,在 200 名职工中,有 20 名职工的月销售额为 168 万元,次数最多,因此这组数据的众数为:(万元)。2. 分组数据计算步骤为:第一步,确定众数所在的组,即在分组数据中出现次数最多的一组为众数组;第二步,确定众数的数值,计算公式为:9/25.(3.9)式中, 众数组的下限值; 众数组的次数与下一组的次数之差; 众数组的次数与上一组的次数之差; 众数组的组距。例 3.10 根据表 3.2 的分组数据,计算 200 名职工月销售额的众数。解 因为第 4 组的职工人数最多,为 60 人,所以第 4 组为众数组。将有关数据代入公式( 3.9)中,得到众数为第二节 统计数据的散布特征统计数据的散布特征是对一组数据变异程度和离散趋势的度量,它反映了各数据值远离其中心位置的程度,通常称散布特征的度量为标志变异指标。常用来表述一组统计数据散布特征的变异指标有:全距、平均差、方差、标准差和变异系数等。分析、研究一组统计数据的离散趋势,是衡量一组数据平均指标代表性的重要方法。一、全距10/25.例 3.11 根据表 3.4 ,计算 200 名职工月销售额的全距。解 因为表 3.4 是职工月销售额按从小到大顺序排列的数据,所以直接得全距为(万元)。二、平均差平均差,也称平均离差,是各个数据值与其平均值的离差绝对值的平均数,用 A.D. 表示。未分组数据(3.11)式中, 简单平均差; 第项的数据值; 全部数据的算数平均数; 数据的项数。例 3.12 根据表 3.1 的未分组数据,计算 200 名职工月销售额的平均差。解 由例 3.1 得知,于是 200 名职工月销售额的平均差为:(二)分组数据计算公式为:11/25.(3.12)式中, 加权平均差; 第组的数据值或组中值; 全部数据的算数平均数; 第组的数据值或组中值出现的次数; 分组的组数。例 3.13 根据表 3.2 的分组数据,计算 200 名职工月销售额的平均差。解 按分组数据估计 200 名职工月销售额的平均差,应采用加权平均差方法,计算过程列表如下:于是, 200 名职工月销售额的平均差为:三、方差和标准差12/25.方差是各个数据值与其平均值离差的平方的平均数;用表示。标准差是方差的平方根,用表示。(一)未分组数据(3.13)和(3.14)式中,和 分别为方差和标准差; 第项的数据值; 全部数据的算数平均数; 数据的项数。方差的性质(3.15)即,方差等于数据平方的平均值减去数据平均值的平方,这一性质常用于简化方差的计算。例 3.14 根据表 3.1 的未分组数据,计算200 名职工月销售额的方差和标准差。13/25.解 由例 3.1 得知,于是 200 名职工月销售额的方差为:(二)分组数据对于分组数据,方差、标准差的计算公式分别为:和(3.17)式中,和 分别为方差和标准差; 第项的数据值或组中值; 全部数据的算数平均数; 第组的数据值或组中值出现的次数; 分组的组数。例 3.15 根据表 3.2 的分组数据,估算200 名职工月销售额的方差和标准差。14/25.解 按分组数据估计 200 名职工月销售额的方差和标准差,应采用加权的计算方法,计算过程列表如下:200 名职工月销售额的方差为:四、标准差系数全距、平均差、方差和标准差都是反映一组数据变异程度的绝对指标,其数值的大小不仅与这组数据本身水平高低有关,而且还取决于数据的计量单位。 为了对比分析不同平均水平和不同计量单位的数据组之间的变异程度,不宜直接通过上述变异指标来比较其变异程度。为消除平均水平高低和计量单位不同的影响,需要计算变异系数。变异系数是一组数据的变异指标与其平均指标之比,它是一个相对变异指标。变异系数有全距系数、平均差系数和标准差系数等。常用的是标准差系数,用表示,计算公式为:(3.18)15/25.例如,根据表 3.1 的未分组数据,计算的标准差系数为根据表 3.2 的分组数据,计算的标准差系数为例 3.16某县 2 个乡的小麦产量的有关数据如下表所示:试比较 2 个乡小麦产量的变异程度。解 甲乡的标准差系数为:乙乡的标准差系数为:,似乎甲乡的变异程度较小, 其平均指标的代表性高于乙乡;但从变异系数看,所以乙乡的变异程度低于甲乡,说明乙乡的小麦平均亩产量具有较大的代表性。第三节 统计数据的形态特征统计数据的形态特征是对一组统计数据分布的对称(或偏斜)程度和陡峭(或扁平)程度的度量,是反映一组统计数据分布形状的重要指标。常用来表述一组统计数据形态特征的指标有:偏度和峰度。偏度和峰度是通过矩来定义的。一、矩16/25.在力学和物理学中,矩用来描述质量的分布;在统计学中,矩用来描述统计数据的分布。例如,算术平均数、方差、标准差和平均差等都是矩,变异系数也是通过矩来计算的。因此,矩是描述统计数据分布特征的一类数字特征。常用的矩有两大类:原点矩和中心矩。(一)原点矩1. 未分组数据,阶原点矩的计算公式为:( 3.19 )式中,阶原点矩; 第项的数据值; 任意实数,原点矩的阶数; 数据的项数。2.分组数据,阶原点矩的计算公式为:(3.20)式中,阶原点矩; 第组的数据值或组中值; 第组的数据值或组中值出现的次数; 任意实数,原点矩的阶数;17/25. 分组的组数。显然,即算数平均数是1 阶原点矩。(二)中心矩1. 未分组数据,阶中心矩的计算公式为:(3.21)式中,阶中心矩; 第项的数据值; 全部数据的算数平均数; 任意实数,中心矩的阶数; 数据的项数。2.分组数据,阶中心矩的计算公式为:(3.22)其中,阶中心矩; 第组的数据值或组中值; 全部数据的算数平均数;18/25. 第组的数据值或组中值出现的次数; 任意实数,中心矩的阶数; 分组的组数。显然,即方差是 2 阶中心矩。3. 原点矩与中心矩的换算公式常用的前 4 阶矩的换算公式如下:二、偏度偏度,亦称偏态、偏态系数等, 是统计数据分布偏斜方向和程度的度量, 是统计数据分布非对称程度的数字特征。偏度是利用 3 阶矩定义的,偏度的计算公式为:(3.23)式中, 偏度; 3 阶中心矩; 标准差。19/25.在一般情形下,当统计数据为右偏分布时,且值越大,右偏程度越高;当统计数据为左偏分布时,且值越小,左偏程度越高。当统计数据为对称分布时,显然有。例 3.17 根据表 3.1 的未分组数据,计算 200 名职工月销售额的偏度。于是有最后得偏度为三、峰度4 阶矩定义的,峰度的计算公式为:(3.24)式中, 峰度; 4 阶中心矩; 标准差。将统计数据的分布形态与正态分布加以比较,在一般情形下,如果统计数据的分布较正态分布更加陡峭时,则,称为尖顶(尖峰)分布,且值越大,分布的形状越20/25.陡峭;如果统计数据的分布较正态分布更加平坦时,则,称为平顶(平峰)分布,且值越小,分布的形状越平坦;当统计数据为正态分布时,显然有。例 3.18根据表 3.1 的未分组数据,计算200 名职工月销售额的峰度。附录:用 Excel 计算描述统计量通过本附录的学习, 我们将学会利用 Excel 提供的各种统计函数和 “数据分析 ”宏程序中的 “描述统计 ” 过程,计算描述统计量的方法。一、利用“描述统计”过程计算例 1 某电脑公司四月份电脑销售量数据(单位:台)如下:257271272276292284297261268252281304237300272311275262240265311235280250261291270278260297步骤一:输入数据。打开Excel 工作簿,分别在A1至 A30这 30 个单元格内输入上述数据。步骤二:利用“描述统计”过程计算。1.选择“工具”下拉菜单。2. 选择“数据分析”选项。(如无此选项,可利用第二章附录中介绍的“加载宏”的方法予以加载。)3. 在数据分析工具中选择“描述统计”。出现描述统计对话框,如下图:21/25. 在“输入区域”方框中键入A1: A30; 在“输出区域”方框中键入输出区域第一个起始单元格的地址B1; 选择“汇总统计”、“平均数置信度”; 在“第 K 个最大值”和“第 K 个最小值”中,选择系统默认值“ 1”(表示选择输出第 1 个最大值和第 1 个最小值);单击“确定”按钮。计算结果如下:Excel 计算的月销售额的描述统计量22/25.二、利用统计函数完成描述统计(一)一般统计1. 求和。格式如下:。例 2 以上题为例,求 A1:A30 的和。解 打开存储上例数据的 Excel 文件; 单击任意一个单元格(本例中为E1); 输入公式“”,回车确定即可,结果为8210。2. 求最大值。格式如下:。3. 求最小值。格式如下:。(二)集中趋势统计1. 求算术平均值。23/25.格式如下:。例 3 计算 1,2, 3, 4, 5, 6, 7, 8, 9 的平均值。解 在 Excel 中单击任意单元格,输入公式:“”,结果为 5。2.求中位数。格式如下:。3.求众数。格式如下:。其他的集中趋势函数还有几何平均数,调和平均数,其格式同上。4.求四分位数。格式如下:数组 ,分位点。其中:数组可为数值数组或单元格范围;分位点为计算四分位数的分割点数字。分位点作用与意义0得到最小值1计算第一四分位数(即第25 百分位数)2计算中位数(即第 50 百分位数)3计算第三四分位数(即第75 百分位数)4得到最大值例 4 求数组 5,2,4,9,7,15, 12,8,6的第三四分位数。解 在 Excel 中单击任意单元格,输入公式:“5, 2, 4, 9, 7, 15,12, 8, 6,3”,结果为 9。5.求百分位数。格式如下:数组 ,K 百分位数点。表示求一个数组的第 K 个百分位数的值,其中:数组可为数值数组或单元格范围; K 百分位数点以百分比值表示,它介于 0 至 1 之间。例 5 求数组 6, 7, 3, 9, 5, 1,12,8,15的第八十个百分位数。24/25.解 在 Excel 中单击任意单元格,输入公式:“6,7, 3, 9, 5, 1, 12,8,15,”, 结果为 9.6 。 9.6即为数组的第八十个百分位数的值。(三)离散程度统计1.求平均差。格式如下:2.求方差。格式如下:3.求峰度。格式如下:4.求偏度。格式如下:25/25
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!