数据分布特征的描述.ppt

资源描述

管理统计学,第四章,第四章数据分布特征的描述,第一节统计变量集中趋势的测定第二节统计变量离散程度的测定第三节变量分布的偏度与峰度,第一节统计变量集中趋势的测定,一、测定集中趋势的指标及其作用二、数值平均数三、众数与中位数,一、测定集中趋势的指标及其作用,集中趋势(Central tendency) 较大和较小的观测值出现的频率比较低，大多数观测值密集分布在中心附近，使得全部数据呈现出向中心聚集或靠拢的态势。,测度集中趋势的指标有两大类：数值平均数是根据全部数据计算得到的代表值，主要有算术平均数、调和平均数及几何平均数；位置代表值根据数据所处位置直接观察、或根据与特定位置有关的部分数据来确定的代表值，主要有众数和中位数。,测定集中趋势指标的作用,1反映变量分布的集中趋势和一般水平。如用平均工资了解职工工资分布的中心，反映职工工资的一般水平。 2可用来比较同一现象在不同空间或不同阶段的发展水平。不受总体规模大小的影响，在一定程度上使偶然因素的影响相互抵消。 3可用来分析现象之间的依存关系。如研究劳动者的文化程度与收入的关系 4平均指标也是统计推断中的一个重要统计量，是进行统计推断的基础。,二、数值平均数,（一）算术平均数（均值）一组数据的总和除以这组数据的项数所得的结果; 最常用的数值平均数。 1简单算术平均数把每项数据直接加总后除以它们的项数。通常用于对未分组的数据计算算术平均数。计算公式：,例 4-1,解：采用简单算术平均法计算，即全体队员的平均年龄为（单位：周岁）：,若采用简单平均：,分组数据不能简单平均！因为各组变量值的次数不等！,2加权算术平均数,加权算术平均数的计算公式：,正确的计算是：,加权为了体现各变量值轻重不同的影响作用，对各个变量值赋予不尽相同的权数（fi ）.,权数（fi ，也称权重）,权数指在计算总体平均数或综合水平的过程中对各个数据起着权衡轻重作用的变量。可以是绝对数形式，也可以是比重形式（如频率）来表示。事实上比重权数更能够直接表明权数的权衡轻重作用的实质。当权数完全相等（f1 =f2 = fn）时，加权算术平均数就成了简单算术平均数。,3由组距数列计算算术平均数,要点：各组变量值用组中值来代表。假定条件是各组内数据呈均匀分布或对称分布。计算结果是近似值 .,解：平均使用寿命为：,4对相对数求算术平均数,由于各个相对数的对比基础不同，采用简单算术平均通常不合理，需要加权。,权数的选择必须符合该相对数本身的计算公式。权数通常为该相对数的分母指标。,5算术平均数的主要数学性质,（1）算术平均数与变量值个数的乘积等于各个变量值的总和。,（2）各变量值与算术平均数的离差之总和等于零。,（3）各变量值与算术平均数的离差平方之总和为最小。,（二）调和平均数（Harmonic mean）,调和平均数也称为倒数平均数。各变量值的倒数（1/xi）的算术平均数的倒数. 其计算公式为：,（续）,社会经济统计中所应用的调和平均数通常是加权算术平均数的变形，已知各组变量值 xi 和（xi fi）而缺乏 fi 时，加权算术平均数通常可变形为调和平均数形式来计算。【例4-4】解：,（三）几何平均数（Geometric mean）,几何平均数 n个变量值连乘积的n次方根。简单几何平均数,加权几何平均数,适用于各个变量值之间存在连乘积关系的场合。主要用于计算现象的平均发展速度，也适用于对某些具有环比性质的比率求平均.,【例4-5】,某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业各加工工序的合格率分别为88、85、90、92、96，试求这五道工序的平均合格率。解：本例中各工序的合格率具有环比的性质，企业产品的总合格率等于各工序合格率之连乘积。所以，所求的平均合格率应为：,三、众数与中位数,（一）众数（Mode）众数是一组数据中出现频数最多、频率最高的变量值，常用 M0 表示。如表4-2中年龄的众数值MO25。众数代表的是最常见、最普遍的状况，是对现象集中趋势的度量。可用来测度定性变量的集中趋势；销售量最大的产品颜色是“白色”，则有M0“白色” 可以度量定量变量的集中趋势。从分布曲线的角度看，众数就是变量分布曲线的最高峰所对应的变量值。,组距数列中众数的确定,先找到众数组。在等距数列中，众数组就是次数最多的组；在异距数列中，众数组应是频数密度最大的组。根据众数组与其相邻两组的次数差来推算。其近似公式为：,下限公式：,上限公式：,（二）中位数（Median）,中位数是将数据由小到大排列后位置居中的数值。,由未分组数据计算中位数若数据项数是奇数，则正好位于中间的数值就是中位数；如5人收入为: 1200,1450,1500,1600,2000元，则收入的中位数 Me =1500。若数据项数是偶数，则取居中两个数值的平均数为中位数. 如6人收入为: 1200,1450,1500,1600, 1800,2000元，则收入的中位数 Me =1550。,由组距数据计算中位数,先确定中位数组，即中间位置（用f/2来计算）所在的组。假定中位数组内次数均匀分布（次数与变量值的区间大小成比例），近似推算中位数的值。计算公式为：,下限公式：,上限公式：,四分位数、十分位数和百分位数,四分位数是将数据由小到大排序后，位于全部数据1/4位置上的数值。十分位数是将数据由小到大排序后，位于全部数据1/10位置上的数值。百分位数是将数据由小到大排序后，位于全部数据1/100位置上的数值。中位数也就是第二个四分位数、第五个十分位数、第五十个百分位数。分位数与其它指标结合，可以更详细地反映数据的分布特征。,箱线图（boxplot）,箱线图由一组数据的最小值（xmin）、第一四分位数(Q1)、中位数(Me)、第三四分位数(Q3)、最大值（xmax）等五个数值来绘成。利用箱线图可以观察数据分布的范围、中心位置和对称性等特征，还可以进行多组数据分布的比较。,（三）众数、中位数和算术平均数的比较,1.算术平均数综合反映了全部数据的信息，众数和中位数由数据分布的特定位置所确定。 2.算术平均数和中位数在任何一组数据中都存在而且具有惟一性，但计算和应用众数有两个前提条件：（1）数据项数众多；（2）数据具有明显的集中趋势。 3.算术平均数只能用于定量（数值型）数据，中位数适用于定序数据和定量数据，众数适用于所有形式（类型、计量层次）的数据,（续）,4.算术平均数要受数据中极端值的影响。而众数和中位数都不受极端值的影响。为了排除极端值的干扰，可计算切尾均值，即去掉数据中最大和最小的若干项数值后计算的均值. 切尾均值是将均值与中位数取长补短的结果。 5. 算术平均数可以推算总体的有关总量指标，而中位数和众数则不宜用作此类推算。,算术平均数和众数、中位数的数量关系,在对称分布中，三者相等.即：均值 = Me =Mo；,在左偏分布中，一般有：均值MeMo,在右偏分布中，一般有：Mo Me 均值。,皮尔生经验公式：在轻微偏态时，三者的近似关系：,第二节统计变量离散程度的测定,一、测定离散程度的指标及其作用二、极差、四分位差和平均差三、方差和标准差四、离散系数五、异众比率,3-27,一则笑话,如果你一只脚放在摄氏 1 度的水里，另一只脚放在摄氏 79 度的水里，平均水温 40 度，你一定感觉很舒服？显然，只了解变量的集中趋势是不够的！,一、测定离散程度的指标及其作用,1.说明数据的分散程度，反映变量的稳定性、均衡性。数据之间差异越大，变量的稳定性或均衡性越差。 2.衡量平均数的代表性。离散程度越大，平均数的代表性就越小。 3. 统计推断的重要依据判别统计推断前提条件是否成立，衡量推断效果好坏的重要尺度。,二、极差、四分位差和平均差,（一）极差（Range）极差是一组数据的最大值（xmax）与最小值（xmin）之差，通常用 R 表示。对于总体数据而言，极差也就是变量变化的范围或幅度大小，故也称为全距。组距数列中，极差最高组的上限-最低组的下限。优缺点：计算简便、含义直观、容易理解。它未考虑数据的中间分布情况，不能充分说明全部数据的差异程度。,（二）四分位差,第3四分位数（Q3）与第1四分位数（Q1）之差，常用Qd表示。计算公式为：实质上是两端各去掉四分之一的数据以后的极差，表示占全部数据一半的中间数据的离散程度。四分位差越大，表示数据离散程度越大。是在一定程度上对极差的一种改进，避免了极端值的干扰。但它对数据差异的反映仍然是不充分的。四分位差是一种顺序统计量，适用于定序数据和定量数据。尤其是当用中位数来测度数据集中趋势时.,四分位差 (例题分析),解：设非常不满意为1,不满意为2, 一般为3, 满意为 4, 非常满意为5 。已知 QL = 不满意 = 2 QU = 一般 = 3 四分位差为 Qd = QU - QL = 3 2 = 1,（三）平均差（Average Deviation）,平均差各个数据与其均值的离差绝对值的算术平均数，反映各个数据与其均值的平均差距，通常以A.D表示。计算公式为：未分组数据：,平均差含义清晰，能全面地反映数据的离散程度。但取离差绝对值进行平均，数学处理上不够方便，在数学性质上也不是最优的。,已分组数据：,平均差 (例题分析),平均差 (例题分析),含义：每一天的销售量平均数相比，平均相差17台,统计函数AVEDEV,三、方差和标准差,1. 方差（Variance）的概念和计算方差是各个数据与其均值的离差平方的算术平均数. 总体方差（2）的计算公式为：未分组数据：,分组数据：,样本方差（通常用 S2 表示）分母应为（n -1）。,标准差（standard Deviation）,标准差方差的算术平方根。总体标准差一般用表示。其计算公式为：未分组数据：,分组数据：,标准差比方差更容易理解。在社会经济现象的统计分析中，标准差比方差的应用更为普遍，经常被用作测度数据与均值差距的标准尺度。,样本标准差（S）分母应为（n-1）。,自由度 (degree of freedom),自由度是指附加给独立的观测值的约束或限制的个数从字面涵义来看，自由度是指一组数据中可以自由取值的个数当样本数据的个数为n时，若样本平均数确定后，则附加给n个观测值的约束个数就是1个，因此只有n-1个数据可以自由取值，其中必有一个数据不能自由取值按着这一逻辑，如果对n个观测值附加的约束个数为k个，自由度则为n-k,自由度 (degree of freedom),样本有3个数值，即x1=2，x2=4，x3=9，则 x = 5。当 x = 5 确定后，x1，x2和x3有两个数据可以自由取值，另一个则不能自由取值，比如x1=6，x2=7，那么x3则必然取2，而不能取其他值为什么样本方差的自由度是n-1呢？因为在计算离差平方和时，必须先求出样本均值x ，而x则是附加给离差平方和的一个约束，因此，计算离差平方和时只有n-1个独立的观测值，而不是n个样本方差用自由度去除，其原因可从多方面解释，从实际应用角度看，在抽样估计中，当用样本方差s2去估计总体方差2时，它是2的无偏估计量,【例4-9】计算平均差和方差、标准差,2.方差的主要数学性质,(3)分组条件下，总体的方差等于组间方差与各组方差平均数之和。,(1)常数的方差等于零。a为常数,则 (2)变量的线性函数的方差等于变量系数的平方乘以变量的方差。设a,b为常数，y=a+bx，则有：,组间方差,各组方差平均数,3.标准化值（Z-score）,标准化值或标准得分也称为Z值。对于来自不同均值和标准差的个体的数据，往往不能直接对比。这就需要将它们转化为同一规格、尺度的数据后再比较。标准化值实际上是将不同均值和标准差的总体都转换为均值为0、标准差为1的总体，将各个体的数据转换为它在其总体中的相对位置。,【例4-10】,解：由于两次考试成绩的均值和标准差不同，每个学生两次考试的成绩不宜直接比较。利用标准化值进行对比，表明第二次考试的成绩更好一些。,假定某班学生先后两个两次进行了难度不同的综合考试，第一次考试成绩的均值和标准差分别为80分和10分，而第二次考试成绩的均值和标准差分别为70分和7分。张三第一、二次考试的成绩分别为92分和80分，那么全班相比较而言，他哪一次考试的成绩更好呢？,4. 对称钟形分布中的3法则,3 法则关于钟形分布的一个近似的或经验的法则：变量值落在 -3，+3范围以外的情况极为少见。因此通常将落在区间-3，+3之外的数据称为异常数据或称为离群点。,经验法则,经验法则表明：当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内在3个标准差之外的数据，在统计上也称为异常值或离群点（outlier）,四、离散系数,前面的各变异指标都是有计量单位的，它们的数值大小不仅取决于数据的离散程度，还要受数据本身水平高低和计量单位的影响。对不同变量（或不同数据组）的离散程度进行比较时，只有当它们的平均水平和计量单位都相同时，才能利用上述变异指标来分析；否则，须利用离散系数来比较它们的离散程度。例如，哪个变量的差异较大：体重，还是身高？例如，体重的差异哪个较大：父亲，还是婴儿？父亲：平均体重=70 kg，标准差=5 kg 婴儿： 5 kg， 1 kg,四、离散系数,离散系数是极差、四分位差、平均差或标准差等变异指标与算术平均数的比率，以相对数的形式表示变异程度。将极差与算术平均数对比得到极差系数，将平均差与算术平均数对比得到平均差系数。最常用的离散系数是就标准差来计算的，称之为标准差系数：离散系数大，说明数据的离散程度大，其平均数的代表性就差；反之亦然.,离散系数 (例题分析),【例】某管理局抽查了所属的8家企业，其产品销售数据如表。试比较产品销售额与销售利润的离散程度,离散系数 (例题分析),结论：计算结果表明，v1v2，说明产品销售额的离散程度小于销售利润的离散程度,五、异众比率,异众比率是指非众数值的次数之和在总次数中所占比重，其公式为：,异众比率越大，非众数组的频数占总频数的比重越大，众数的代表性就越差；异众比率越小，非众数组的频数占总频数的比重越小，众数的代表性就越好。对于顺序数据和数值型数据也可以计算异众比率。,异众比率 (例题分析),解：在所调查的50人当中，购买其他品牌饮料的人数占70%，异众比率比较大。因此，用“可口可乐”代表消费者购买饮料品牌的状况，其代表性不是很好,第三节变量分布的偏度与峰度,一、矩（动差）二、偏度（Skewness）三、峰度（Kurtosis）,3-52,一、矩（动差）,矩（动差）一系列刻画数据分布特征的指标的统称。变量值与数值 a 之离差的 K 次方的平均数称为变量 x 关于 a 的K 阶矩，即：,3-53,K 阶原点矩（当a = 0 时）是数据的K次方的平均数. 一阶原点矩即算术平均数；二阶原点矩即平方平均数。,3-54,K 阶中心矩矩（当a =均值时）是以均值为中心计算的离差 K 次方的平均数 k=1时，称为一阶中心矩，它恒等于0，即 m1=0； k=2时，称为二阶中心矩，也就是方差，即m2=2。,偏态与峰态分布的形状,偏态,峰态,二、偏度（Skewness）,偏度指数据分布的不对称程度或偏斜程度。以对称分布为标准来区分偏态分布又分左偏（负偏）和右偏（正偏）.,偏态 (skewness),统计学家Pearson于1895年首次提出数据分布偏斜程度的测度偏态系数=0为对称分布偏态系数 0为右偏分布偏态系数 0为左偏分布偏态系数大于1或小于-1，被称为高度偏态分布；偏态系数在0.51或-0.5-1之间，被认为是中等偏态分布；偏态系数越接近0，偏斜程度就越低,偏态的测度方法,一般有：,（一）由均值与众数（中位数）之间的关系求偏态系数：,（二）由三个四分位数之间的关系求偏态系数,值域：-1 Sk 1,3-60,偏度系数,（三）利用 3 阶中心矩来计算偏度系数。测定偏度最常用的方法原理：若分布不对称，则 3 阶中心矩不为0。不对此程度愈严重， 3 阶中心矩的绝对值愈大。为消除量纲的影响，可除以3。,三、峰度（Kurtosis）,峰度是指变量的集中程度和分布曲线的陡峭（或平坦）的程度。对峰度的度量通常以正态分布曲线为比较标准，分为正态峰度、尖顶峰度和平顶峰度.,尖顶峰度的分布曲线比正态分布曲线更加尖峭、更高更窄；平顶峰度的分布曲线比正态分配曲线更为平缓、更低更扁平。,峰度系数,原理：分布曲线的尖峭程度与偶数阶中心矩的数值大小有直接关系。以四阶中心矩m4为基础，为了消除量纲的影响，再除以标准差的四次方4所得到的相对数即可衡量峰度。,当K=0时，分布曲线为正态曲线；当K0时，为尖顶曲线，表示数据比正态分布更集中在均值附近；K的数值越大，则变量分布曲线之顶端越尖峭；当K0时，为平顶曲线，表示数据比正态分布更分散；K的数值越小，则变量分布曲线之顶端越平坦。,对于正态分布曲线有： m4 /4=3，故峰度系数为：,【例4-13】,根据表4-3的数据，计算使用寿命分布的偏度系数和峰度系数。解：,计算结果表明，偏度系数几乎为0，峰度系数略小于0，说明该产品使用寿命的分布十分接近对称分布，分布曲线顶峰略比正态分布平坦一些。总的说来，该产品的使用寿命的分布非常接近正态分布。,数据分布特征和描述统计量,本章小结,测度集中趋势的各指标的含义、计算方法、特点和应用场合测度离散程度的各指标的含义、计算方法、特点和应用场合偏度与峰度的含义和测度方法利用 Excel 计算描述统计量,思考题：,一组数据的分布特征可以从哪几个方面进行测度？怎样理解均值在统计学中的地位？简述四分位数的计算方法。简述众数、中位数和均值的特点和应用场合。简述异众比率、四分位差、方差或标准差的适用场合。标准分数由哪些用途？为什么要计算离散系数？测度数据分布形状的统计量有哪些？,练习题：,1、抽查某系30个教工，年龄如下所示： 63、61、54、57、53、56、40、38、33、33、45、28、22、23、23、24、22、21、21、45、42、36、36、35、28、25、37、35、42、35 （1）求样本均值、样本方差、样本中位数、极差、众数（2）将样本分为7组，且组距相同。作出列表数据和直方图（3）根据分组数据求样本均值、样本方差、样本中位数和众数,求样本均值、样本方差、众数和样本标准差。,2、某工厂统计了100天内的不合格产品如下：,（1）作出直方图（2）求样本均值，样本方差，众数和中位数,3、管理统计学课程的成绩分布如下：,4、运输公司汽车一周内的行驶公里抽样数据如下： 1400、1640、1500、2000、980、1250、950、2400、1500、1200、3550、4000、2100、1700、1200、3000 求极差，四分位数偏差，标准差和中位数,

展开阅读全文