数据分布特征的测度.ppt

上传人:max****ui 文档编号:14551902 上传时间:2020-07-23 格式:PPT 页数:198 大小:3.39MB
返回 下载 相关 举报
数据分布特征的测度.ppt_第1页
第1页 / 共198页
数据分布特征的测度.ppt_第2页
第2页 / 共198页
数据分布特征的测度.ppt_第3页
第3页 / 共198页
点击查看更多>>
资源描述
2008.1,安徽财经大学统计与应用数学学院,统计实例 (Statistics in Practice),通过本章的学习,我们将明白相关指标的真实内涵,把握其计算方法,有助于我们从数据中挖掘出有价值的信息。,统计学第4章 数据分布特征的测度,返回,STAT,2008.1,安徽财经大学统计与应用数学学院,第 一 节 集中趋势的测度,第 二 节 离散程度的测度,第 三 节 分布偏态与峰度的测度,第 四 章 数据分布特征的测度,统计学第4章 数据分布特征的测度,返回,STAT,要点,2008.1,安徽财经大学统计与应用数学学院,15 12 9 6 3,80 90 100 110 120 130,频数分布表、图:,统计学第4章 数据分布特征的测度,STAT,2008.1,安徽财经大学统计与应用数学学院,统计资料经过加工整理形成分布数列后,我们对数据分布的类型和特征有了一个直观的了解。然而,要作进一步的统计分析仅靠这些直观了解是远远不够的,我们还需要使用代表性的数量特征值来准确地描述统计数据的分布 ,以便对不同的研究对象进行分析研究。,统计学第4章 数据分布特征的测度,返回,STAT,2008.1,安徽财经大学统计与应用数学学院,描述指标的分类: 在学习本章之前,首先应概括了解描述数据分布特征的测度值(指标)都有哪些。对统计数据的分布特征,可以从以下方面进行测度和描述:,描述数据分布集中趋势的指标反映各数据向其中心值靠拢或聚集的程度; 描述数据分布离散程度的指标反映各数据远离其中心值的趋势; 描述分布偏斜程度的指标反映数据分布的形状。,统计学第4章 数据分布特征的测度,返回,STAT,2008.1,安徽财经大学统计与应用数学学院,学习目的与要求:,通过本章学习,掌握平均指标与变异指标的计算方法、应用条件,平均指标与变异指标的关系。,统计学第4章 数据分布特征的测度,返回,STAT,2008.1,安徽财经大学统计与应用数学学院,统计学第4章 数据分布特征的测度,返回,数值平均数,位置平均数,平均指标,集中趋势,集中趋势的含义,测定集中趋势的作用,第一节 集中趋势的测度,STAT,2008.1,安徽财经大学统计与应用数学学院,统计学第4章 数据分布特征的测度,返回,STAT,集中趋势,指总体中各单位的次数分布从两边向中间集中的趋势。 在分布数列中,越靠近中间水平,标志值出现的次数越多,而远离中间水平的较少。 对集中趋势进行测度就是寻找总体一般水平的中心值或代表值。,一、集中趋势的含义,2008.1,安徽财经大学统计与应用数学学院,统计学第4章 数据分布特征的测度,返回,STAT,集中趋势,二、测定集中趋势的作用,2008.1,安徽财经大学统计与应用数学学院,统计学第4章 数据分布特征的测度,数值平均数,位置平均数,平均指标,测定集中趋势的意义,平均指标的概念,数值平均数与位置平均数,第一节 集中趋势的测度,返回,STAT,2008.1,安徽财经大学统计与应用数学学院,统计学第4章 数据分布特征的测度,返回,STAT,平均指标,一、平均指标的概念,它是同质总体内各个个体某一数量标志在一定时间、地点、条件下所达到的一般水平。又称平均数。,平均指标是统计中广泛应用的一种综合指标。,2008.1,安徽财经大学统计与应用数学学院,统计学第4章 数据分布特征的测度,返回,STAT,平均指标,二、数值平均数与位置平均数,取得集中趋势代表值(即平均数)的方法通常有两种:一是从总体各单位标志值中抽象出具有一般水平的量(根据总体所有标志值计算),这个量不是各个单位的具体标志值,但又要反映总体各单位的一般水平,这种平均数称为数值平均数。数值平均数有算术平均数、调和平均数、几何平均数等形式。,二是先将总体各单位的标志值按一定顺序排列,然后取某一位置的标志值来反映总体各单位的一般水平(根据标志值所处的位置确定),把这个特殊位置上的数值看作是平均数,称作位置平均数。位置平均数有众数、中位数、四分位数等形式。,2008.1,安徽财经大学统计与应用数学学院,数值平均数,位置平均数,平均指标的概念,测定集中趋势的意义,算术平均数,调和平均数,几何平均数,统计学第4章 数据分布特征的测度,第一节 集中趋势的测度,返回,STAT,2008.1,安徽财经大学统计与应用数学学院,总体中各个体的某个数量标志的总和与个体总数的比值,通常也称为平均数(average)或均值(mean)。一般所称的平均数常指算术平均数。用符号 表示。,集中趋势中最主要的测度值,统计学第4章 数据分布特征的测度,返回,STAT,数值平均数,一、算术平均数,1、基本公式,2008.1,安徽财经大学统计与应用数学学院,算术平均数的基本公式要求,总体标志总量必须依附于总体单位数,即公式的分子是分母具有的标志值,分母是分子的承担者。各标志值与各单位之间是一一对应的。,例: 平均工资=工资总额/职工人数 平均成本=总成本/产量,统计学第4章 数据分布特征的测度,返回,算术平均数,返回,STAT,2008.1,安徽财经大学统计与应用数学学院,2、计算方法 根据总体资料是否分组,算术平均数具体计算方法可分为简单算术平均数和加权算术平均数两种。,统计学第4章 数据分布特征的测度,返回,算术平均数,STAT,2008.1,安徽财经大学统计与应用数学学院,返回,STAT,统计学第4章 数据分布特征的测度,(1)简单算术平均数,如果掌握的资料是总体各单位的标志值,而且没有经过分组,则可先将各单位的标志值相加得出标志总量,然后再除以总体单位数,通过此种方法计算得到的平均数称为简单算术平均数。,算术平均数,2008.1,安徽财经大学统计与应用数学学院,(1)未经分组整理的原始数据计算算术平均数,(2)在变量分配数列中,各组次数都相等,适用条件:,设一组数据为,,则:,统计学第4章 数据分布特征的测度,返回,简单算术平均数,STAT,2008.1,安徽财经大学统计与应用数学学院,06-07第二学期XX班40名学生统计学成绩抄录如下:,89、88、76、99、74、60、82、60、89、86、 92、85、70、93、99、94、82、77、79、97、 78、95、84、79、63、72、87、84、79、65、 98、67、59、83、66、65、73、81、56、77,统计学第4章 数据分布特征的测度,返回,简单算术平均数,06-07第二学期XX班40名学生统计学的平均成绩:,STAT,2008.1,安徽财经大学统计与应用数学学院,简单算术平均数之所以简单,就是因为各个变量值出现的次数相同,因此,只要把各项变量值简单相加再用项数去除就求出平均数了。,统计学第4章 数据分布特征的测度,返回,STAT,简单算术平均数,2008.1,安徽财经大学统计与应用数学学院,某工厂某生产班组有11名工人,各人日产量为15、17、19、20、22、22、23、23、25、26、30件,求平均日产量。 解: =(15+17+19+20+22+22+23+23+25+26+30)/11=22件 开机,2ndF,ON,在0的上方出现STAT 15,M+,17,M+,19,M+,20,M+,22,M+,22 M+ ,23 M+ ,23 M+ ,25 M+ ,26 M+ ,30 M+ ,xM 出现结果22,统计学第4章 数据分布特征的测度,返回,STAT,简单算术平均数,用统计功能计算,2008.1,安徽财经大学统计与应用数学学院,例2:5名工人日产零件数为12,13,14,14,15件,计 算平均每人日产量。 12,M+,13,M+,14,M+,14,M+,15,M+,RM,5,= 计算结果 13.6, 注意:每次开机后按xM键,清内存。,用存储功能算,统计学第4章 数据分布特征的测度,返回,STAT,简单算术平均数,2008.1,安徽财经大学统计与应用数学学院,89、88、76、99、74、60、82、60、89、86、 92、85、70、93、99、94、82、77、79、97、 78、95、84、79、63、72、87、84、79、65、 98、67、59、83、66、65、73、81、56、77,如何计算 平均分数呢?,06-07第二学期XX班统计学成绩,返回,STAT,2008.1,安徽财经大学统计与应用数学学院,(2)加权算术平均数,如果掌握的资料是经过分组整理编成了单项数列或组距数列,并且每组次数不同时,就应采用加权算术平均数的方法计算算术平均数。,统计学第4章 数据分布特征的测度,返回,STAT,算术平均数,2008.1,安徽财经大学统计与应用数学学院,设原始数据被分成n组,各组的变量值分别为 ,各组变量值出现的次数分别为 ,则:,统计学第4章 数据分布特征的测度,返回,STAT,加权算术平均数,2008.1,安徽财经大学统计与应用数学学院,加权算术平均数的适用条件:,在分配数列(单项数列或组距数列)中,各组变量值的,次数不等。,加权算术平均数,统计学第4章 数据分布特征的测度,返回,STAT,2008.1,安徽财经大学统计与应用数学学院,单项式数列的加权算术平均数 基本的具体方法是:将各组标志值分别乘以相应的各组单位数(绝对权数)求出各组标志总量,并加总得到总体标志总量,同时把各组单位数相加求出总体单位总数,然后用总体标志总量除以总体单位总数,即得算术平均数。,统计学第4章 数据分布特征的测度,返回,STAT,加权算术平均数,2008.1,安徽财经大学统计与应用数学学院,例:某企业工人按日产量分组资料如下:,要求:根据资料计算工人的平均日产量。,统计学第4章 数据分布特征的测度,返回,STAT,单项式数列的加权算术平均数,2008.1,安徽财经大学统计与应用数学学院,解:以次数为权数计算:,=(1510+1620+1730+1850+1940)/150 = 17.6(件),以比重为权数计算:,=157%+1613%+1720%+1833%+1927% =17.6(件),统计学第4章 数据分布特征的测度,返回,STAT,单项式数列的加权算术平均数,2008.1,安徽财经大学统计与应用数学学院,成绩 组中值 人数 比重 (cm) (cm ) (人) (%) 50-60 55 2 5 60-70 65 7 17.5 70-80 75 11 27.5 80-90 85 12 30 90-100 95 8 20 总计 40 100,某班统计学成绩资料,组距数列,加权算术平均数,组距数列算术平均数的计算:以组中值代替变量x,尔后按公式计算。,X此时为组中值,因此由此计算出的平均数是近似值。,返回,组距数列的加权算术平均数,次数 f,频率 f/f,变量值 x,2008.1,安徽财经大学统计与应用数学学院,次数 f 的作用:当比较大的变量值的次数多时,平均数就接近于变量值大的一方;当比较小的变量值次数多时,平均数就接近于变量值小的一方。可见,次数对变量值在平均数中的,影响起着某种权衡轻重的作用,因此被称为权数。,统计学第4章 数据分布特征的测度,返回,STAT,权数:指变量数列中各组标志值出现的次数,反映了各组的标志值对平均数的影响程度。 权数有两种表现形式:绝对数权数和比重权数,即频数和频率。,权数的意义,2008.1,安徽财经大学统计与应用数学学院,不同的权数如何影响平均数?,A、B两班各10名学生的考试成绩如下: A: marks(x ): 0 20 100 students(f ):1 1 8 B: marks(x): 0 20 100 students (f ):8 1 1,统计学第4章 数据分布特征的测度,返回,STAT,权数的意义,2008.1,安徽财经大学统计与应用数学学院,选择权数必须体现标志值对平均数的作用的大小,它与各组标志值或组中值相乘必须要有实际意义。如:以学号为权数,计算全班统计学平均分数,则其子项“某组考分代表值 学号”是没有实际意义的。,统计学第4章 数据分布特征的测度,返回,STAT,权数的意义,2008.1,安徽财经大学统计与应用数学学院,又 如,汇率决定理论中的购买力平价方法( )即是对两个国家的一篮子商品的价格所进行的加权平均。,例如,学生成绩的评定,平时成绩占20%,期末,卷面成绩占80%。,统计学第4章 数据分布特征的测度,返回,STAT,权数的意义,2008.1,安徽财经大学统计与应用数学学院,简单算术平均数其数值的大小只与变量值的大小有关。加权算术平均数其数值的大小不仅受各组变量值大小的影响,而且还受各组变量值出现的次数即权数大小的影响。,统计学第4章 数据分布特征的测度,返回,STAT,权数的意义,2008.1,安徽财经大学统计与应用数学学院,当 f1=f2= =f n =A,,如果各组的次数(权数)均相同,即,则权数的权衡轻重作用也就消失了。,算术平均数。,简单算术平均数实质上是加权算术平 均数在权数相等条件下的一个特例。,这时,加权算术平均数会变成简单,统计学第4章 数据分布特征的测度,STAT,简单算术平均数与加权算术平均数,2008.1,安徽财经大学统计与应用数学学院,(1)集中趋势的最常用测度值 (2)一组数据的均衡点所在 (3)体现了数据的必然性特征 (4)易受极端值的影响 (5)用于数值型数据,不能用于分类数据和顺序数据,统计学第4章 数据分布特征的测度,返回,STAT,算术平均数,2008.1,安徽财经大学统计与应用数学学院,练习题:指出下列指标中的算术平均数:,统计学第4章 数据分布特征的测度,返回,STAT,2008.1,安徽财经大学统计与应用数学学院,算术平均数在统计学中有着重要的地位,它是进行统计分析和统计推断的基础,下面有关算术平均数的命题是其重要的,数学性质。,1.算术平均数与总体单位总量的乘积等于总体标志总量。 2.各变量值与算术平均数的离差之和等于零: 3.各变量值与算术平均数的离差平方和为最小值。,(这一性质说明算术平均数是误差最小的总体代表值),统计学第4章 数据分布特征的测度,返回,STAT,算术平均数的数学性质,2008.1,安徽财经大学统计与应用数学学院,1、它是一个抽象化的数值(因为它将总体各单位具体的数量 差异抽象掉了) 2、它是一个代表性数值(因为它用一个数值来代表总体各单位 在具体条件下的一般水平) 3、它是一个特征值(因为它反映了总体分布的集中趋势),和母项具有依存关系。,4、只能对同质总体求平均数,计算平均数所依据的子项,统计学第4章 数据分布特征的测度,返回,STAT,算术平均数的特点,2008.1,安徽财经大学统计与应用数学学院,反映总体各单位变量分布的集中趋势和一般水平。可 用于同类现象在不同空间的对比; 反映同类现象在不同时间的发展水平,可用于同类现 象在不同时间的对比; 作为评判事物的标准; 可进行数量估算。,统计学第4章 数据分布特征的测度,返回,STAT,平均指标的作用,2008.1,安徽财经大学统计与应用数学学院,算术平均数与强度相对数的比较 相同点:均有平均的含义,一般为复名数。 不同点: (1)概念不同。强度相对数是两个有联系而性质不同的总体 对比而形成相对数指标。算术平均数是反映同质总体单位标志 值一般水平的指标。 (2)主要作用不同。强度相对数反映两不同总体现象形成的 密度、强度。算术平均数反映同一现象在同一总体中的一般水 平。,统计学第4章 数据分布特征的测度,返回,STAT,2008.1,安徽财经大学统计与应用数学学院,(3)计算公式及内容不同。算术平均数分子、分母分别是同一总体的标志总量和总体单位数,分子、分母的元素具有一 一对应的关系,而强度相对数是两个总体现象之比,分子分母没有一 一对应关系。 比较:人均粮食消费量、人均粮食产量,统计学第4章 数据分布特征的测度,返回,STAT,2008.1,安徽财经大学统计与应用数学学院,在统计中,经常需要将研究总体中的全部单位区分为非此即彼的两大类,以研究它们之间的比例关系。,统计学第4章 数据分布特征的测度,返回,STAT,成数的平均数,例如,合格品与不合格品,男工与女工等。这类以“是或非”、“有或无”来表述单位特征的标志称为“是非标志”或交替标志其标志表现只有两种情况。具体体现在各总体单位要么具有该种属性,要么不具有该种属性。,2008.1,安徽财经大学统计与应用数学学院,为研究是非标志总体的数量特征,令:,统计学第4章 数据分布特征的测度,返回,(1)是非标志:是非标志又称交替标志,它是一个只有两种标志表现的标志。如:性别只有男、女;一批产品只有合格品、不合格品等就可用是非标志来反映。,STAT,2008.1,安徽财经大学统计与应用数学学院,具有某种标志表现的 单位数所占的成数,不具有某种标志表现 的单位数所占的成数,指是非标志总体中具有某种表现或不具有某种表现的单位数占全部总体单位总数的比重。,统计学第4章 数据分布特征的测度,返回,STAT,成数的平均数,2008.1,安徽财经大学统计与应用数学学院,成数(比率)的平均数,统计学第4章 数据分布特征的测度,返回,成数的平均数,STAT,2008.1,安徽财经大学统计与应用数学学院,统计学第4章 数据分布特征的测度,返回,数值平均数,二、调和平均数,STAT,假定有A、B两家公司员工的月工资资料如下表的前三列。,试分别计算其平均工资。,引例:,2008.1,安徽财经大学统计与应用数学学院,两公司员工工资情况表,统计学第4章 数据分布特征的测度,返回,STAT,调和平均数,2008.1,安徽财经大学统计与应用数学学院,计算A公司的平均工资,得到:,统计学第4章 数据分布特征的测度,返回,STAT,调和平均数,2008.1,安徽财经大学统计与应用数学学院,在这里,平均工资作为“单位标志平均数”仍然必须是标志总量(工资总额)与单位总数(员工总数)之比。依据给出的月工资水平和工资总额的分组资料,可以首先用前者来除后者,得到各组的员工人数,进而加总得到全公司的员工总数(表中后两列),这样就很容易计算出两个公司各自的平均工资。将这些计算过程归纳起来,就是运用了调和平均数的公式。,统计学第4章 数据分布特征的测度,返回,STAT,调和平均数,2008.1,安徽财经大学统计与应用数学学院,对于B公司,固然也可以采用加权调和平均数公式来计算其 平均工资:,统计学第4章 数据分布特征的测度,返回,STAT,然而在这里,由于各组的权数(工资总额)相同,实际上并没有真正起到加权的作用。我们采用简单调和平均数的公式来计算,可以得到完全相同的结果,而计算过程却大大简化了:,调和平均数,2008.1,安徽财经大学统计与应用数学学院,在统计分析中,有时会由于种种原因没有频数的资料,只有每组的变量值和相应的标志总量。这种情况下就不能直接运用算术平均方法来计算了,而需要以迂回的形式,即用每组的标志总量除以该组的变量值推算出各组的单位数,才能计算出平均数,我们可以用调和平均的方法完成这个计算。,统计学第4章 数据分布特征的测度,返回,STAT,调和平均数,2008.1,安徽财经大学统计与应用数学学院,(加权)调和平均数的公式,原来只是计算时使用了不同的数据!,统计学第4章 数据分布特征的测度,STAT,调和平均数,2008.1,安徽财经大学统计与应用数学学院,标志值倒数的算术平均数的倒数。又称倒数平均数。,统计学第4章 数据分布特征的测度,返回,STAT,调和平均数,2008.1,安徽财经大学统计与应用数学学院,调和平均数作为算术平均数的变形公式使用。仍是总体的标志总量与总体单位总量的对比,仅仅是因为资料的不同,需要将算术平均数变形。,当我们掌握的是各组标志值和各组的标志总量时,不能直接运用算术平均数的方法计算,应采用调和平均数的形式。,当m= xf 时,,统计学第4章 数据分布特征的测度,STAT,2008.1,安徽财经大学统计与应用数学学院,【例】某蔬菜批发市场三种蔬菜的日成交数据如表,计算三种蔬菜该日的平均批发价格,统计学第4章 数据分布特征的测度,返回,调和平均数,STAT,2008.1,安徽财经大学统计与应用数学学院,例某局所属四个企业有关资料如下,试计算该工业局的,产值平均计划完成百分比。,统计学第4章 数据分布特征的测度,返回,调和平均数,STAT,2008.1,安徽财经大学统计与应用数学学院,几何平均数是n个变量值连乘积的n次方根。,(简单公式),(加权公式),统计学第4章 数据分布特征的测度,返回,STAT,数值平均数,三、几何平均数,2008.1,安徽财经大学统计与应用数学学院,2、就用途而言,几何平均方法通常用在总量等于各分量乘积的情形。比如,求某些平均比率,平均发展速度等。,【例】某流水生产线有前后衔接的五道工序。某日各工序产品的合格率分别为95、92、90、85、80,求整个流水生产线产品的平均合格率。,简单公式及应用:,统计学第4章 数据分布特征的测度,返回,STAT,几何平均数,2008.1,安徽财经大学统计与应用数学学院,设最初投产A个单位 ,则 第一道工序的合格品为A0.95; 第二道工序的合格品为(A0.95)0.92; 第五道工序的合格品为 (A0.950.920.900.85)0.80;,因该流水线的最终合格品即为第五道工序的合格品, 故该流水线总的合格品应为 A0.950.920.900.850.80; 则该流水线产品总的合格率为:,结论:即该流水线总的合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。,统计学第4章 数据分布特征的测度,返回,STAT,几何平均数,2008.1,安徽财经大学统计与应用数学学院,加权公式及应用:,【例】某金融机构以复利计息。近12年来的年利率有4年为3,2年为5,2年为8,3年为10,1年为15。求平均年利率。,统计学第4章 数据分布特征的测度,返回,STAT,几何平均数,2008.1,安徽财经大学统计与应用数学学院,设本金为V,则至各年末的本利和应为:,第1年末的本利和为:, ,结论:即12年总本利率等于各年本利率的连乘积,符合几何平均数的适用条件,故计算平均年本利率应采用几何平均法。,第12年末的本利和为:,第2年末的本利和为:,统计学第4章 数据分布特征的测度,返回,2008.1,安徽财经大学统计与应用数学学院,可看作是均值的一种变形:,注意:当变量值有一项为零或负值时,不宜用,几何平均数计算。,统计学第4章 数据分布特征的测度,返回,几何平均数,STAT,2008.1,安徽财经大学统计与应用数学学院,例:2002-2006年某市工业品的产量分别是上年的 107.6%、102.5%、100.6%、102.7%、102.2%,计 算这5年的平均发展速度。,统计学第4章 数据分布特征的测度,返回,几何平均数,STAT,2008.1,安徽财经大学统计与应用数学学院,1.067,1.025, ,1.006, ,1.027, ,1.022,=,2ndF, 5,=,出现结果:1.0309 即103.1%,计算器统计功能计算:,统计学第4章 数据分布特征的测度,返回,STAT,2008.1,安徽财经大学统计与应用数学学院,【例】一位投资者购持有一种股票,在2003、2004、2005和2006年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率,统计学第4章 数据分布特征的测度,返回,几何平均数,STAT,2008.1,安徽财经大学统计与应用数学学院,例:某投资银行25年的年利率分别是:1年3%,4年5%,8年8%,10年10%,2年15%,求平均年利率。,1.03,(,1.05,yx,4,),(,1.08,yx,8,), ,(,1.1,yx,10,),(,1.15,yx,2,), =,2ndF,出现结果:1.086 即108.6%,统计学第4章 数据分布特征的测度,返回,STAT,几何平均数,2008.1,安徽财经大学统计与应用数学学院,统计学第4章 数据分布特征的测度,数值平均数,位置平均数,平均指标的概念,测定集中趋势的意义,中位数,众数,第一节 集中趋势的测度,返回,STAT,算术平均数与中位数、众数的关系,2008.1,安徽财经大学统计与应用数学学院,某工程咨询公司技术部门有总工程师1人,工程师1人,技术员6人,见习技术员1人。现需招聘技术员1人。小王前来应征。总经理说: “我们这里的报酬不错,平均工资是每月1900元,你在这里好好干!”小王在公司工作了一周后,找到总经理说:“你欺骗了我,我已问过其他技术员,没有一个技术员的工资超过1900元,平均工资怎么可能是每月1900元呢? ”总经理说: “平均工资确实是每月1900元。 ”下表是该部门月工资报表:,引例:,统计学第4章 数据分布特征的测度,返回,STAT,位置平均数,2008.1,安徽财经大学统计与应用数学学院,问题(1):该部门员工的月平均工资是多少?总经理是否 问题(2):平均月工资能否客观地反映员工的实际收入?,欺骗了小王?,用什么数据反映一般技术员的实际收入比较合适?,某工程咨询公司员工的月收入,统计学第4章 数据分布特征的测度,返回,STAT,位置平均数,2008.1,安徽财经大学统计与应用数学学院,我的工资1500元,在 公司算中等收入,我们好几个人工 资都是1200元,总经理,技术员D,我公司员工收入很高, 月平均工资为1900元,这个公司员工收入到底怎样呢?,应聘者小王,技术员C,返回,2008.1,安徽财经大学统计与应用数学学院,1.经理说公司的平均工资1900元,说明公司每月将支付工资总计1900*9=17100元。,2.技术员C的工资1500元,恰好居于所有员工工资的“正中间”,我们称它为中位数。,3.技术员D说有好几个人工资都是1200元,说明出现的次数最多。我们称它为众数。,统计学第4章 数据分布特征的测度,返回,STAT,位置平均数,2008.1,安徽财经大学统计与应用数学学院,后退,统计学第4章 数据分布特征的测度,STAT,中位数的着眼点在于寻求全部变量值按其大小顺序排列,居中间位置的变量值。其中,一半数值小于中位数,另一半数值大于中位数,因而,可用来代表数列的一般水平。,1.中位数的概念: 将总体各单位标志值按大小排列,居于中间位置的标志值就是 中位数 Me,位置平均数,一、中位数(Me),2008.1,安徽财经大学统计与应用数学学院,现行我国住户调查公布的人均可支配收入采用平均数。但是,由于居民收入分布是偏态分布,分布曲线偏向高收入,使得平均数偏离中位数和众数,随着收入差距的扩大,偏离程度也越来越大、收入水平达不到平均数的家庭比例不断上升。因此在这种情况下,需要计算中位数来弥补平均数的不足。,统计学第4章 数据分布特征的测度,返回,外行看统计,STAT,中位数(Me),2008.1,安徽财经大学统计与应用数学学院,又如:人口的年龄分布往往近似J型:婴儿数最多,随着年龄的增大,人数逐渐下降,到了百岁左右,所剩的人数就很少了。如果计算年龄的算术平均数,老年人口数虽然较少,但其年龄数值很高,这样一来,计算的平均年龄就会偏向老年一方。因此,各国的人口统计资料中,平均年龄的计算一般采用中位数。,我国人口年龄中位数,统计学第4章 数据分布特征的测度,返回,STAT,中位数(Me),2008.1,安徽财经大学统计与应用数学学院,2. 中位数的计算,【例】计算甲城市家庭对住房满意状况评价的中位数,中位数的位置为: 300/2150 从累计频数看,中位数的在“一般”这一组别中。因此 Me一般,统计学第4章 数据分布特征的测度,返回,STAT,中位数(Me),(1)定序数据的中位数,2008.1,安徽财经大学统计与应用数学学院,首先确定中点位置,然后找出中点位次对应的标志值。,(1)当资料未分组时,中点位置=(n+1)/2;,当n为奇数时, Me =中间位置的那个变量值,当n为偶数时, Me =中间位置两侧的,两个变量值的简单平均。,统计学第4章 数据分布特征的测度,返回,STAT,(2)数值型数据的中位数,中位数(Me),2008.1,安徽财经大学统计与应用数学学院,n为奇数 中位数例子,原始数据: 24.1 22.6 21.5 23.7 22.6 由小到大排列: 21.5 22.6 22.6 23.7 24.1 位置: 1 2 3 4 5,中位数位置Om,中位数Me,22.6,.,统计学第4章 数据分布特征的测度,返回,STAT,中位数(Me),2008.1,安徽财经大学统计与应用数学学院,n为偶数 中位数例子,原始数据: 10.3 4.9 8.9 11.7 6.3 7.7 由小到大排列: 4.9 6.3 7.7 8.9 10.3 11.7 位置: 1 2 3 4 5 6,中位数位置Om,中位数Me,7.7,8.30,2,8.8,统计学第4章 数据分布特征的测度,返回,STAT,中位数(Me),2008.1,安徽财经大学统计与应用数学学院,例中点位置=180/2=第90个人,所以 Me 应是第90个人的年,龄。所以: Me =18岁。,A、当资料已分组且形成单项式变量数列时,中点位置=f/2,统计学第4章 数据分布特征的测度,返回,STAT,中位数(Me),2008.1,安徽财经大学统计与应用数学学院,B、资料已分组且形成组距式变量数列(插补法按比例推算),(A)L为中位数所在组的下限,U为上限; (C)Sm-1 为小于中位数的各组次数之和; (D)Sm+1为大于中位数的各组次数之和;,统计学第4章 数据分布特征的测度,STAT,返回,中位数(Me),(B)d 为中位数所在组的组距;,(E)fm为中位数所在组的次数。,2008.1,安徽财经大学统计与应用数学学院,中位数实际上就是位于累计次数达到 的这一组组距中的某个数值。该数值就是这一组下限加上按一定几何比例分割组距所得的一段组距,或这一组上限减去按,(提示:所谓中位数,就是有一半数据小于它,一半数据大于它,而直方图,就是用面积表示次数的,所以 以分界的两边面积应该相同。),统计学第4章 数据分布特征的测度,返回,STAT,中位数(Me),一定几何比例分割组距所得的一段组距。,2008.1,安徽财经大学统计与应用数学学院,中位数的确定(组距数列),共 个单位,共 个单位,共 个单位,共 个单位,L,U,中位数组,组距为d,共 个单位,假定该组内的 单位呈均匀分布,中位数下限公式为,该段长度应为,中位数(Me),2008.1,安徽财经大学统计与应用数学学院,统计学第4章 数据分布特征的测度,返回,STAT,中位数(Me),50 60 70 (L) 80(U) 90 100,x,y,10 30 60 110 150 180,(Sm-1),第90个人,Me= L+x=U-y,假定中位数组的变量值呈均匀分布,则采用比例插值法得,统计学第4章 数据分布特征的测度,返回,STAT,中位数(Me),2008.1,安徽财经大学统计与应用数学学院,3、 中位数特点与应用场合: (1)中位数一定存在, 主要用于测度定序数据的集中趋势。也适用于数值型数据。但不适用于定类数据; (2)是一个位置代表值,不受极端值的影响,比较稳健。 (3)中位数的取值只与中间位置的一或两个数值有关,利用信息不充分。,统计学第4章 数据分布特征的测度,返回,STAT,中位数(Me),2008.1,安徽财经大学统计与应用数学学院,中位数是将统计分布从中间分成相等的两部分,与中位数性质相似的还有四分位数、十分位数和百分位数。,统计学第4章 数据分布特征的测度,返回,STAT,三个数值可以将变量数列划分为项数相等的四部分,这三个数值就定义为四分位数(Quartiles),分别称为第一四分位数、第二四分位数和第三四分位数,记作 、 和 。对于不分组数据而言,三个四分位数的位置分别是: 在 处 , 在 处 , 在 处 。 可见 就是中位数。,4、分位数,同理,十分位数(Dectile)和百分位数(Percentile)分别是将变量数列十等分和一百等分的数值。,2008.1,安徽财经大学统计与应用数学学院,思考题,你是 Prudential-Bache 证券公司的金融分析员。你已经收集了新发行股票的下列收盘价: 17, 16, 21, 18, 13, 16, 12,11. 试描述股票价格的集中趋势,统计学第4章 数据分布特征的测度,返回,STAT,2008.1,安徽财经大学统计与应用数学学院,某商场某季度男皮鞋销售情况,统计学第4章 数据分布特征的测度,返回,引例: 某制鞋厂要了解消费者最需要哪种型号的男皮鞋,调查了某百货商场某季度男皮鞋的销售情况,得到资料如表:,STAT,二、众数(M0),位置平均数,2008.1,安徽财经大学统计与应用数学学院,从表中可以看到,25.5厘米的鞋号销售量最多,如果我们计算算术平均数,则平均号码为25. 65厘米,而这个号码显然是没有实际意义的,而直接用25.5厘米作为顾客对男皮鞋所需尺寸的集中趋势既便捷又符合实际。,统计学第4章 数据分布特征的测度,返回,STAT,众数(M0),2008.1,安徽财经大学统计与应用数学学院,众数的着眼点在于寻求变量数列中频数最多(出现次数最多的)的变量值。说明总体中大多数单位所达到的一般水平,具有普遍性。 1、 定义:众数是变量数列(总体)中出现次数最多的变量值。 上面的例子中,鞋号25. 5厘米就是众数。,统计学第4章 数据分布特征的测度,返回,STAT,众数(M0),2008.1,安徽财经大学统计与应用数学学院,在统计实践中,常利用众数来近似反映现象的一般水平。比如,一位食品部经理想按照预期的销售量来分配货物架的空间。从这个意义上来说,我们应该依据众数,而不是算术平均数或中位数来确定,即过去具有最高销售量的食品将得到最大限度的货物架空间。,统计学第4章 数据分布特征的测度,返回,STAT,用众数价格代表某一商品的价格,用众数储蓄余额代表居民储蓄的一般水平,还有,在服装行业,生产商、批发商在做有关生产或存货的决策时,更感兴趣的是最普遍的尺寸,即尺寸的众数。,众数(M0),2008.1,安徽财经大学统计与应用数学学院,众数既适用于变量数列,也适用于品质数列。 如:销售量最多的服装款式或色彩(所谓“流行款式” 或“流行色”),统计学第4章 数据分布特征的测度,返回,STAT,众数(M0),2008.1,安徽财经大学统计与应用数学学院,例:品质数列(定类数据)的众数,这里的变量为“广告类型”,这是个定类变量,不同类型的广告就是变量值。我们看到,在所调查的200人当中,关注商品广告的人数最多,为112人,占总被调查人数的56%,因此众数为“商品广告”这一类别,即 Mo商品广告,统计学第4章 数据分布特征的测度,返回,STAT,众数(M0),2008.1,安徽财经大学统计与应用数学学院,例:品质数列(定序数据)的众数,这里的数据为定序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即 Mo不满意,统计学第4章 数据分布特征的测度,返回,STAT,众数(M0),2008.1,安徽财经大学统计与应用数学学院,2. 变量数列计算M0的方法,(1)由单项数列确定的M0: 先确定众数组,再确定众数:,Mo=18,统计学第4章 数据分布特征的测度,返回,STAT,众数(M0),2008.1,安徽财经大学统计与应用数学学院,一般也可以次数最多的一组的组中值为众数,但这一数值往往随着分组的不同而发生变动,为使M0更接近实际,在确定M0所在组后,计算M0的近似值是按比例推算的近似值用众数组前后两组的频数作为决定众数应在众数所在组组中值上面或下面的加权因子,理解如下:,统计学第4章 数据分布特征的测度,返回,STAT,众数(M0),(2)由组距数列确定的M0:,2008.1,安徽财经大学统计与应用数学学院,众数的值与相邻两组频数的分布有关, 相邻两组的频数相等时,众数组的组中值 即为众数。,Mo,相邻两组的频数不相等时,Mo,Mo,统计学第4章 数据分布特征的测度,STAT,众数(M0),2008.1,安徽财经大学统计与应用数学学院,设众数组的频数为 ,众数前一组的频数为 fm-1 ,众数后一组的频数为 fm+1 。当众数相邻两组的频数相等时,即 fm-1 = fm+1 ,众数组的组中值即为众数;当众数组的前一组的频数多于众数组后一组的频数时,即 fm-1 fm+1 ,则众数会向其前一组靠,众数小于其组中值;当众数组后一组的频数多于众数组前一组的频数时,即 fm-1 fm+1 ,则众数会向其后一组靠,众数大于其组中值。基于这种思路,借助于几何图形而导出的分组数据众数的计算公式:,统计学第4章 数据分布特征的测度,返回,STAT,众数(M0),2008.1,安徽财经大学统计与应用数学学院,先确定众数组;再用下述公式计算:,符号含义: (A)L为众数组的下限,U为上限; (B)d为众数组的组距;,(C)1=fmfm-1,即众数组的次数与前一组次数之差; 2=fm fm+1,即众数组的次数与后一组次数之差。,统计学第4章 数据分布特征的测度,STAT,众数(M0),2008.1,安徽财经大学统计与应用数学学院,G,E,F,D,C,A,B,f,X,f3,f2,f1,d,XL,XU,M0,1,2,计算公式可以从几何图形得到证明:,统计学第4章 数据分布特征的测度,返回,STAT,众数(M0),2008.1,安徽财经大学统计与应用数学学院,3、众数的特点及应用场合,(1)主要用于测度定类数据的集中趋势,也适用于定序和数值型数据的集中趋势的测度值。 (2)不受极端值的影响(从众数的计算公式可以看出,众数是根据众数组及相邻组的频数分布信息来确定数据中心点位置的,是一个位置代表值,它不受数据中极端值的影响。比较稳健) (3)由于众数的确定并不涉及每一个变量值,故其对变量值的变化反映不灵敏。 (4)有时分布数列中可能没有众数或有几个众数,难以反映总体的一般水平。,统计学第4章 数据分布特征的测度,返回,STAT,众数(M0),2008.1,安徽财经大学统计与应用数学学院,M0,M0,M0,M0,M0,若有两个次数相等的众数,则称复众数。,统计学第4章 数据分布特征的测度,返回,众数的确定适用于总体单位数比较多,而且又有明显的集中趋势时才存在众数。,STAT,众数(M0),2008.1,安徽财经大学统计与应用数学学院,下三图无众数:,在单位数很少,或单位数虽多但无明显集中趋势时,,统计学第4章 数据分布特征的测度,计算众数是没有意义的。,返回,STAT,众数(M0),2008.1,安徽财经大学统计与应用数学学院,统计学第4章 数据分布特征的测度,返回,算术平均数与中位数、众数的关系,STAT,2008.1,安徽财经大学统计与应用数学学院,(1)对称分布: 此处三者均等于35。,统计学第4章 数据分布特征的测度,STAT,大部分数据都属于单峰分布,其众数、中位数和算术平均数之间具有以下关系:,算术平均数与中位数、众数的关系,返回,2008.1,安徽财经大学统计与应用数学学院,A、右(正)偏:说明数据中偏大的数较多,必然拉动,(2)偏态分布,返回,STAT,统计学第4章 数据分布特征的测度,算术平均数与中位数、众数的关系,算术平均数向大的一方靠近:,2008.1,安徽财经大学统计与应用数学学院,B、左(负)偏:说明数据中偏小的数较多,这就必然拉动算术平均数向小的一方靠,而众数和中位数由于是位置代表值,,返回,STAT,统计学第4章 数据分布特征的测度,算术平均数与中位数、众数的关系,不受极值的影响:,2008.1,安徽财经大学统计与应用数学学院,2004年4月央视报道,上海平均房价达到¥5118/m2,但,统计学第4章 数据分布特征的测度,返回,STAT,算术平均数与中位数、众数的关系,该数字,上海市的房价可能属于何种的分布?,思考:,被访问的市民却说该数字偏低,因为他们遇到的房价远高于,2008.1,安徽财经大学统计与应用数学学院,卡尔皮尔逊经验公式:,适度偏斜情况下,众数与中位数之间的距离,大约为中位数到算术平均数之间距离的两倍。,统计学第4章 数据分布特征的测度,返回,STAT,算术平均数与中位数、众数的关系,2008.1,安徽财经大学统计与应用数学学院,练习题:,据某单位资料知道,职工年收入小于25000元的占总人数的一半,年收入22360元人数为最多。试问:该单位职工人数人均年收入估计为多少?收入分配是左偏还是右偏?,统计学第4章 数据分布特征的测度,返回,STAT,算术平均数与中位数、众数的关系,2008.1,安徽财经大学统计与应用数学学院,解:,收入分配呈右偏,统计学第4章 数据分布特征的测度,返回,STAT,2008.1,安徽财经大学统计与应用数学学院,统计学第4章 数据分布特征的测度,返回,标志变异指标,离散程度,什么是离散程度,为什么要测定离散程度,第二节 离散程度的测度,STAT,2008.1,安徽财经大学统计与应用数学学院,一则笑话,如果你一只脚放在摄氏0度的冰水里,另一只脚放在摄氏100度的沸水里,按统计学理论,你一定感觉很舒服,因为平均水温50度 !,STAT,统计学第4章 数据分布特征的测度,返回,2008.1,安徽财经大学统计与应用数学学院,漫画都是不懂统计的缘故,他的溺毙完全是因为不懂统计,他还以为只要知道河水的平均深度就行了呢。,R.I.PRest in Peace,统计学第4章 数据分布特征的测度,STAT,返回,2008.1,安徽财经大学统计与应用数学学院,离散程度,统计学第4章 数据分布特征的测度,STAT,返回,数据背离中心值的程度,即现象总体中各单位变量值间的变异状况或差异程度。,一、什么是离散程度,2008.1,安徽财经大学统计与应用数学学院,平均指标是一个代表性数值,它反映总体各单位某一数量标志的一般水平,而把总体各单位之间的差异抽象化了。但总体各单位之间的差异是客观存在的,这种差异也是统计总体的重要特征之一。因此,要全面反映一个总体的特征,还必须测定总体各单位之间差异程度。,二、为什么要测定离散程度,统计学第4章 数据分布特征的测度,STAT,返回,离散程度,2008.1,安徽财经大学统计与应用数学学院,标志变异指标(意义和作用),统计学第4章 数据分布特征的测度,STAT,返回,反映总体各单位标志值之间差异程度大小的综合指标,也称做标志变动度。 是说明总体分布的另一个重要特征值。,一、标志变异指标的含义,2008.1,安徽财经大学统计与应用数学学院,统计学第4章 数据分布特征的测度,STAT,返回,1、衡量平均指标代表性的大小的尺度,甲、乙两学生某次考试成绩列表,2、反映现象发展过程的均衡性或协调性、以及产品质量的稳定性,标志变异指标(意义和作用),二、标志变异指标的作用,2008.1,安徽财经大学统计与应用数学学院,统计学第4章 数据分布特征的测度,返回,标志变异指标,测定离散程度的意义,全距,平均差,第二节 离散程度的测度,STAT,标准差,离散系数,2008.1,安徽财经大学统计与应用数学学院,极差是总体各单位标志的最大值和最小值之差,也称全距,表示某一总体全部变量值的变动范围。 R=Xmax-Xmin 例:某班学生外语成绩中,最低分为48分,最高分为96分。 极差=96-48=48(分),统计学第4章 数据分布特征的测度,返回,STAT,标志变异指标(种类和计算),一、极差,2008.1,安徽财经大学统计与应用数学学院,未分组数列和变量数列中单项数列: 用数列中最大变量值减最小变量值。 在组距数列中: R=最高组上限最低组下限,极差,统计学第4章 数据分布特征的测度,返回,STAT,2008.1,安徽财经大学统计与应用数学学院,评价方法: 极差值越小,说明标志变异程度越小,总体变量值分布越集中; 极差值越大,说明标志变异程度越大,总体变量值分布越分散。,统计学第4章 数据分布特征的测度,返回,STAT,极差,2008.1,安徽财经大学统计与应用数学学院,极差的特点:,1、离散程度的最简单测度值,计算简便,也易于理解,在 实际工作中适用于度量变化比较稳定的现象的离中趋势, 2、只表示总体变动的范围,且易受极端值影响,不能全面 反映总体各单位标志的差异程度,也不能用来评价平均指标 的代表性。,统计学第4章 数据分布特征的测度,返回,STAT,极差,2008.1,安徽财经大学统计与应用数学学院,在实际工作中,极差又称为“公差”,常用来检查产品质量的稳定性和进行质量控制。它是对产品质量制订的一个容许变化的界限。在正常生产条件下,极差在一定范围内波动,若极差超过给定的范围,就说明有异常情况出现。因此,利用极差有助于及时发现问题,以便采取措施,保证产品质量。,统计学第4章 数据分布特征的测度,返回,STAT,极差的应用,又如,描述社会成员的收入水平差异,是在极差的基础上,计算得出最高收入与最低收入间相差的倍数。,2008.1,安徽财经大学统计与应用数学学院,四分位差(Interquartile range):是指第三四分位数与第一四分位数之差,也称为内距或四分间距,用 表示。四分位差的计算公式为:,统计学第4章 数据分布特征的测度,返回,STAT,四分位差反映了中间50%数据的离散程度。其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。四分位差不受极值影响,因此,在某种程度上弥补了极差的一个缺陷。,2008.1,安徽财经大学统计与应用数学学院,平均差是各总体单位标志值与其算术平均数离差绝对值的算术平均数。反映的是各标志值对其平均数的平均差异程度。,统计学第4章 数据分布特征的测度,返回,STAT,标志变异指标(种类和计算),二、平均差,2008.1,安徽财经大学统计与应用数学学院,由于各变量值与其平均数离差之和等于零,所以,在计算平均差时,是取绝对值形式的。根据掌握数据资料不同 ,平均差的计算采用两种不同形式。,计算公式:,统计学第4章 数据分布特征的测度,返回,STAT,平均差,2008.1,安徽财经大学统计与应用数学学院,评价方法: 平均差越小,标志变异程度越小,总体变量值分布越集中,平均数的代表性便越大; 平均差越大,标志变异程度越大,总体变量值分布越分散,平均数的代表性便越小。,统计学第4章 数据分布特征的测度,返回,STAT,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!