资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,STAT,第2章 描述统计学,案例导入,在一家财产保险公司的董事会上,董事们就公司的发展战略问题展开了激烈讨论,其中一个引人关注的问题就是如何借鉴国外保险公司的先进管理经验,提高自身的管理水平。有的董事提出,2005年公司的各项业务与去年相比没有太大增长,除经济环境和市场竞争等因素外,对家庭财产保险的业务开展得不够,公司在管理方式上也存在问题。他认为,中国的家庭财产保险市场潜力巨大,应加大扩展这一业务的力度,同时,应对公司家庭财产推销员实行目标管理,并根据目标完成情况建立相应的奖惩制度。董事长认为该董事的建议有一定道理,准备采纳。会后,他责成计划部经理尽快拿出具体的实施方案。,1,第2章 描述统计学,计划部经理接到任务后感到有些头痛。如果目标定得过高,多数推销员完不成任务,会使推销员失去信心;如果定得过低,将不利于充分挖掘员工的工作潜力,提高公司的业绩水平。,于是,计划部经理将公司160个推销员的月销售额分别作了统计,统计数据如表2-1所示。,如果你是计划部经理,观察这160个原始数据后,准备如何来制定具体的销售目标呢?,2,第2章 描述统计学,本章重点,1、描述统计数据分布特征的图表法;,2、数据中心位置测度的种类与方法;,(1)计算平均数:算术平均数、调和平均数、几何平均数;,(2)位置平均数:中位数、众数、分位数。,3、变异性的测度:全距、平均差、方差、标准差、变异系数;,4、相对位置的测度:z分数、切贝雪夫定理、经验法则。,本章难点,1、算术平均数;,2、方差与标准差。,3,第2章 描述统计学,STAT,1. 图表法,次数分布,一、次数分布的概念及类型,次数:分布在各组的单位数(f),频率:各组次数与总次数的比重,用f/,f表示;,次数分布:,将总体的所有单位按组,归类排列,形成总体单位在各组间的,分布称为次数分布或频数分布。,根据分组标志的性质不同分为:,1、属性分布数列:按品质标志分组,所形成的分布数列。,体现现象质上的差别且较稳定。,4,第2章 描述统计学,STAT,2、变量分布数列:按数量标志分组,所形成的分布数列。,体现现象量上的差别且有多种编制,方法。,作用:,显示现象的分布规律和分布特,征。,变量数列的构成,(1)变量及变量值;(2)次数或频率。,5,第2章 描述统计学,STAT,根据用以分组的变量的取值是否惟,一,变量数列可分为单项数列和组距数列。,1、单项数列:一个变量值代表一组。,适用于变量的变异幅度不大的情况。,2、组距数列:由表示一定变动范围,的两个变量值代表一个组。,适用于变量值个数较多、变异幅度,较大的资料。,具体可分为等距数列与不等距数列。,6,第2章 描述统计学,STAT,组限:一组的数量界限。,组距(i)=本组上限本组下限,组数(n)全距组距R/i,组中值=(上限十下限) /2,=下限十组距/2,=上限一组距/2,组中值用来代表各组变量值的平均水平具有一定的假定性。,开口组:缺上限或缺下限的组 。开口组组距以邻组组距代替。,开口组首组组中值=上限一邻组组距 /2,开口组末组组中值= 下限+邻组组距/2,7,第2章 描述统计学,STAT,次数密度=本组次数/本组组距,次数密度反映次数在各组分布,的密集程度。适用于异距数列。,连续型变量:,只可编制组距数列,,且相邻的组限必须重叠。记住:,“上组限不在内”,离散型变量:可编制单项数列和组距数列。编制组距数列时采用不重叠组限,依据:遵循不重复、不遗漏的原则。,8,第2章 描述统计学,STAT,变量数列的编制。,例:30名同龄儿童身高(cm):,106,99,85,121,84,94,106,105,110,119,101,95,91,87,105,106,109,118, 96 ,128,91,97,105,111,111,107,103,101,107,106。,(1),将变量值按大小次序排列,84,85,87,91,91,94,95,96,97,99,101,101,103,105,105,105,106,106,106,106,107,107,109,110,111,111,118,119,121,128。,(2)计算全距:R=12884=44(cm),(3)确定组数与组距,令i=10cm,则组数,取5组,9,第2章 描述统计学,STAT,84,85,87,91,91,94,95,96,97,99,101,101,103,105,105,105,106,106,106,106,107,107,109,110,111,111,118,119,121,128。,(4)编制变量数列,10,第2章 描述统计学,STAT,次数分布的主要类型,1、钟形分布,分布特征:中间大、两头小。,钟形分布进一步区分为:,(1)对称分布,(2)偏态分布,正偏:又称右偏,有极大值;,负偏:又称左偏,有极小值。,11,第2章 描述统计学,STAT,3、J形分布,分布特征:一边大、一边小。,(1)正J分布:右大左小;,次数随变量值的增大而增多,(2)反J分布:左大右小;,次数随变量值的增大而减少,死亡率,年龄,2、U形分布,分布特征:两头大、中间小。,12,第2章 描述统计学,STAT,统计图,直方图,:直方图是用直方形的高度,和宽度来表示次数分布特征,的图形。,横轴表示变量;,纵轴表示次数。,宽表示组距,,高表示次数。,折线图,将组中值用折线连接而成。,曲线图,当组数无限增多,则组距无限减小,此时折线趋近于曲线。,身高,15,12,9,6,3,80 90 100 110 120 130,人数,13,第2章 描述统计学,累计分布图,将变量数列各组的次数和比率逐组累计相加而成累计次数分布,它表明总体在某一变量值的某一水平上下总共包含的总体次数和比率。,累计分布分为向上累计和向下累计。,组距数列中的向上累计,表明各组上限以下总共所包含的总体次数和比率有多少。,组距数列中的向下累计,表明各组下限以上总共所包含的总体次数和比率有多少。,14,第2章 描述统计学,STAT,均值测度,次数分配数列的两个重要特征:集中趋势与离中趋势。,集中趋势:反映一组数据向分布的中心集中的趋势。,离中趋势:反映一组数据远离中心的趋势。,测定集中趋势的指标主要有均值。,15,STAT,一、,算术平均数,基本公式=总体标志总量/总体单位总量,(一)简单算术平均数,适用未分组或各变量值出现次数相同资料,适用已分组资料,注意: 加权算术平均数不仅受各组变量值大小的影响,还受各组次数多少的影响。次数因其对平均的结果有权衡轻重的作用,因此,也叫权数。,(二)加权算术平均数,第2章 描述统计学,16,STAT,权数的种类:,A、绝对权数(次数) f,B、相对权数(频率或比重) f/f,只有当各组的次数不相等时,,次数才具有权数的作用。,由此可见,简单算术平均数是加权算术平均数的一个特例。,第2章 描述统计学,17,第2章 描述统计学,STAT,组距数列算术平均数的计算,例11人年龄:15,17,19,20,22,22,23,23,25,26,30。求平均年龄。,组距数列算术平均数的计算:以组中值代替组平均数后计算,。,(近似值),18,第2章 描述统计学,STAT,(三)是非标志平均数,A:是非标志将总体全部单位划分为“是”或“否”两类的标志,B、哑变量(01变量),19,STAT,二、 调和平均数,调和平均数:变量值,倒数,的,算术平均数,的,倒数,用“H”表示,。,调和平均数可分为简单调和平均数和加权调和平均数。,(一)简单调和平均数(各变量值均为一个单位时使用),例某种蔬菜早上元/斤,中午元/斤,晚上元/斤,某人各买1斤,求平均价格。(算术平均法),例类似地某人早、中、晚各买1元,求平均价格。,第2章 描述统计学,20,STAT,式中:x,代表各个变量值,n代表变量值项数,第2章 描述统计学,21,STAT,(二)加权调和平均数(各变量值为不等单位时使用),第2章 描述统计学,22,STAT,例某局所属四个企业有关资料如下,试计算该工业局的产值平均计划完成百分比。,第2章 描述统计学,23,STAT,算术平均数与调和平均数的适用前提:,A、已知基本公式母项资料用算术平均数计算,(子项资料未知),B、已知基本公式子项资料用调和平均数计算,(母项资料未知),调和平均数是算术平均数的变形,第2章 描述统计学,24,STAT,三、几何平均数,几何平均数是n个变量值连乘积的n次方根,用“G”表示 。,适用前提:凡是变量值的连乘积,等于总比率或总速度的现象都可以采用几何平均数计算平均比率或平均速度。,(一)简单几何平均数,第2章 描述统计学,注意:当观察值有一项为零或负值时,不宜用几何平均数计算。,如用同一数据分别计算算术平均数、调和平均数和几何平 均数时,则有如下关系:,(二)加权几何平均数,25,STAT,四、中位数,把总体各变量值按大小顺序排列起来,处于中点位置的变量值就是中位数,用“M,e,”表示。,(一)根据未分组资料确定中位数,中点位置=(n+1)/2;,当n为奇数时, M,e,=中间位置的那个变量值;,例某科室9人的年龄分别是:,24,25,25,26,26,27,28,29,55,。,当n为偶数时,M,e,=中间位置两侧的两个变量值的简单平均。,如,24,25,25,26,26,27,28,29,(二)根据分组资料确定中位数,1、由单项数列确定中位数,第2章 描述统计学,26,STAT,第2章 描述统计学,中点位置=(181+1)/2=第91个人,M,e,应是第91个人的年龄,M,e,=18岁,27,STAT,(二)根据组距数列确定中位数,第2章 描述统计学,式中: L为中位数所在组的下限,U为上限;,i,为中位数所在组的组距;,S,m-1,为小于中位数的各组次数之和;,S,m+1,为大于中位数的各组次数之和;,f,m,为中位数所在组的次数。,28,STAT,例 下限公式:,上限公式:,并且:,第2章 描述统计学,29,STAT,推导:,假定中位数组的变量值呈均匀分布,则采用比例插值法得,50 60 70 (,L,) 80(,U,) 90 100,x,y,10 30 60 110 150 180,M,e,= L+x=U-y,(S,m-1,),第90个人,第2章 描述统计学,30,STAT,注意的问题:,(1)中位数不受极端值的影响,比较稳健。,(2)中位数的取值只与中间位置的一或两个数值有关,利用信息不充分,忽略了其它数据的大小,并且不适合于代数运算。,第2章 描述统计学,31,STAT,五、众数,众数是指总体中出现次数最多的变量值,用M,o,表示。,A、20,15,18,20,20,22,20,23; n=8 M,o,=20,B、20,20,15,19,19,20,19,25; n=8 M,o,=20 M,o,=19,C、10,11,13,16,15,25,8,12; n=8,,但没有众数,(一)由单项数列确定众数,在单项数列中,出现次数,最多的变量值就是众数。,确定众数组,确定众数:M,o,=18,第2章 描述统计学,32,STAT,(二)由组距数列确定众数,确定众数组,再用下述公式计算:,第2章 描述统计学,式中:,L为众数组的下限,U为上限;,i,为众数组的组距;,1,=f,m,f,m-1,,即众数组的次数与前一组次数之差;,2,=f,m,f,m+1,,即众数组的次数与后一组次数之差。,33,STAT,40 50 60 70 80 90 100,50 40 30 20 10,A G F,B,C,E,D,人数,产值,x y,(L) (U),M,o,=L+x=U-y,O,第2章 描述统计学,34,STAT,40 50 60 70 80 90 100,50 40 30 20 10,A G F,B,C,E,D,人数,产值,x y,(L) (U),M,o,=L+x=U-y,O,第2章 描述统计学,35,STAT,众数取值的特点:,众数的数值始终偏向相邻组,中次数较大的组,当相邻两组,的次数相等时,众数则是众数,组的组中值。,注意的问题:,(1)优点:不受极端值的影响。,(2)缺点:未利用所有信息,,缺乏敏感性和不适合代数运算。,(3)可用于反映质量变量的,集中趋势。,第2章 描述统计学,36,STAT,六、 集中趋势测度指标的比较,(一)各种数值平均数的比较,适用场合不同。若总体标志总量等于总体各单位变量值之和,可采用算术平均数计算;若总体标志总量等于总体各单位变量值之积,则应采用几何平均数计算。,某些数值平均数对于被平均变量的取值有着特殊的限制。,(二)数值平均数与位置平均数的比较,数值平均数对于数据的概括能力比位置平均数更强。,数值平均数对于数据变化的“灵敏度”很高。对极端值的“耐抗性”较低;位置平均数的“灵敏度”较低,但“耐抗性”却很强。,数值平均数只适用于定距尺度和定比尺度的数据:位置平均数还适用于各种定序尺度的数据,众数甚至还适用于各种定类尺度的数据。,第2章 描述统计学,37,STAT,(三)中位数、众数和算术平均数的关系,1、对称分布,第2章 描述统计学,三者均等于35。,38,STAT,2、偏态分布,右(正)偏:,第2章 描述统计学,39,STAT,左(负)偏:,第2章 描述统计学,40,STAT,卡尔皮尔逊经验公式:,适度偏斜,情况下,众数与中位数之间的距离,大约为中位数到算术平均数之间距离的两倍。,第2章 描述统计学,41,STAT,变异程度测定,平均指标只能反映现象的集中趋势而不能反映总体各单位标志值的差异程度。例,集中趋势和离散程度是总体分布的两个重要特征。,离散趋势指标是反映总体各单位标志值差异(离散)程度的指标。又称标志变动指标、离散程度指标等。,平均指标与离散趋势指标的区别:,平均指标考虑的是如何消除离差,显示集中趋势。而离散趋势指标考虑的是如何计算离差,反映离散的程度及离差的大小。,第2章 描述统计学,42,STAT,离散趋势指标作用:,1、衡量平均数代表性的大小,2、反映变量值分布的离中趋势和离散程度,第2章 描述统计学,43,STAT,3、反映社会经济现象的均衡性和稳定性,如甲、乙两工厂某年四个季度的产量资料如下(单位:万件):,甲:65、68、72、75,平均每季产量为70万件;,乙:34,51,95,100,平均每季产量为70万件。,描述数据离散趋势的指标主要有全距、平均差、标准差、方差及变异系数等。,一、全距,全距是总体各单位某一数量标志的最大值与最小值之差。,全距(R)=最大值最小值,特点1、优点:意义明确,简单方便。,2、缺点:比较粗略,未考虑中间变量值的离散情况。,第2章 描述统计学,44,STAT,二、 平均差,平均差是各变量值对其算术平均数离差绝对值的算术平均数。 常用“AD”表示。,(一)根据未分组资料计算,第2章 描述统计学,(二)根据分组资料计算,45,STAT,简单平均差计算举例:,第2章 描述统计学,46,STAT,加权平均差计算举例:,第2章 描述统计学,47,STAT,判定准则:,平均差的特点:,(1)充分考虑了每一数值的离中情况,在反映离中趋势方面比较灵敏,计算方法亦比较简单。,(2)绝对值运算给数学处理带来很多不便。,第2章 描述统计学,48,STAT,三、 标准差和方差,方差( ):总体各单位标志值与其算术平均数,离差,平方,的,算术平均数,;,标准差( ):总体各单位标志值与其算术平均数离差平方的算术平均数的,平方根,。,(一)标准差和方差的基本计算,(简单标准差),(加权标准差),第2章 描述统计学,49,STAT,简单方差与简单标准差计算举例:,第2章 描述统计学,50,STAT,加权式方差与加权标准差计算举例:,第2章 描述统计学,51,STAT,(二)标准差和方差的简捷计算,第2章 描述统计学,52,STAT,例,第2章 描述统计学,53,STAT,(三)是非标志标准差的计算,第2章 描述统计学,例如,某班50名学生英语考试成绩及格人数39人,不及格人数11人。则:,54,STAT,第2章 描述统计学,根据同一资料计算:,方差和标准差的特点:,充分考虑了每一数值的离中情况,且避免了取绝对值不方便数学处理的缺点,故运用广泛。,55,STAT,(四)方差的加法定理,第2章 描述统计学,资料分组后:,56,STAT,例11人日产量(件)如下:15,17,19,20,22,22,23,23,25,26,30。试求其总方差。,第2章 描述统计学,平均组内方差:各组内方差的平均数。,57,STAT,例11人日产量(件):,15,17,19,20,22,22,23,23,25,26,30,。,第2章 描述统计学,58,第2章 描述统计学,59,STAT,例11人日产量(件)如下15,17,19,20,22,22,23,23,25,26,30。,结论:原始资料计算总方差;,分组资料情况下,组内方差无法计算。因此,根据分组资料计算的方差实际上是组间方差。,第2章 描述统计学,60,STAT,四、变异系数,前述离散趋势指标的特点:,A、均带有与原资料相同的计量单位;,B、只有当两总体性质相同、平均数相同时才可用来比较平均数 的代表性。,不同性质的绝对量不可直接对比,例: 体重 举重 相对水平,某人 120斤 50斤 50/120=42%,某只蚂蚁 1克 6克 6/1=600%,变异系数的特点:,A、可用于两个总体平均水平不同时;,B、可用于两个总体性质不同或计量单位不同时。,第2章 描述统计学,61,STAT,变异系数计算公式:,第2章 描述统计学,62,STAT,判定原则:,越大,说明数据越分散,,的代表性越小;,越小,说明数据越集中, 的代表性越大。,同理:,越大,说明数据越分散, 的代表性越小;,越小,说明数据越集中, 的代表性越大。,第2章 描述统计学,63,STAT,相对位置测度及异常值的检测,一、z分数,z分数通常被称为标准化数值。z可以解释为观察值偏离平均数的标准差个数。,第2章 描述统计学,64,STAT,二、,切贝谢夫,定理,在,任何,数据集中,出现在算术平均数左右Z倍范围之内的数据比例,至少,为(11/Z,2,),Z是大于1的任意数值。,例有一组顾客购物付款时等候时间的资料,已知等候时间的均值为4分钟,标准差为分钟,则,至少为0,至少为75,至少为89,特点:具有普遍性但比较保守。,第2章 描述统计学,65,STAT,三、经验法则,当资料呈,对称分布,时,则有,-3 -2 -1 1 2 3,第2章 描述统计学,66,STAT,四、异常值检测,异常值:非正常大或非正常小的数值。,检测:计算标准化数值(z分数),z分数小于-3或大于+3的数据为异常值。,第2章 描述统计学,67,
展开阅读全文