资源描述
safdsfs,sdfgdsgsdfgfsdg,*,第三章统计资料的综合,表示统计资料的特征数有哪些?,几何平均数与调和平均数各适合于什么情况?,计算样本方差与总体方差公式有何区别,?,3.1,表示集中位置的特征数,3.1.1,平均数,算术平均数(,Arithmetic average,),几何平均数(,Geometric Mean,),调和平均数,定义:,一组,n,个观测值,x,1,x,2,,,x,n,的算术平均数,定义为,(1),算术平均数(,Arithmetic average,),如果资料已经分组,组数为,k,,用,x,1,x,2,,,x,k,表示各组中点,,f,1,,,f,2,f,k,表示相应的频数,那么,(1),算术平均数(,Arithmetic average,),表,3-1,某校,125,位大学一年级新生体重表,体重(公斤),组中值,(x),人数,(f),4648,47,4,4951,50,20,5254,53,25,5557,56,38,5860,59,21,6163,62,12,6466,65,5,(1),算术平均数(,Arithmetic average,),其平均体重:,=,55.592,(1),算术平均数(,Arithmetic average,),当,时最小,性质,(1),算术平均数(,Arithmetic average,),在数据为环比类型的问题中,算术平均数是不适用的。例如下表是天津市工业总产值在“十五”期间的逐年增长率,如求该期间平均增长率,算术平均数是不恰当的。几何平均数可以解决这个问题。,(2),几何平均数(,Geometric Mean,),表,3-2,天津市工业总产值,年份,比上年增长,2000,2001,14.0,2002,19.6,2003,24.1,2004,31.0,2005,20.8,(天津市,2005,统计年鉴),(2),几何平均数(,Geometric Mean,),定义,:,一组,n,个数据的几何平均数定义为,在上式中,,依次为,114.0,,,119.6,,,124.1,,,十五期间天津市工业总产值年均增长率为,21.8%,。,131.0,,,120.8,于是几何平均数:,(2),几何平均数(,Geometric Mean,),当数据是,相对,变化率,求平均数时,算术平均数也不恰当。,例如:甲乙两地相距若干公里,某人乘车往返甲乙两地之间,去时速度每小时,20,公里,回来时速度每小时,30,公里,若求平均速度,这时用算术平均数是不对的,但调和平均数可解决此类问题。,(3),调和平均数,在上例中,,(公里,/,小时),定义:,一组,n,个数据的调和平均数,H,,由下式定义,(3),调和平均数,算术平均数表示了集中位置特征,它照顾到每一个值,但它不见得是出现次数最多的值(甚至也可能不是观测值中的一个)。所以有必要研究表示集中位置的其它的特征数。,3.1.2,众数(,Mode,),定义:对于有频数分布的变量,它的众数指频数最大的变量的值,表,3-3,频数分布表,X,f,3,15,5,2,7,3,对于已分组且等组距的频数分布,根据最大频数,可求得众数所在组。根据众数定义,可知,众数不唯一,。,3.1.2,众数(,Mode,),算术平均数作为集中位置的特征还有一缺点,就是受观测值中极端值的影响很大,而一组观测值中的极端值常常没有代表性。中位数将避免这种影响。,3.1.3,中位数(,Median,),一组,n,个观测值按数值大小排列,处于中央位置的值称为中位数以 表示,,,,当,n,为奇数,,当,n,为偶数,定义,:,即,3.1.3,中位数(,Median,),第,25,百分位数又称第一个四分位数(,First Quartile,),用,Q,1,表示;第,50,百分位数又称第二个四分位数,(,Second Quartile,),用,Q,2,表示;第,75,百分位数,又称第三个四分位数(,Third Quartile,),用,Q,3,表示。,中位数是第,50,百分位数,一组,n,个观测值按数值大小排列如,x,1,x,2,x,3,x,4,处于,p%,位置的值称第,p,百分位数。,定义,:,3.1.4,百分位数(,Percentile,),计算第,p,百分数,第,1,步:以递增顺序排列原数据(即从小到大排列),。,第,2,步:计算指数,第,3,步,1.,若,i,不是整数,将,i,向上取整。大于,i,的毗邻整数为第,p,百分位数的位置。,2.,若,i,是整数,则第,P,百分位数是第,i,项与第(,i,l,)项数据的平均值。,如何计算百分位数,数据的变,异程度,产品质量检查的结果,说明生产,是否稳定,测量的结果,说明测量方法或,仪器是精密还是粗糙,学,生,的,成,绩,成绩是,否整齐,(而不是高低),3.2,表示变异(分散)程度的特征数,定义,其中,x,max,和,x,min,分别为数据中的极大值和极小值。,3.2.1,极差(或称全距,Range,),R,对于已分组的频数分布(组数为,k,),定义,平均差,M.D.,是离差的绝对值的平均数,即,3.2.2,平均差(,Mean Absolute Deviation,),方差,样本,对于已分组的频数分布(组数为,k,),总体,样本,总体,3.2.3,方差(,Variance,),标准差(,Standard Deviation,),标准差,样本,标准差,总体,标准差,样本,标准差,总体,标准差,对于已分组的频数分布(组数为,k,),标准差的单位与,X,的单位相同。,3.2.3,方差(,Variance,),标准差(,Standard Deviation,),定义 变异系数,C,是一个无量纲的量。它适于用在比较有不同算术平均数或有不同量纲的两组数据的情况。例如比较大学生身高与小学生身高,或比较,130,名大学生身高和体重哪个变化波动范围比较大时,都可用变异系数。,3.2.4,变异系数(,Coefficient of Variation,),3.3.1,比较众数、中位数和算术平均数的相对位置,下图列举出了对称的、具有左偏态(负偏态)和右偏态(正偏态)的频数分布的例子。注意到它们的特点是:,对称的分布的众数、中位数和算术平均数相同;,具有偏倚性的分布,算术平均数突出在外,偏向分布的尾端,而中位数则介于众数与算术平均数之间。,偏倚性是表示各观测值分布不对称情况或程度的。,3.3,表示偏倚情况或程度的特征数,图,3-1,3.3.1,比较众数、中位数和算术平均数的相对位置,MeMo,MeMo,=Me=Mo,可以看出,对于单峰的分布,,对称态,:,左偏态:,右偏态:,3.3.1,比较众数、中位数和算术平均数的相对位置,3.4,五数概括法,五数概括法,(,2,)第,1,四分位数(,Q,1,)。,(,3,)中位数(,Q,2,)。,(,4,)第,3,四分位数(,Q,3,)。,(,5,)最大值。,(,1,),最小值,。,首先将数据按递增顺序排列,然后很容易就能确定最小值、,3,个四分位数和最大值了。对,12,个月薪数据的样本,按照递增顺序排列如下:,2210 2255 2350|2380 2380 2390|2420 2440 2450|2550 2630 2825,Q,1,2365 Q,2,2405 Q,3,2500,上述起薪数据以五数概括为:,2210,,,2365,,,2405,,,2500,,,2825,。,3.4,五数概括法,盒形图实际上是以图形来概括数据。我们将盒形图延至这一章才讲是因为它的关键是计算中位数和四分位数,Q,1,和,Q,3,。此外还将用到四分位数间距,IQR,Q,3,Q,1,。,盒形图的画法步骤如下:,(,1,)画一个方盒,其边界恰好是第,1,和第,3,四分位数。对于上述的起薪数据,,Q,1,2365,,,Q,3,2500,。,这个方盒包含了中间的,50,的数据。,(,2,)在方盒上中位数的位置画一条垂线(对起薪数据,中位数为,2405,)。因此中位数将数据分为相等的两个部分。,3.5,盒形图(统计图的一种),(,3,)利用四分位数间距,IQR=Q,3,Q,1,,来设定界限。盒形图的界限定于低于,Q,1,以下,1.5,个,IQR,和高于,Q,3,以上,1.5,个,IQR,的位置。上、下限以外的数值作为异常值。,(,4,)在图,3,2,中的横线叫做须线(,whisker,),须线从方盒的边线出发,直至在上、下限之内的最大值和最小值。,(,5,)最后,任一异常值的位置以符号“”标出。,3.5,盒形图,盒形图例图,图,3-2,3.5,盒形图,
展开阅读全文