资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第四章 集中趋势和离中趋势,4.1,集中趋势的计量,4.2,离中趋势的计量,4.3,数据的分布形状,1.,简单算术平均数,计算公式,:,它是反映数据集中的主要测度,。,4.1,集中趋势的计算,集中趋势反映一组数据中各数据所具有的共同趋势,即资料中各数据聚集的位置。,一、算术平均(也叫均值),算术平均的统计含义:算术平均数是同质总体各数据偶然性、随机性特征互相抵消后的稳定数值。反映数据集中的特征。,例,某生产班组,11,个工人的日产零件数分别为:,15,,,17,,,19,,,20,,,22,,,26,,,30,。求该生产班组工人的平均日产零件数。,22,解:,算术平均值的性质一,:,数据观察值与均值的离差值之和为零,.,此性质表明均值是各数值的重心,算术平均值的性质二:,观察值与均值的离差平方和最小。,为任意数,故用算术平均值来预测作为估计值,误差平方和最小。,数列,:1,2,2,3,平均数为,2,数列,:1,2,2,5,平均数为,2.5,数列,:1,2,2,7,平均数为,3,均值的缺点:,均值易受极端值的影响,某个极端大值或极端小值都会影响均值的代表性。同时还影响其对集中趋势测度的准确性。,2.,加权算术平均数,如果数据是分组资料,经过整理形成了次数分配,由于各组次数不同,要用次数作权数计算加权算术平均数。,则均值的计算公式为:,其中,X,i,表示第,i,组的组中值,,f,i,表示第,i,组的次数。,工人一周生产零件数,工人数,f,i,组中值,x,i,x,i,f,i,60,以下,7,55,385,60-70,21,65,1365,70-80,25,75,1875,80-90,19,85,1615,90,以上,8,95,760,合计,80,-,6000,例:某单位,80,工人一周生产零件数的分组统计资料如下表:,二、中位数,将数据观察值,x,1,x,2,x,n,按其变量值由小到大的顺序排列,,处于数列中点位置的数值就是中位数(,M,e,),。,中位数的确定方法:,如果数据个数为,奇数,,,则处于,(,n+1)/2,位置的标志值是中位数。,如果数据个数为,偶数,,,则处于,n/2,、,n/2+1,的两个标志值的平均数为中位数。,如果是组距分组资料,公式为:,中位数是,n/2,位置上的数值,设落在第,i,组,L,i,是中位数所在组的下限,,f,i,是中位数所在组的次数。,F,i-1,是中位数所在组的前一组的累积次数,U,i,-L,i,是中位数所在组的组距,=,上限,-,下限,向上累,积,向下累,积,某单位,80,工人一周生产零件数分组统计资料如下:,工人一周生产零件数,工人数,f,i,组中值,x,i,x,i,f,i,向上累计频数,向下累计频数,60,以下,7,55,385,7,80,60-70,21,65,1365,28,73,70-80,25,75,1875,53,52,80-90,19,85,1615,72,27,90,以上,8,95,760,80,8,合计,80,-,6000,-,-,中位数是位置平均数,不受极端值的影响。各个数值相对其中位数的绝对离差之和为最小。,不足:中位数确定时只与中间位置的相关数据有关,而不考虑其它数值的大小,缺乏敏感性;计算复杂。,三、众 数,众数是一组资料中出现次数最多的那个数值,也反映数据集中的程度(,M,0,)。,未分组资料,,M,0,就是出现次数最多的变量值。,20,,,15,,,18,,,20,,,20,,,22,,,20,,,23,20,,,20,,,15,,,19,,,19,,,20,,,19,,,25,10,,,11,,,13,,,16,,,15,,,25,,,8,,,12,分组资料:在等距分组的情况下,频数最多的组是众数组,在该组内确定众数。,设众数在第,i,组,则,L,i,是众数所在组的下限,,U,i,是众数所在组的上限;,f,i,是众数所在组的次数。,d,i,=,U,i,-L,i,是中位数所在组的组距,=,上限,-,下限,某单位,80,工人一周生产零件数分组统计资料如下:,工人一周生产零件数,工人数,f,i,组中值,x,i,x,i,f,i,向上累计频数,向下累计频数,60,以下,7,55,385,7,80,60-70,21,65,1365,28,73,70-80,25,75,1875,53,52,80-90,19,85,1615,72,27,90,以上,8,95,760,80,8,合计,80,-,6000,-,-,在,Excel,中,AVERAGE,(),计算算术平均数,利用,SUM,()函数和,SUMPRODUCT,()函数求加权算术平均。,MEDIAN,(),计算中位数,MODE,(),计算众数,四、均值、中位数、众数三者之间的关系,X,f,X,f,X,f,(,对称分布,),正偏态分布(右),负偏态分布,(,左),均值是数据分布的平衡点或重心,中位数把这个分布划分为两半,众数正好是分布的顶端。,在偏斜不大时,中位数大约位于均值与众数的,1/3,处。,算术平均数适用于定距变量(或数值变量、定量变量),中位数适用于定序变量,众数则适用于定类变量(或定性变量),五、集中趋势的其它测度量,1.,分位数:四分位数、十分位数、百分位数。,分位数的计算:,(,1,)将资料按大小顺序排列;,(,2,)求出分位数所在位置,i,;,(,3,)若,i,为整数,则所求分位数为该位置上的数值;若,i,为非整数,则取第,i,与第,i+1,位置的两个数值的平均数为所求分位数。,(,4,)若资料为分组数据,则各分位数可按下式计算:,K,i,表示第,i,个,K,分位数;,L,i,表示第,i,个,K,分位数所在组的下限;,N,表示数据总个数;,F,i-1,表示第,i,个,K,分位数所在组的前一组的累积次数;,f,i,是第,i,个,K,分位数所在组的次数。,d,i,=,U,i,-L,i,是第,i,个,K,分位数所在组的组距。,其中,表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间,0.5,的位置上,四分位数的位置确定方法:,方法,1,:定义算法,方法,2,:以中位数为中心,从两端再计算中位数,公式:,方法,3 Excel,给出的四分位数位置的确定方法,无论哪种算法,如果位置是整数,四分位数就是该位置对应的值;如果是在,0.5,的位置上,则取该位置两侧值的平均数;如果在,0.25,或,0.75,位置上,则四分位数等于该位置的下侧值加上按比例分摊位置两侧数值的差值。,【,例,】,:,9,个家庭的人均月收入数据,(3,种方法计算,),原始数据,:1500 750 780 1080 850 960 2000 1250 1630,排,序,:750 780 850 960 1080 1250 1500 1630 2000,位 置,:1 2 3 4 5 6 7 8 9,方法,1,:,方法,2,:,所以,Q,L,为从最小值数第,3,个数值,即,850,元;,Q,u,为从最大值数第,3,个数值,即,1500,元;,方法,3 Excel,方法,所以,Q,L,为第,3,个数值,即,850,元;,Q,u,为,7,个数值,即,1500,元;,可见三种方法计算的四分位数不完全相同。但对他们的解释是一样的,即排序数据中,至少,25%,的数据小于等于,Q,L,,,至少,75%,的数据小于等于,Q,u,。,原始数据,:,1500 750 780 1080 850 960 2000 1250 1630,排 序,:,750 780 850 960 1080 1250 1500 1630 2000,位 置,:,1 2 3 4 5 6 7 8 9,2.,几何平均数,公式为:,用,于,计算平均比率或平均速度。包括,(,1,)对比率进行平均;,(,2,)测定生产或经济变量的时间序列,的,平均,增长率,。,举例:将一笔钱存入银行,存期,10,年,以复利计息,,10,年的利率分配是:第,1,年至第,2,年为,5%,、第,3,年至,5,年为,8%,、第,6,年至第,8,年为,10%,、第,9,年至第,10,年,12%,,计算平均年利率。,注意:当观测值有一项为,0,或负值时,不易计算几何平均数。,3.,调和平均值,调和平均值是观察值倒数之平均数的倒数,也称倒数平均数。用 表示:,(,1,)具有倒数性质,例如某人前,10,公里以时速,50,公里行驶,后,10,公里以,30,公里时速行驶。这,20,公里花了,0.533,小时,所以平均时速,(,2,)总体单位数未知时,例,4.11,(,71,),加权调和平均数,应用条件:资料经过分组,各组次数不同。,算术平均、几何平均、调和平均三者关系,三者均属于均值体系,算术平均值是直接对观测值进行平均;几何平均值是对观察值对数后的平均;调和平均值是对观察值取倒数后平均;一般情况下,有如下关系,:,在,Excel,中,QUARTILE,(),计算四分位数,PERCENTILE,(),计算百分位数,GEOMEAN(),计算几何平均数,HARMEAN(),计算简单调和平均数,4.2,离中趋势的计算,离中趋势是数据分布的又一特征,它表明变量值的差异或离散程度。,离中趋势测度经常用到的指标有:极差、方差和标准差、四分位差等,它们也被称为变异指标。,一、极差,极差也称为全距,是一组数据的最大值和最小值的差:,缺点:,易受极端值的影响。,全距值越小,数据变动范围越小,平均数的代表性越高;全距值越大,数据数据变动范围越大,平均数的代表性越低。,二、平均差,1,、平均差是指数据值与其均值之差的绝对值的算术平均值,用符号,AD,表示。计算公式:,2,、优点:完整地反映了全部数据的分散程度,计算方法简单;,缺点:易受极值影响,绝对值计算不方便。,分组数据:,未分组数据:,平均差越大,,平均数代表性越低;,平均差愈小,平均数代表性越高,三、方差与标准差,总体方差是观察值与其均值离差平方和的均值;,总体标准差是总体方差的正平方根;,如果计算总体方差的资料是次数分配数据,在计算总体方差时要将各组权数考虑进去,有如下公式:,总体方差的另一种表达方式:,总体方差愈大,数据的变动程度愈大,,总体方差愈,小,,数据的,变动程度愈小。,样本方差与样本标准差,当样本数据个数足够大时,样本方差与总体方差很接近,在,Excel,中,Max,(),-min,(),计算极差,AVEDEV,(),计算平均差,VARP,(),计算总体方差,VAR,(),计算样本方差,STDEVP,(),计算总体标准差,STDEV,(),计算样本标准差,四、,Chebishev,定理与经验法则,1.Chebishev,定理:,对任何一组资料,观测值落于均值左右,k,个标准差的区间内的比例,至少为(,1-1/k,2,)。,Chebishev,定理适用于任何形状的次数分布资料,但此区间是一个比较保守的估计值。,2.,经验法则:,当资料分布呈对称形状时,有:,(,1,)约有,68%,的观测值落于 的区间内;,(,2,)约有,95%,的观测值落于 的区间内;,(,3,)约有,97%,的观测值落于 的区间内;,五、相对离中趋势,变异系数,定义:变异系数又称离散系数,是标准差与均值的比值。,公式:,对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较,例:,C.V.,甲,300,7.5,2.5%,乙,400,9,2.25%,从,上看,甲的 更具代表性,通过,C.V.,,乙不但 高,而且各地块产量比甲农场稳定,因此乙的 最具有代表性。,【,例,】,评价哪名运动员的发挥更稳定,发挥比较稳定的运动员是塞尔维亚的亚斯娜,舍卡里奇和中国的郭文珺,发挥不稳定的运动员是蒙古的卓格巴德拉赫,蒙赫珠勒和波兰的莱万多夫斯卡,萨贡,六、离中趋势的其它测度量,1.,四分位差,四分位差是第三个四分位值与第一个四分位值之差的二分之一。用,Q.D.,表示。,意义:
展开阅读全文