数据分布特征测度

上传人:lx****y 文档编号:243325053 上传时间:2024-09-21 格式:PPT 页数:88 大小:1.10MB
返回 下载 相关 举报
数据分布特征测度_第1页
第1页 / 共88页
数据分布特征测度_第2页
第2页 / 共88页
数据分布特征测度_第3页
第3页 / 共88页
点击查看更多>>
资源描述
Click to edit Master title,Click to edit Master text styles,Second Level,Third Level,Fourth Level,Fifth Level,4 -,87,经济、管理类,基础课程,统计学,第四章 数据分布特征的测度,PowerPoint,统计学,第四章 数据分布特征的测度,第一节 集中趋势的测度,第二节 离散程度的测度,第三节 偏态与峰度的测度,学习目标,1.,集中趋势各测度值的计算方法,2.,集中趋势不同测度值的特点和应用场合,3.,离散程度各测度值的计算方法,4.,离散程度不同测度值的特点和应用场合,偏态与峰度测度方法,用,Excel,计算描述统计量并进行分析,数据分布的特征,集中趋势,(,位置,),离中趋势,(,分散程度,),偏态和峰度,(形状),数据分布的特征和测度,数据的特征和测度,分布的形状,集中趋势,离散程度,众 数,中位数,均 值,离散系数,方差和标准差,峰 度,四分位差,异众比率,偏 态,第一节 集中趋势的测度,一,.,定类数据:众数,二,.,定序数据:中位数和分位数,三,.,定距和定比数据:均值,四,.,众数、中位数和均值的比较,数据特征分布的和测度,(本节位置),数据的特征和测度,分布的形状,集中趋势,离散程度,众 数,中位数,均 值,离散系数,方差和标准差,峰 度,四分位差,异众比率,偏 态,集中趋势,(Central tendency),一组数据向其中心值靠拢的倾向和程度,测度集中趋势就是寻找数据一般水平的代表值或中心值,不同类型的数据用不同的集中趋势测度值,低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据,选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定,定类数据:众数,众数,(,概念要点,),集中趋势的测度值之一,出现次数最多的变量值,不受极端值的影响,可能没有众数或有几个众数,主要用于定类数据,也可用于定序数据和数值型数据,众数,(,众数的不唯一性,),无众数,原始数据,: 10 5 9 12 6 8,一个众数,原始数据,: 6,5,9 8,5 5,多于一个众数,原始数据,: 25,28 28,36,42 42,定类数据的众数,(,算例,),表,3-1,某城市居民关注广告类型的频数分布,广告类型,人数,(,人,),比例,频率,(%),商品广告,服务广告,金融广告,房地产广告,招生招聘广告,其他广告,112,51,9,16,10,2,0.560,0.255,0.045,0.080,0.050,0.010,56.0,25.5,4.5,8.0,5.0,1.0,合计,200,1,100,【,例,】,根据第三章表,3-1,中的数据,计算众数,解,:,这里的变量为“广告类型”,这是个定类变量,不同类型的广告就是变量值。我们看到,在所调查的,200,人当中,关注商品广告的人数最多,为,112,人,占总被调查人数的,56%,,因此众数为“商品广告”这一类别,即,M,o,商品广告,定序数据的众数,(,算例,),【,例,】,根据第三章表,3-2,中的数据,计算众数,解:,这里的数据为定序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为,108,户,因此众数为“不满意”这一类别,即,M,o,不满意,表,3-2,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数,(,户,),百分比,(%),非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,8,36,31,15,10,合计,300,100.0,数值型分组数据的众数,(,要点及计算公式,),1.,众数的值与相邻两组频数的分布有关,4.,该公式假定众数组的频数在众数组内均匀分布,2.,相邻两组的频数相等时,众数组的组中值即为众数,M,o,3.,相邻两组的频数不相等时,众数采用下列近似公式计算,M,o,M,o,数值型分组数据的众数,(,算例,),表,3-5,某车间,50,名工人日加工零件数分组表,按零件数分组,频数(人),累积频数,105,110,110,115,115,120,120,125,125,130,130,135,135,140,3,5,8,14,10,6,4,3,8,16,30,40,46,50,合计,50,【,例,4.1】,根据第三章表,3-5,中的数据,计算,50,名工人日加工零件数的众数,定序数据:中位数和分位数,中位数,(,概念要点,),集中趋势的测度值之一,排序后处于中间位置上的值,M,e,50%,50%,不受极端值的影响,主要用于定序数据,也可用数值型数据,但不能用于定类数据,各变量值与中位数的离差绝对值之和最小,即,中位数,(,位置的确定,),未分组数据:,组距分组数据:,未分组数据的中位数,(,计算公式,),定序数据的中位数,(,算例,),【,例,4.2】,根据第三章表,3-2,中的数据,计算甲城市家庭对住房满意状况评价的中位数,解:,中位数的位置为:,300/2,150,从累计频数看,中位数的在“一般”这一组别中。因此,M,e,一般,表,3-2,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数,(,户,),累计频数,非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,24,132,225,270,300,合计,300,数值型未分组数据的中位数,(5,个数据的算例,),原始数据,:,24 22 21 26 20,排 序,:,20 21 22 24 26,位 置,:,1 2,3,4 5,中位数,22,数值型未分组数据的中位数,(6,个数据的算例,),原始数据,:,10 5 9 12 6 8,排 序,:,5 6 8 9 10 12,位 置,:,1 2,3,4,5 6,位置,N+,1,2,6+1,2,3.5,中位数,8 + 9,2,8.5,根据位置公式确定中位数所在的组,采用下列近似公式计算:,4.,该公式假定中位数组的频数在该组内均匀分布,数值型分组数据的中位数,(,要点及计算公式,),数值型分组数据的中位数,(,算例,),表,3-5,某车间,50,名工人日加工零件数分组表,按零件数分组,频数(人),累积频数,105,110,110,115,115,120,120,125,125,130,130,135,135,140,3,5,8,14,10,6,4,3,8,16,30,40,46,50,合计,50,【,例,4.3】,根据第三章表,3-5,中的数据,计算,50,名工人日加工零件数的中位数,四分位数,(,概念要点,),1.,集中趋势的测度值之一,2.,排序后处于,25%,和,75%,位置上的值,3.,不受极端值的影响,4.,主要用于定序数据,也可用于数值型数据,但不能用于定类数据,Q,L,Q,M,Q,U,25%,25%,25%,25%,四分位数,(,位置的确定,),未分组数据:,组距分组数据:,下四分位数,(,Q,L,),位置,=,N+,1,4,上四分位数,(,Q,U,),位置,=,3(,N+,1),4,下四分位数,(,Q,L,),位置,=,N,4,上四分位数,(,Q,L,),位置,=,3N,4,定序数据的四分位数,(,算例,),【,例,4.4】,根据第三章表,3-2,中的数据,计算甲城市家庭对住房满意状况评价的四分位数,解:,下四分位数,(,Q,L,),的位置为:,Q,L,位置,(300)/4,75,上四分位数,(,Q,L,),的位置为:,Q,U,位置,(3300)/4,225,从累计频数看,,Q,L,在“不满意”这一组别中;,Q,U,在“一般”这一组别中。因此,Q,L,不满意,Q,U,一般,表,3-2,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数,(,户,),累计频数,非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,24,132,225,270,300,合计,300,数值型未分组数据的四分位数,(7,个数据的算例,),原始数据,:,23 21 30 32 28 25 26,排 序,:,21,23,25 26 28,30,32,位 置,:,1 2 3 4 5 6 7,N+,1,Q,L,=,23,7+,1,Q,L,位置,=,4,=,4,= 2,Q,U,位置,=,3(,N+,1),4,3(7,+,1),4,=,= 6,Q,U,=,30,数值型未分组数据的四分位数,(6,个数据的算例,),原始数据,:,23 21 30 28 25 26,排 序,:,21 23 25 26 28 30,位 置,:,1 2 34 5 6,Q,L,= 21+0.75(23-21),=,22. 5,Q,L,位置,=,N+,1,4,=,6+,1,4,= 1.75,Q,U,位置,=,3(,N+,1),4,3(6,+,1),4,=,= 5.25,Q,U,= 28+0.25(30-28),=,28.5,数值型分组数据的四分位数,(,计算公式,),上四分位数,:,下四分位数,:,数值型分组数据的四分位数,(,计算示例,),Q,L,位置,50/4,12.5,Q,U,位置,350/4,37.5,表,3-5,某车间,50,名工人日加工零件数分组表,按零件数分组,频数(人),累积频数,105,110,110,115,115,120,120,125,125,130,130,135,135,140,3,5,8,14,10,6,4,3,8,16,30,40,46,50,合计,50,【,例,4.6】,根据第三章表,3-5,中的数据,计算,50,名工人日加工零件数的四分位数,定距和定比数据:均值,均值,(,概念要点,),1.,集中趋势的测度值之一,2.,最常用的测度值,3.,一组数据的均衡点所在,4.,易受极端值的影响,5.,用于数值型数据,不能用于定类数据和定序数据,均值,(,计算公式,),设一组数据为:,X,1,,,X,2,,,,,X,N,简单均值,的计算公式为,设分组后的数据为:,X,1,,,X,2,,,,,X,K,相应的频数为:,F,1,,,F,2,,,,,F,K,加权均值,的计算公式为,简单均值,(,算例,),原始数据,:,10591368,加权均值,(算例),表,4-1,某车间50名工人日加工零件均值计算表,按零件数分组,组中值(,X,i,),频数(,F,i,),X,i,F,i,105,110,110,115,115,120,120,125,125,130,130,135,135,140,107.5,112.5,117.5,122.5,127.5,132.5,137.5,3,5,8,14,10,6,4,322.5,562.5,940.0,1715.0,1275.0,795.0,550.0,合计,50,6160.0,【,例,4.7】,根据第三章表,3-5,中的数据,计算,50,名工人日加工零件数的均值,加权均值,(,权数对均值的影响,),甲乙两组各有,10,名学生,他们的考试成绩及其分布数据如下,甲组:,考试成绩(,X,),: 0 20 100,人数分布(,F,):,1 1 8,乙组:,考试成绩(,X,),: 0 20 100,人数分布(,F,):,8 1 1,X,甲,01+201+1008,n,10,i,=1,X,i,82,(分),X,乙,08+201+1001,n,10,i,=1,X,i,12,(分),均值,(,数学性质,),1.,各变量值与均值的离差之和等于零,2.,各变量值与均值的离差平方和最小,调和平均数,(,概念要点,),1.,集中趋势的测度值之一,2.,均值的另一种表现形式,3.,易受极端值的影响,4.,用于定比数据,5.,不能用于定类数据和定序数据,6.,计算公式为,原来只是计算时使用了不同的数据!,调和平均数,(,算例,),表,4-3,某日三种蔬菜的批发成交数据,蔬菜,名称,批发价格,(,元,),X,i,成交额,(,元,),X,i,F,i,成交量,(,公斤,),F,i,甲,乙,丙,1.20,0.50,0.80,18000,12500,6400,15000,25000,8000,合计,36900,48000,【,例,4.8,】,某蔬菜批发市场三种蔬菜的日成交数据如表,4-2,,计算三种蔬菜该日的平均批发价格,几何平均数,(,概念要点,),1.,集中趋势的测度值之一,2.,N,个变量值乘积的,N,次方根,3.,适用于特殊的数据,4.,主要用于计算平均发展速度,5.,计算公式为,6.,可看作是均值的一种变形,几何平均数,(,算例,),【,例,4.10】,一位投资者持有一种股票,,1996,年、,1997,年、,1998,年和,1999,年收益率分别为,4.5%,、,2.0%,、,3.5%,、,5.4%,。计算该投资者在这四年内的平均收益率。,平均收益率,103.84%-1=3.84%,众数、中位数和均值的比较,众数、中位数和均值的关系,对称分布,均值,=,中位数,=,众数,左偏分布,均值,中位数,众数,右偏分布,众数,中位数,均值,数据类型与集中趋势测度值,表,4-4,数据类型和所适用的集中趋势测度值,数据类型,定类数据,定序数据,定距数据,定比数据,适,用,的,测,度,值,众数,中位数,均值,均值,四分位数,众数,调和平均数,众数,中位数,几何平均数,四分位数,中位数,四分位数,众数,第二节 离散程度的测度,一,.,定类数据:异众比率,二,.,定序数据:四分位差,三,.,定距和定比数据:方差及标准差,四,.,相对离散程度:离散系数,离中趋势,数据分布的另一个重要特征,离中趋势的各测度值是对数据离散程度所作的描述,反映各变量值远离其中心值的程度,因此也称为离中趋势,从另一个侧面说明了集中趋势测度值的代表程度,不同类型的数据有不同的离散程度测度值,数据的特征和测度,(本节位置),数据的特征和测度,分布的形状,离散程度,集中趋势,众 数,中位数,均 值,离散系数,方差和标准差,峰 度,四分位差,异众比率,偏 态,定类数据:异众比率,异众比率,(,概念要点,),1.,离散程度的测度值之一,2.,非众数组的频数占总频数的比率,3.,计算公式为,4.,用于衡量众数的代表性,异众比率,(,算例,),表,3-1,某城市居民关注广告类型的频数分布,广告类型,人数,(,人,),频率,(%),商品广告,服务广告,金融广告,房地产广告,招生招聘广告,其他广告,112,51,9,16,10,2,56.0,25.5,4.5,8.0,5.0,1.0,合计,200,100,【,例,4.11】,根据第三章表,3-1,中的数据,计算异众比率,解:,在所调查的,200,人当中,关注非商品广告的人数占,44%,,异众比率还是比较大。因此,用“商品广告”来反映城市居民对广告关注的一般趋势,其代表性不是很好,V,r,=,200 - 112,200,= 1 -,112,200,= 0.44 = 44%,定序数据:四分位差,四分位差,(,概念要点,),1.,离散程度的测度值之一,2.,也称为内距或四分间距,3.,上四分位数与下四分位数之差,Q,D,=,Q,U,-,Q,L,4.,反映了中间,50%,数据的离散程度,不受极端值的影响,用于衡量中位数的代表性,四分位差,(,定序数据的算例,),【,例,4.12】,根据第三章表,3-2,中的数据,计算甲城市家庭对住房满意状况评价的四分位差,解:,设非常不满意为,1,不满意为,2,一般为,3,满意为,4,非常满意为,5,已知,Q,L,=,不满意,=,2,,,Q,U,=,一般,=,3,四分位差:,Q,D,=,Q,U,=,Q,L,=,3 2,=,1,表,3-2,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数,(,户,),累计频数,非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,24,132,225,270,300,合计,300,定距和定比数据:方差和标准差,极差,(,概念要点及计算公式,),1.,一组数据的最大值与最小值之差,2.,离散程度的最简单测度值,3.,易受极端值影响,4.,未考虑数据的分布,7,8,9,10,7,8,9,10,未分组数据,R,= max(,X,i,) - min(,X,i,),.,=,组距分组数据,R,最高组上限,-,最低组下限,5.,计算公式为,平均差,(,概念要点及计算公式,),1.,离散程度的测度值之一,2.,各变量值与其均值离差绝对值的平均数,3.,能全面反映一组数据的离散程度,4.,数学性质较差,实际中应用较少,5.,计算公式为,未分组数据,组距分组数据,平均差,(计算过程及结果),表,4-5,某车间50名工人日加工零件标准差计算表,按零件数分组,组中值,(,X,i,),频数,(,F,i,),|,X,i,-,X,|,|,X,i,-,X,|,F,i,105,110,110,115,115,120,120,125,125,130,130,135,135,140,107.5,112.5,117.5,122.5,127.5,132.5,137.5,3,5,8,14,10,6,4,15.7,10.7,5.7,0.7,4.3,9.3,14.3,47.1,53.5,45.6,9.8,43.0,55.8,57.2,合计,50,312,【,例,4.13】,根据第三章表,3-5,中的数据,计算工人日加工零件数的平均差,方差和标准差,(,概念要点,),1.,离散程度的测度值之一,2.,最常用的测度值,3.,反映了数据的分布,反映了各变量值与均值的平均差异,根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差,4 6 8 10 12,X =,8.3,总体方差和标准差,(,计算公式,),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,总体标准差,(计算过程及结果),表,4-6,某车间50名工人日加工零件标准差计算表,按零件数分组,组中值,(,X,i,),频数,(,F,i,),(,X,i,-,X,),2,(,X,i,-,X,),2,F,i,105,110,110,115,115,120,120,125,125,130,130,135,135,140,107.5,112.5,117.5,122.5,127.5,132.5,137.5,3,5,8,14,10,6,4,246.49,114.49,32.49,0.49,18.49,86.49,204.49,739.47,572.45,259.92,6.86,184.90,518.94,817.96,合计,50,3100.5,【,例,4.14】,根据第三章表,3-5,中的数据,计算工人日加工零件数的标准差,样本方差和标准差,(,计算公式,),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,注意:,样本方差用自由度,n-1,去除,!,样本方差,自由度,(degree of freedom),一组数据中可以自由取值的数据的个数,当样本数据的个数为,n,时,若样本均值,x,确定后,只有,n,-1,个数据可以自由取值,其中必有一个数据则不能自由取值,例如,样本有,3,个数值,即,x,1,=2,,,x,2,=4,,,x,3,=9,,,则,x,= 5,。当,x,= 5,确定后,,x,1,,,x,2,和,x,3,有两个数据可以自由取值,另一个则不能自由取值,比如,x,1,=6,,,x,2,=7,,,那么,x,3,则必然取,2,,而不能取其他值,样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差,2,时,它是,2,的无偏估计量,样本方差,(,算例,),原始数据,:,10 5 9 13 6 8,样本标准差,(,算例,),样本标准差,原始数据,:,10 5 9 13 6 8,方差,(,简化计算公式,),样本方差,总体方差,方差,(,数学性质,),各变量值对均值的方差小于对任意值的方差,设,X,0,为不等于,X,的任意数,,D,2,为对,X,0,的方差,则,标准化值,(,概念要点和计算公式,),1.,也称标准分数,2.,给出某一个值在一组数据中的相对位置,3.,可用于判断一组数据是否有离群点,4.,用于对变量的标准化处理,5.,计算公式为,相对离散程度:离散系数,离散系数,(,概念要点和计算公式,),1.,标准差与其相应的均值之比,2.,消除了数据水平高低和计量单位的影响,3.,测度了数据的相对离散程度,4.,用于对不同组别数据离散程度的比较,5.,计算公式为,离散系数,(实例和计算过程),表,4-7,某管理局所属8家企业的产品销售数据,企业编号,产品销售额(万元),X,1,销售利润(万元),X,2,1,2,3,4,5,6,7,8,170,220,390,430,480,650,950,1000,8.1,12.5,18.0,22.0,26.5,40.0,64.0,69.0,【,例,4.16】,某管理局抽查了所属的,8,家企业,其产品销售数据如表,4.7,。试比较产品销售额与销售利润的离散程度,离散系数,(,计算结果,),X,1,=,536.25,(万元),S,1,=,309.19,(万元),V,1,=,536.25,309.19,=,0.577,S,2,=,23.09,(万元),V,2,=,32.5215,23.09,=,0.710,X,2,=,32.5215,(万元),结论:,计算结果表明,,V,1,0,为,右偏分布,4.,偏态系数, 0,为,左偏分布,5.,计算公式为,偏态,(,实例,),【,例,4.17,】,已知,1997,年我国农村居民家庭按纯收入分组的有关数据如表,4.9,。试计算偏态系数,表,4-10 1997,年,农村居民家庭纯收入数据,按纯收入分组(元),户数比重(,%,),500,以下,5001000,10001500,15002000,20002500,25003000,30003500,35004000,40004500,45005000,5000,以上,2.28,12.45,20.35,19.52,14.93,10.35,6.56,4.13,2.68,1.81,4.94,户数比重,(%),25,20,15,10,5,农村居民家庭村收入数据的直方图,偏态与峰度,(,从直方图上观察,),按纯收入分组,(,元,),1000,500,1500,2000,2500,3000,3500,4000,4500,5000,结论,:,1.,为右偏分布,2.,峰度适中,偏态系数,(计算过程),表,4-10,农村居民家庭纯收入数据偏态及峰度计算表,按纯收入分组,(百元),组中值,X,i,户数比重,(%),F,i,(,X,i,-,X,),F,i,3,(,X,i,-,X,),F,i,4,5,以下,510,1015,1520,2025,2530,3035,3540,4045,4550,50,以上,2.5,7.5,12.5,17.5,22.5,27.5,32.5,37.5,42.5,47.5,52.5,2.28,12.45,20.35,19.52,14.93,10.35,6.56,4.13,2.68,1.81,4.94,-154.64,-336.46,-144.87,-11.84,0.18,23.16,89.02,171.43,250.72,320.74,1481.81,2927.15,4686.51,1293.53,46.52,0.20,140.60,985.49,2755.00,5282.94,8361.98,46041.33,合计,100,1689.25,72521.25,偏态系数,(,计算结果,),根据上表数据计算得,将计算结果代入公式得,结论:,偏态系数为正值,而且数值较大,说明农村居民家庭纯收入的分布为右偏分布,即收入较少的家庭占据多数,而收入较高的家庭则占少数,而且偏斜的程度较大,峰 度,峰度,(,概念要点,),1.,数据分布扁平程度的测度,2.,峰度系数,=3,扁平程度适中,3.,偏态系数,3,为,尖峰分布,5.,计算公式为,峰度系数系数,(,实例计算结果,),代入公式得,【,例,4.18,】,根据表,4-10,中的计算结果,计算农村居民家庭纯收入分布的峰度系数,结论:,由于,=3.43,,说明我国农村居民家庭纯收入的分布为尖峰分布,说明低收入家庭占有较大的比重,由,Excel,输出的描述统计量,本章小节,1.,集中趋势各测度值的含义、计算方法、特点和应用场合,2.,离散程度各测度值的含义、计算方法、特点和应用场合,偏态及峰度的测度方法,用,Excel,计算描述统计量,结 束,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!