资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第,4,章 统计数据特征的描述,4.1,分布集中趋势的测度,4.2,分布离散程度的测度,4.3,分布偏态与峰度的侧度,4.4,茎叶图与箱线图,4.5,统计表与统计图,本章小结,学习目标,掌握数据集中趋势和离散程度的测度方法,掌握茎叶图和箱线图的制作方法,掌握分布偏态与峰度的测度方法,掌握统计表和统计图的使用,学习重点,侧度数据集中趋势指标的计算方法及应用,侧度数据离散程度指标的计算方法及应用,统计表与统计图,学习难点,方差、标准差、变异系数的实质,授课学时,4,学时,4.1,分布集中趋势的测度,分布集中趋势的测度值是,反映数据一般水平,的代表值或者数据分布的中心值 。,一、众数,二、中位数,三、四分位数,四、均值,五、几何均值,六、切尾均值,七、众数、中位数和均值的比较,众数,众数,(,mode,),一组数据中出现次数最多的变量值,适合于数据量较多时使用,不受极端值的影响,一组数据可能没有众数或有几个众数,主要用于分类数据,也可用于顺序数据和数值型数据,众数计算公式见书页。,众数,(,不惟一性,),无众数,一个众数,多于一个众数,中位数,中位数,(,median,),排序后处于中间位置上的值,M,e,50%,50%,不受极端值的影响,主要用于顺序数据,也可用数值型数据,但不能用于分类数据,各变量值与中位数的离差绝对值之和最小,即,中位数计算,(1),为分组资料,中位数位置,=(n+1)/2,(奇数项与偶数项),(,2,)分组资料,中位数位置,=n/2,中位数在累计频数刚刚大于中位数位置的组,众数计算公式见书页。,四分位数,四分位数,(,quartile,),排序后处于,25%,和,75%,位置上的值,不受极端值的影响,主要用于顺序数据,也可用于数值型数据,但不能用于分类数据,Q,L,Q,M,Q,U,25%,25%,25%,25%,四分位数,(,位置的确定,),未分组数据:,分组数据:,均 值,均值(算数平均数),(,mean,),集中趋势的最常用测度值,一组数据的均衡点所在,体现了数据的必然性特征,易受极端值的影响,用于数值型数据,不能用于分类数据和顺序数据,注意均值的平均性,简单,算数平均数,(simple mean),设,一组数据为:,x,1,,,x,2,,,,,x,n,总体均值,样本均值,加权,算数平均数,(weighted mean),设,一组数据为:,x,1,,,x,2,,,,,x,n,相应的频数为:,f,1,,,f,2,,,,,f,k,总体均值,样本均值,加权算数平均数,(,例题分析,),均值,(,数学性质,),1.,各变量值与均值的离差之和等于零,2.,各变量值与均值的离差平方和最小,几何平均数,几何平均数,(,geometric mean,),n,个变量值乘积的,n,次方根,主要用于计算平均比率或平均速度,计算公式为,5.,可看作是均值的一种变形,几何平均数,(,例题分析,),【,例,】,一位投资者购持有一种股票,在,2000,年、,2001,年、,2002,年和,2003,年收益率分别为,4.5%,、,2.1%,、,25.5%,、,1.9%,。,计算该投资者在这四年内的平均收益率,算术平均:,几何平均:,几何平均数,(,例题分析,),【,例,】,胡锦涛在十七大报告中提出,实现人均国内生产总值,(GDP),到,2020,年比,2000,年翻两番。,切尾均值,切尾均值,(trimmed Mean),去掉大小两端的若干数值后计算中间数据的均值,在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用,计算公式为,n,表示观察值的个数;,表示切尾系数,,切尾均值,(,例题分析,),【,例,】,谋次比赛共有,11,名评委,对某位歌手的给分分别是:,经整理得到顺序统计量值为,去掉一个最高分和一个最低分,,取,1/11,众数、中位数和均值的比较,众数、中位数和均值的关系,左偏(负偏)分布,均值,中位数,众数,对称,(,正态,),分布,均值,=,中位数,=,众数,右偏(正偏)分布,众数,中位数,均值,众数、中位数、均值的,特点和应用,众数,不受极端值影响,具有不惟一性,数据分布偏斜程度较大时应用,中位数,不受极端值影响,数据分布偏斜程度较大时应用,均值,易受极端值影响,数学性质优良,数据对称分布或接近对称分布时应用,4.2,分布离散程度的测度,分布离散程度的测度值反映数据分布离散和差异,程度。主要包括:,一、极差,二、内距,三、方差和标准差,四、离散系数,极差,(,range,),一组数据的最大值与最小值之差,离散程度的最简单测度值,易受极端值影响,未考虑数据的分布,R,=,max(,x,i,) -,min(,x,i,),计算公式为,内距,(Inter-Quartile Range,IQR),也称四分位差,上四分位数与下四分位数之差,内 距,=,Q,3,Q,1,反映了中间,50%,数据的离散程度,不受极端值的影响,可用于衡量中位数的代表性,方差和标准差,方差和标准差,(,Variance,and,Standard deviation,),1.,反映了数据的分布离散程度和差异程度的最常用的测度值。,2.,反映了各变量值与均值的平均差异。,3.,根据总体数据计算的,称为总体方差或标准,差;根据样本数据计算的,称为样本方差或,标准差,总体方差和标准差,(simple,variance,and,standard deviation,),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,样本方差和标准差,(simple,variance,and,standard deviation,),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,注意:,样本方差用自由度,n,-1,去除,!,样本方差,自由度,(degree of freedom),一组数据中可以自由取值的数据的个数,当样本数据的个数为,n,时,若样本均值,x,确定后,只有,n,-1,个数据可以自由取值,其中必有一个数据则不能自由取值,例如,样本有,3,个数值,,即,x,1,=2,,,x,2,=4,,,x,3,=9,,则,x,= 5,。,当,x,= 5,确定后,,x,1,,,x,2,和,x,3,有两个数据可以自由取值,另一个则不能自由取值,比如,x,1,=6,,,x,2,=7,,,那么,x,3,则必然取,2,,而不能取其他值,样本标准差,(,例题分析,),某电脑公司销售量数据平均差计算表,按销售量分组,组中值,(,M,i,),频数,(,f,i,),140150,150 160,160 170,170 180,180 190,190 200,200 210,210 220,220 230,230 240,145,155,165,175,185,195,205,215,225,235,4,9,16,27,20,17,10,8,4,5,40,30,20,10,0,10,20,30,40,50,160,270,320,270,0,170,200,240,160,250,合计,120,55400,样本标准差,(,例题分析,),含义:,每一天的销售量与平均数相比,,平均相差,21.58,台,离散系数,离散系数,(,coefficient of variation,),1.,标准差与其相应的均值之比,对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,4.,用于对不同组别数据离散程度的比较,5.,计算公式为,在什么情况下使用离散系数呢?,当两个数列的,性质相同且均值相等,的情况下用标准差说明平均数代表性的高低。,当两个数列的,性质不同或均值不同,的情况下需要用,离散系数,说明平均数,代表性的高低。,离散系数,(,例题分析,),某管理局所属8家企业的产品销售数据,企业编号,产品销售额(万元),x,1,销售利润(万元),x,2,1,2,3,4,5,6,7,8,170,220,390,430,480,650,950,1000,8.1,12.5,18.0,22.0,26.5,40.0,64.0,69.0,【,例,】,某管理局抽查了所属的,8,家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度,离散系数,(,例题分析,),结论:,计算结果表明,,v,1, 0,为右偏分布,偏态系数, 0,为左偏分布,计算公式:,偏态系数,(,例题分析,),某电脑公司销售量偏态及峰度计算表,按销售量份组,(,台,),组中值,(,M,i,),频数,f,i,140 150,150 160,160 170,170 180,180 190,190 200,200 210,210 220,220 230,230 240,145,155,165,175,185,195,205,215,225,235,4,9,16,27,20,17,10,8,4,5,-256000,-243000,-128000,-27000,0,17000,80000,216000,256000,625000,10240000,7290000,2560000,270000,0,170000,1600000,6480000,10240000,31250000,合计,120,540000,70100000,偏态系数,(,例题分析,),结论,:,偏态系数为正值,但与,0,的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数,峰态及其测度,(,kurtosis,),统计学家,Pearson,于,1905,年首次提出,数据分布扁平程度的测度,峰态系数,=,扁平峰度适中,峰态系数,为尖峰分布,计算公式,峰态系数,(,例题分析,),结论:,偏态系数小于,但与的差异不大,说明电脑销售量为轻微扁平分布,4.4,茎叶图与箱线图,一、茎叶图,二、箱线图,茎叶图,(stem-and-leaf display),用于显示未分组的原始数据的分布。,由“茎”和“叶”两部分构成,其图形是由数字组成的。,以该组数据的高位数值作树茎,低位数字作树叶,树叶上只保留一位数字(个位数)。,茎叶图类似于横置的直方图,但又有区别,直方图可观察一组数据的分布状况,但没有给出具体的数值。,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息。,茎叶图,(,例题分析,P22,表,2.7),茎叶图,(,扩展的茎叶图,04,,,59),箱线图,(,box plot,),用于显示未分组的原始数据的分布。,箱线图由一组数据的,5,个特征值绘制而成,它由一个箱子和两条线段组成。,箱线图的绘制方法,首先找出一组数据的,5,个特征值,,即最大值、最小值、中位数,M,e,和两个四分位数,(,下四分位数,Q,L,和上四分位数,Q,U,)。,连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接 。,箱线图,(,箱线图的构成,),中位数,4,6,8,10,12,Q,U,Q,L,X,最大值,X,最小值,简单箱线图,箱线图,(,例题分析,),最小值,84,最大值,128,中位数,105,下四分位数,96,上四分位数,109,80 85 90 95 100 105 110 150 120 125 130,周加工零件数的箱线图,分布的形状与箱线图,对称分布,Q,L,中位数,Q,U,左偏分布,Q,L,中位数,Q,U,右偏分布,Q,L,中位数,Q,U,不同分布的箱线图,未分组数据,多批数据箱线图,(,例题分析,),【,例,】,从某大学经济管理专业二年级学生中随机抽取,11,人,对,8,门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征,11,名学生各科的考试成绩数据,课程名称,学生编号,1,2,3,4,5,6,7,8,9,10,11,英语,经济数学,西方经济学,市场营销学,财务管理,基础会计学,统计学,计算机应用基础,76,65,93,74,68,70,55,85,90,95,81,87,75,73,91,78,97,51,76,85,70,92,68,81,71,74,88,69,84,65,73,95,70,78,66,90,73,78,84,70,93,63,79,80,60,87,81,67,86,91,83,77,76,90,70,82,83,82,92,84,81,70,69,72,78,75,78,91,88,66,94,80,85,71,86,74,68,79,62,81,81,55,78,70,75,68,71,77,未分组数据,多批数据箱线图,(,例题分析,),8,门课程考试成绩的箱线图,11,名学生,8,门课程考试成绩的箱线图,min-max,25%-75%,median value,45,55,65,75,85,95,105,学生,1,学生,2,学生,3,学生,4,学生,5,学生,6,学生,7,学生,8,学生,9,学生,10,学生,11,未分组数据,多批数据箱线图,(,例题分析,),4.5,统计表与统计图,统计表,是显示统计数据的工具。,统计表由表头、行标题、列标题、和数字资料四部分组成。,表头放在表的正上方,说明统计表的主要内容。,行标题放在表的第一列,说明研究问题的类别。,列标题放在表的第一行,说明研究问题的指标名称。,表的其余部分为统计数字。,表外附加放在表的下方,指明资料来源,必要说明,指标注释等。,1999,2000,年城镇居民家庭抽样调查资料,项目,单位,1999,年,2000,年,调查户数,平均每户家庭人口,平均每户就业人口,平均每户就业面,平均一名就业者负担人数,平均每人全部年收入,可支配收入,平均每人消费性支出,户,人,人,%,元,元,元,元,40044,3.14,1.77,56.43,1.77,5888.77,5854.02,4615.91,4222.0,3.13,1.68,53.67,1.86,6316.81,6279.98,4998.00,资料来源:,中国统计年鉴,2001,,中国统计出版社,,2001,,第,305,页。,注:本表为城市和县城的城镇居民家庭抽样调查材料。,行标题,列标题,数字资料,表头,附加,统计表的设计,统计表设计原则:科学、实用、简练、美观,首先,合理安排统计表的结构。,其次,表头一般应包含标号、总标题和表中数据的单位等内容。(表头包含时间、地点、何种数据)。,第三,通常情况下,统计表的左右两边不封口,上下两条线要粗,中间其他线要细。列标题用竖线隔开,行标题之间一般不用横线隔开。以小数点同一位数右对齐。,第四,“,”,表示没有数据,“, ”,表示缺少。,第五,统计表的栏数较多,可以在表或各栏应用(,1,),、,(,2,)、(,3,)等数字编号;,第六,统计表要注明计量单位和资料来源。数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明。,统计表,某地区工业企业主要经济指标,经济类型,企业数(个),年,平均职工人数(人),工业增加值(万元),年末固定资产净值(万元),国有经济,集体经济,外商经济,其他经济,合计,统计表,某企业职工计划完成程度统计表,计划完成程度(,%,),职工人数,比重(,%,),8090,1,3.33,90100,3,10.00,100110,17,56.67,110120,6,20.00,120130,3,10.00,合计,30,100.00,统计表,某企业商品销售统计表,商品名称,计量单位,价格(元),销售量,销售额(元),(,甲),(乙),(,1,),(,2,),(,3,),皮鞋,双,帽子,顶,手套,副,合计,统 计 图,直方图,折线图,圆饼图,曲线图,统计图,直方图,统计图,折线图,统计图,圆饼图,统计图,曲线图,条形图、三维条形图,饼图、三维饼图,三维圆柱图,三维圆锥图,面积图,三维面积图,三维曲面图,折 线 图,本章小结,分布集中趋势的测度,分布离散程度的测度,分布偏态与峰度的侧度,茎叶图与箱线图,统计表与统计图,
展开阅读全文