资源描述
,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第3章 统计数据的整理与显示,统计整理,是根据统计研究的目的,将统计调查所得到的原始资料(也称初级资料)进行科学的分类和汇总,或对已经经过加工的综合资料(也称次级资料)进行再加工,为统计分析准备系统化的、条理化的、能够反映总体特征的综合资料的工作过程。,例如,某班50名学生,调查其考分资料如下:,77 65 83 56 68 70 99 65 73 72 88 66 74 63 71 84 62 52 80 78 84 79 81 64 58 82 76 62 73 75 89 79 61 65 54 92 86 73 68 51 69 64 78 63 76 68 72 77 81 76,上述这些考分(原始资料)的特点是零星分散、不系统、无规律,,不能反映学生总体的,学习情况。,按考分分组,(分),学生人数,(人),60以下,60 70,70 80,80 90,90 100,5,15,18,10,2,合 计,50,由,表3-1,可见,整理后的学生考分资料,较整理前的考分资料明显要,条理、系统。,由上表可见,在学生总体中,60分以下和90分以上的学生人数都较少,绝大多数,学生,的考分分布在6089分之间。,表3-1,所以,统计整理是统计调查的继续,是统计分析的前提,,它实现了从个别单位的标志表现(标志值)向总体综合指标的过渡,,在统计研究中起着承前启后重要的作用。,统计数据的整理与显示,3.1 统计数据的整理程序,3.2 品质数据的整理与显示,3.3 数值型数据的整理与显示,3.4 次数分布及其类型,3.5 统计表与统计图,学习目标,充分认识统计整理在统计研究中的承前启后的地位;,掌握统计数据的整理和显示方法,特别是分组与变量数列的编制;,了解统计表和统计图的构成和展示,能实际设计统计表和统计图。,统计数据整理的程序,1.制定整理方案(汇总方案),;,2.对调查资料进行审核和纠正等(,预处理,),;,3.进行,统计分组,(关键),;,4.进行统计汇总,;,5. 汇总后审核;,6.编制,统计表,,绘制,统计图,,显示整理结果。,根据统计调查目的,获得统计资料的整理流程计划:,一是对总体资料的处理方法,如如何分组;,二是确定用哪些具体的统计指标来说明总体。,一、制定统计整理方案,数据的审核,发现数据中的错误,数据的筛选,找出符合条件的数据,数据排序,发现数据的基本特征,升序和降序,二、数据的预处理,(1)统计资料的审核,资料的审核,原始资料,完整性,准确性,逻辑检查,计算检查,二手资料,适用,时效,审核,对第一手数据:,(1)完整性审核:,检查应调查的单位或个体是否有遗漏,所有的调查项目或指标是否填写齐全,(2)准确性审核:,真实性:,检查数据是否真实反映客观实际情况,内容是否符合实际,逻辑检查,正确性:,检查数据是否有错误,计算是否正确等,计算检查,(定量数据),审核,对第二手数据:,完整性:,准确性:,适用性:,数据的来源、口径以及,有关背景资料;,时效性:,尽可能使用最新的数据。,(2)数据筛选,当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选。,数据筛选的内容:,将某些不符合要求的数据或有明显错误的数据予以剔除;,将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除。,(3)数据的排序,数据的排序,按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索,排序有助于对数据检查纠错,以及为重新归类或分组等提供依据,在某些场合,排序本身就是分析的目的之一,排序可借助于计算机完成,。,定类数据的排序,字母型数据,排序有升序降序之分,但习惯上用升序,汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分,定距和定比数据的排序,递增排序:设一组数据为,X,1,,,X,2,,,,,X,N,,,递增排序后可表示为:,X,(1),X,(2),X,(2),X,(N),(五).汇总后审核:,审核汇总工作质量,汇总过程有无差错。主要四种方法:,一是复计审核;,二是表表审核;,三是表实审核;,四是对照审核,。,三.统计分组,分组前,分组后,统计分组就是根据统计,研究的目的和被研究现象的本质特征,,将统计总体按照一定的标志划分为若干性质不同的部分或组。,.,.,统计分组,是在总体内部进行的,一种定性分类,,它客观上把总体划分为,一个个性质不同,范围更小的总体,。,统计分组,有两个方面的含义,即:,统计分组,对总体而言,即将总体区分为,性质不同,的若干组成部分,是,“合”,即将,性质相同,的总体单位合为一组,是,“分”,对单位而言,.,1、统计分组的作用,划分现象的类型(区分事物的类型);,研究总体的结构(构成)或比例关系;,分析(探讨)现象之间的依存关系。,注意:统计分组,是对总体认识深化的手段,它是一切统计研究的基础,应用于统计工作的全过程,是统计研究的基本方法。,2、统计分组的原则,穷尽原则,互斥原则,揭露社会经济现象的类型,反映各类型的特点。, 类型分组,类型,1999年,2000年,2001年,2002年,农业,14 106.2,13 873.6,14 462.8,14 931.5,林业,886.3,936.5,938.8,1 033.5,牧业,6 997.6,7 393.1,7 963.1,8 454.6,渔业,2 539.0,2 712.6,2 815.0,2 971.1,合计,24 519.1,24 915.8,26 179.6,27 390.8,例,单位:亿元,说明社会经济现象的内部结构。, 结构分组,例,年份,1996,1997,1998,1999,2000,第一产业,20.4,19.1,18.6,17.6,15.9,第二产业,49.5,50.0,49.3,49.4,50.9,第三产业,30.1,30.9,32.1,33.0,33.2,合计,100.0,100.0,100.0,100.0,100.0,“九五”期间我国国内生产总值构成(%),研究经济现象之间的依存关系。, 分析分组,例,耕作深度分组(cm),地块数,平均收获率(斤/亩),10-12,7,400,12-14,10,460,14-16,16,540,16-18,18-20,12,5,620,680,某乡某种农作物的耕作深度与收获率的关系,.,.,3、统计分组的种类,(一),按分组标志的多少不同,(二)按分组标志的性质不同,简单分组,品质分组,数量(变量)分组,复合分组,.,4、统计分组的方法,分组标志的选择:选择分组标志是统计分组的,核心问题,,必须根据统计研究的,目的,选择分组标志。,品质分组:是按品质标志进行的分组。,国民经济按产业分组: 第一产业,第二产业,第三产业,人口按性别分组: 男性,女性,用文字来表示各组性质上的差别,.,.,数量分组,数量分组的概念,单项式分组与组距式分组,进行组距式分组时应注意的问题,.,.,数量分组,是按数量标志进行的分组。,数量分组的概念,例如,,学生按考分分组(分),用数量来表示各组性质上的差别,60以下 60 70 70 80 80 90 90 以上,.,.,(1)单项式分组: 即在变量分组中,一个组只有一个变量值。,单项式分组与组距式分组,适用条件:,它适用于当变量值变化范围不大、不同变量值个数较少的,离散型变量,的场合。,例如:,居民家庭按子女数分组:,0 1 2 3,(离散型变量),(2),组距式分组:,就是将变量依次划分为几段区间,一段区间表现为从“到”距离,把一段区间内的所有变量值归为一组 。区间的距离就是组距。,例如:,企业按人数分组,499及以下,500 999,1000 2999,3000及以上,工人按工资分组,600 700,700 800,800 1200,1200 1500,适用条件:,它适用于变量值变化范围较大、不同变量值个数较多的,离散型变量,及,连续型变量,的场合,。,(,离散型变量,),(,连续型变量,),注意:,连续型变量的数值不能一一列举,故其只能采用组距式分组。,进行组距式分组时应注意的问题,(1)组限及划分方法,(2)等距分组与不等距分组,(3)组中值,499及以下,500 999,1000 2999,3000及以上,600 700,700 800,800 1200,1200 1500,(1)组限及划分方法,组限:,确立每组界限的两个数字。,其中,每组最大变量值称为,上限,,,每组最小变量值称为,下限,。,工人按工资分组:,(连续变量),企业按人数分组:,(离散变量),(重叠组限),(不重叠组限),组限的划分方法:,组限的划分方法,不重叠组限,重叠组限,(只适用于,离散型变量),(适用于,连续型变量和 离散型变量,.,),重叠组限:,不重叠组限:,即相邻两组的上下限为同一个数值。,即相邻两组的上下限为两个不同的确定数值。,故当某单位的变量值刚好等于,相邻两组的上下限时,,一般把此值归到作为下限的那一组中,即遵循,“上限不在其内”,的原则。,.,.,企业按人数分组:,499及以下 500 999 1000 2999 3000及以上,(不重叠组限),企业按人数分组:,500以下 500 1000 1000 3000 3000及以上,(重叠组限),.,.,(2)等距分组与不等距分组,组距分组,等距分组,不等距分组,例如:,按身高、考分分组等,应采用等距分组。它便于各组间单位数与变量值的直接对比和各项指标计算。,适用场合:,等距分组:即各组组距相同的分组。,凡是在变量值分布比较均匀时采用。,组距:每组变量值的变动范围,即组距 = 上限 下限,不等距分组:,即各组组距不都相等的分组。,适用场合:,当变量值分布很不均匀时采用。,不等距分组多数是根据事物性质变化的数量界限来确定组距,如人口按年龄分组。,要注意不同年龄生理变化的特点,可分为:,1岁以下; 16 岁;712 岁;1318 岁; 1959 岁;60 岁以上。,年龄段,工人按工资分组,(元),600 700 700 800 800 1200 1200 1500,.,(3)组中值,组中值,是指组距数列中各组上限和下限,之间的,中点数值,。,注意:,组中值经常用来代表各组标志值的平均水平,但要,假定,各组内标志值呈均匀分布,。,按考分分组 50 60 60 70 70 80 80 90 90 100,55,75,65,85,95,组中值,人数,5,15,18,10,2,.,.,若,第一组出现“,以下”,或,最末组出现“,以上”,字样的组叫做,开口组,。,首组组中值,=,首组上限,相邻组组距的一半,=,末组下限,+,相邻组组距的一半,末组组中值,50,102,100,+,102,例如:,.,首组:,末组:,按考分分组 组中值,50 60 55 60 70 65 70 80 75 80 90 85 90 100 95,50以下,100以上,45,105,年均收入(元),频数(村),6004000,11,40005000,35,50006000,14,600010000,16,1000025000,12,合计,88,年均收入(元),频数(村),10000,12,合计,88,或,例:某地区农户收入分布,编制:,1、单变量数列还是组距式数列:变量的性质及变异程度,离散型变量且变异小:单变量数列,离散型变量但变异大或连续型变量:组距式数列,例如:按以五分制计分的成绩对全班100名学生进行分组,宜单变量数列;按以百分制计分的成绩对全班100名学生进行分组,宜组距式数列;,例如:按身高对全班100名学生分组,只能组距式数列。,2、等距数列还是异距数列:变量分布的特征,当分布值很不均匀时,一般采用异距数列。如学生成绩一般密集于某一区间,低于这一区间的学生为少数,高于这一区间的学生也为少数。合理的做法是在密集区间内使用较短的组距,在稀少区间内使用较长的组距。,当等量的标志值不具有相同的意义时,一般采用异距数列。如:对新生儿和成人的年龄,同样的一年或一月,其意义是不同的。进行人口疾病研究的年龄分组时,一般1岁以下按月分组,1-10岁按年分组,11-20岁按5年分组,当标志值按一定比例发展变化:某些时候采用公比为10的不等距分组。如商场按营业额分组为:5万元以下、550万元、50500万元、5005000万元,3、开口数列还是闭口数列:极端变量值偏离分布中心的程度。,极端变量值(极大值或极小值)远离分布中心:开口数列,极端变量值(极大值或极小值)接近分布中心:闭口数列,例如:成绩:20分1人、55分1人、58分3人、6070分10人8090分30人、91分3人、92分2人、95分1人,最小组:“90分”(实际平均分92分),同时兼顾习惯,。,四、统计汇总,频数:各组内的总体单位数,频率:各组内总体单位数占总体全部单位数的比率,累计频数(率):各组的频数(率)累计加和,向上累计制:由标志值较小组向较大组累计。每一组的累计次数表示小于该组下限(变量)值的次数共有多少。,向下累计制:由标志值较大组向较小组累计。每一组的累计次数表示大于该组下限(变量)值的次数共有多少。,例,考分,次 数,向上累计,向下累计,人数(人),比率(%),人数(人),比率(%),人数(人),比率(%),50-60,2,5.0,2,5.0,40,100.0,60-70,7,17.5,9,22.5,38,95.0,70-80,11,27.5,20,50.0,31,77.5,80-90,12,30.0,32,80.0,20,50.0,90-100,8,20.0,40,100.0,8,20.0,合计,40,100.0,40,100,40,100,某班统计学考试成绩次数分配,审核汇总工作质量,汇总过程有无差错。主要四种方法:,一是复计审核;,二是表表审核;,三是表实审核;,四是对照审核,。,五、汇总后审核,3.2 品质数据的整理与显示,数据的整理与显示的基本问题,要弄清所面对的数据类型;,不同类型的数据,处理方式和方法不同。,适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据。,品质数据的整理与显示,3.2.1 定类数据的整理与显示,3.2.2 定序数据的整理与显示,定类数据的整理的基本过程,2. 计算各类别的频数;,3. 制作,频数分布表,;,分类,频数,比例,百分比,比率,A,B,C,D,E,列出各类别;,4. 用,图形,显示数据;,定类数据的整理(可计算的统计量),频数,(,frequency),:,落在各类别中的数据个数。,比例,(proportion),:,某一类别数据占全部数据的比值。,百分比,(percentage),:,将对比的基数作为,100,而计算的比值。,比率,(ratio),:,不同类别数值的比值。,频数分布,:,也叫次数分布,就是把各个类别及落在其中的相应频数全部列出,并用表格的形式表现出来。,按品质标志分组形成的频数分布,某厂职工人数统计表,按性别分组,男 职 工,女 职 工,合 计,人数(人),(频数),比例(),(频率),253,115,368,68.75,31.25,100.00,定类数据整理频数分布表,【例1】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次,。右边就是记录的原始数据。,绿色,健康饮品,一、定类数据整理频数分布表,【例3.1】为研究广告市场的状况,一家广告公司在某城市随机抽取,200,人就广告问题做了邮寄问卷调查,其中的一个问题是“您比较关心下列哪一类广告?”,1商品广告;2服务广告;3金融广告;4房地产广告;5招生招聘广告;6其他广告。,表3-1 某城市居民关注广告类型的频数分布,广告类型,人数(人),比例,频率(%),商品广告,服务广告,金融广告,房地产广告,招生招聘广告,其他广告,112,51,9,16,10,2,0.560,0.255,0.045,0.080,0.050,0.010,56.0,25.5,4.5,8.0,5.0,1.0,合计,200,1,100,定类数据的图形显示,1、,条形图(bar chart),通过宽度相同的条形的高度或长短来,比较,各类别数据的图形,有单式条形图、复式条形图等形式,主要用于反映分类数据的频数或频率,绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图,(column chart),定类数据的图示条形图,人数(人),51,9,16,10,2,112,0,40,80,120,商品广告,服务广告,金融广告,房地产广告,招生招聘广告,其他广告,广,告,类,型,图3-1 某城市居民关注不同类型广告的人数分布,定类数据的图示,2、饼图(,pie chart),也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形;,主要用于表示样本或总体中各组成部分所占的比例,用于研究,结构性问题,;,绘制圆形图时,样本或总体中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,按各部分数据百分比占,360,0,的相应比例确定。,定类数据的图示圆形图,其他广告,1.0%,房地产广告,8.0%,商品广告,56.0%,金融广告,4.5%,服务广告,25.5%,招生招聘广告,5.8%,图3-2 某城市居民关注不同类型广告的人数构成,3.2.2 定序数据的整理,可计算的统计量:,对于定序数据,除了可用定类数据整理和显示的方法之外,还可以计算,:,1. 累积频数(cumulative frequencies):,各类别频数的逐级累加。,2. 累积频率(cumulative percentages):,各类别频率(百分比)的逐级累加。, , ,.,.,在研究次数和频率的分布时,常需要编制次数或频率的累计分布数列。,1.向上累计:,是指将各组次数或频率由,变量值低的组,向,变量高的组,累计,。,2.向下累计:,是指将各组次数或频率,由,变量值高的组,向,变量值低的组,逐组,累计,。,如:,表3-2,.,累计分布有,向上累计,和,向下累计,两种:,如:,表3-2,.,二、定序数据频数分布表,【例3.2】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查,300,户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?,1非常不满意;2不满意;3一般;4满意;5非常满意。,表3-2 甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数,(户),百分比,(%),向上累积,向下累积,户数,(户),百分比,(%),户数,(户),百分比,(%),非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,8,36,31,15,10,24,132,225,270,300,8.0,44.0,75.0,90.0,100.0,300,276,168,75,30,100.0,92,56,25,10,合计,300,100.0,表3-3 乙城市家庭对住房状况评价的频数分布,回答类别,乙城市,户数,(户),百分比,(%),向上累积,向下累积,户数,(户),百分比,(%),户数,(户),百分比,(%),非常不满意,不满意,一般,满意,非常满意,21,99,78,64,38,7.0,33.0,26.0,21.3,12.7,21,120,198,262,300,7.0,40.0,66.0,87.3,100.0,300,279,180,102,38,100.0,93.0,60.0,34.0,12.7,合计,300,100.0,顺序数据的图示累计频数分布图,24,300,132,225,270,0,100,200,300,400,非常,不满意,不满意,一般,满意,非常,满意,累,积,户,数,(户),(a)向上累积,276,168,30,300,75,0,100,200,300,400,非常,不满意,不满意,一般,满意,非常,满意,累,积,户,数,(户),(b)向下累积,甲城市家庭对住房状况评价的累积频数分布,环形图,环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示;,与饼图类似,但又有区别:,饼图只能显示一个总体各部分所占的比例,环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环,用于结构比较研究;,用于展示分类和顺序数据。,8%,36%,31%,15%,7%,33%,26%,21%,13%,10%,非常不满意,不满意,一般,满意,非常满意,甲乙两城市家庭对住房状况的评价,环形图,3.3 数值型数据的整理与展示,3.3.1 数据分组与频数分析,3.3.2 数值型数据的图示,3.3.1 数据分组与频数分布,1、,排序,求全距(全距最大值最小值);,2、确定变量的数据形式(单变量分组、组距分组);,3、确定组数:,斯特格斯(Sturges)经验公式:,4、确定各组组距:,组距=全距/组数=(最大值最小值) /组数,5、根据分组整理成频数分布表,(确定各组组限,计算频数),数据分组的步骤,频数分布表的编制实例,117 122 124 129 139 107 117 130 122 125,108 131 125 117 122 133 126 122 118 108,110 118 123 126 133 134 127 123 118 112,112 134 127 123 119 113 120 123 127 135,137 114 120 128 124 115 139 128 124 121,【例2】某生产车间,50,名工人日加工零件数如下(单位:个)。对数据进行分组。,1、排序,求全距:,107 108 108 110 112 112 112 114 115 117,117 117 118 118 118 119 120 120 121 122,122 122 122 123 123 123 123 124 124 124,125 125 126 126 127 127 127 128 128 129,130 131 133 133 134 134 135 137 139 139,全距最大值最小值13910732,2、确定变量的数据形式,表3-3 某车间50名工人日加工零件数分组表,(*单变量值分组),零件数,(个),频数,(人),零件数,(个),频数,(人),零件数,(个),频数,(人),107,108,110,112,113,114,115,117,118,1,2,1,2,1,1,1,3,3,119,120,121,122,123,124,125,126,127,1,2,1,4,4,3,2,2,3,128,129,130,131,133,134,135,137,139,2,1,1,1,2,2,1,1,2,3、确定组数,K=1log,10,N/log,10,2,=1+3.322lgN,13.322,lg50,7,4、确定各组组距,组距=全距/组数,=(最大值最小值) /组数,=32 /7,=4.6,5,5、根据分组整理成频数分布表,表3-4 某车间50名工人日加工零件数分组表,(*组距分组:等距分组),按零件数分组,频数(人),频率(%),105110,110115,115120,120125,125130,130135,135140,3,5,8,14,10,6,4,6,10,16,28,20,12,8,合计,50,100,等距分组表(使用开口组),表2,-5 某车间50名工人日加工零件数分组表,按零件数分组,频数(人),频率(,%),110,以下,110115,115120,120125,125130,130135,135,以上,3,5,8,14,10,6,4,6,10,16,28,20,12,8,合计,50,100,频数分布表的编制,【例3】,表中是某电脑公司2005年前四个月各天的销售量数据(单位:台)。试对数据进行分组,3.3.2 数据值型数据的图形显示,Excel,1、分组数据直方图和折线图,2、未,分组数据茎叶图和箱线图,分组数据直方图(histogram),用于展示分组,数据分布,的一种图形。,用矩形的宽度和高度来表示频数分布。,本质上是用矩形的,面积,来表示频数分布,在直角坐标系中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。,直方图下的总面积等于,1,。,直方图的绘制,140,150,210,直方图下的面积之和等于1,某电脑公司销售量分布的直方图,我一眼就看出来了,销售量在170180之间的天数最多!,190,200,180,160,170,频,数,(天),25,20,15,10,5,30,220,230,240,销售量(台),直方图与条形图的区别,条形图是用条形的长度,(,横置时,),表示各类别频数的多少,其宽度,(,表示,类别,),则是,固定,的;,直方图是用,面积,表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义;,直方图的各矩形通常是连续排列,条形图则是分开排列;,条形图主要用于展示分类数据,直方图则主要用于展示数值型数据。,分组数据折线图,折线图也称频数多边形图;,是在直方图的基础上,把直方图顶部的中点,(,组中值,),用直线连接起来,再把原来的直方图抹掉;,折线图的两个终点要与横轴相交,具体的做法是,第一个矩形的顶部中点通过竖边中点,(,即该组频数一半的位置,),连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴;,折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布一致。,折线图的绘制,折线图与直方图,下的面积相等!,140,150,210,某电脑公司销售量分布的折线图,190,200,180,160,170,220,230,240,频,数,(天),25,20,15,10,5,30,销售量(台),未分组数据茎叶图(stem-and-leaf),用于显示未分组的原始数据的分布,由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶,树叶上只保留最后一位数字,对于,n,(20,n,300),个数据,茎叶图最大行数不超过,L,= 10 ,lg,n,茎叶图类似于横置的直方图,但又有区别:,直方图可观察一组数据的分布状况,但没有给出具体的数值,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息,直方图适用于大批量数据,茎叶图适用于,小批量数据,树茎,树叶,788,022347778889,0012222333344466777889,0133445799,10,11,12,13,数据个数,3,13,24,10,茎叶图类似横置的直方图,茎叶图的制作,某车间工人日加工零件数的茎叶图,未分组数据箱线图(box plot),用于显示未分组的原始数据的分布;,由一组数据的,5,个特征值绘制而成,它由一个箱子和两条线段组成;,绘制方法:,首先找出一组数据的,5,个特征值,即,最大值,、,最小值,、,中位数,M,e,和两个,四分位数,(,下四分位数,Q,L,和上四分位数,Q,U,),;,连接两个四分位数画出箱子,再将两个极值点与箱子相连接;,该箱线图也称为,Median/Quart,.,/Range,箱线图 。,箱线图的构成,中位数,4,6,8,10,12,Q,U,Q,L,X,最大值,X,最小值,Median/Quart./Range箱线图,箱线图的构成:,单批数据箱线图,最小值,141,最大值,237,中位数,182,下四分位数,170.25,上四分位数,197,140 150 160 170 180 190 200 210 220 230 240,某电脑公司销售量数据的Median/Quart./Range箱线图,分布的形状与箱线图,对称分布,Q,L,中位数,Q,U,左偏分布,Q,L,中位数,Q,U,右偏分布,Q,L,中位数,Q,U,不同分布的箱线图,3.4,次数分布及其类型,次数分布及其类型,3.4.1 分配数列的概念和构成要素,3.4.2 分配数列的种类及编制方法,3.4.3 次数分布的主要类型,.,.,3.4.1 分配数列的概念和构成要素,分配数列,是指在,统计分组,的基础上,将总体所有单位按组归类排队,形成总体中各单位在各组间的分布,又称,分布数列,或,统计分布,。,分配数列的概念。,按性别 分 组,男 生 女 生,合 计,表3-6,表3-7,按考分 分 组,5060 6070 7080 8090 90100,合 计,人数,(人),频率,(),20,30,60,40,50,100,5,人数,(人),频率,(),10,30,10,15,18,50,2,36,4,20,100,.,.,分配数列的构成要素,分配数列的构成要素,总体按某标志所分的各个组,各组次数,或,频率,次数(频数):,频率:,所以,,次数或频率分布形成的数列叫分配数列。,即分布在各组的单位数。,即各组次数与总次数之比。,.,.,3.4.2 分配数列的种类及编制方法,(一)品质数列,分配数列的种类,1.单项式变,量数列,2.组距式变,量数列,(二)变量数列,.,.,(一)品质分配数列,按,品质标志分组,所形成的分配数列称为,品质分配数列(品质数列),。,按性别分组,人数,(人),频率,(),男 生 女 生,30 20,60,40,合 计,50,100,一般来说品质数列较容易编制,它通常能准确地反映总体的分配特征,一旦分组标志确定以后,,其分布数列的形式是唯一的。,例如:,表3-8,.,.,(二)变量数列,按,数量标志分组,所形成的分布数列称为,变量分配数列(变量数列),。,按顺序列出的各组变量值及相应的频率,即成为,变量的频率分布。,按考分分组,人数,(人),频率,(),5060 6070 7080 8090 90100,5 15 18 10 2,10 30 36 20 4,合 计,50,100,例如,:,表3-9,注意:,任何一个,频率分布,都必须,满足两个条件:,一是各组频率0;二是各组频率之和等于100。,1.单项式变量数列,2.组距式变量数列,(由单项式分组形成),居民家庭按子女数分组,(个),户数,(户),0,1,2,3,4,20,60,150,90,40,合 计,360,按考分,分组,人数,(人),频率,(),5060,6070,7080,8090,90100,5,15,18,10,2,10,30,36,20,4,合 计,50,100,表3-10,(,单项式变量数列),(,组距式变量数列),表3-11,变量数列,(由组距式分组形成),.,.,3.4.3 次数分布的主要类型,次数分布类型主要有三种:,钟型分布、型分布,和,J,型分布,。,其,分布特征,是,“两头小,中间大”,,即靠近中间的变量值分布分布的次数多,靠近两端的变量值分布分布的次数少。,1.钟型分布:,f,x,正态分布,即其分布曲线形如一口古钟,故称钟型分布例如,,如,人的身高、体重、职工工资、农作物亩产量、市场价格、学生的考分等现象都属于,钟型分布,。,其分布又可分为以下两种:,正态分布,和,偏态分布。,图 3-1,.,.,.,正态分布:,中间变量值分布的次数最多,两侧变量值分布的次数随着与中间变量值距离的增大而渐次减少,并且围绕中心变量值两侧呈对称分布。,见,图3-1,。,.,偏态分布:,当变量值存在极大值时,,次数分布曲线会较正态分布向右延伸,这种分布称为,右偏分布,,,见,图3-2,。,右偏分布,当变量值存在极小值时,,次数分布曲线就会较正态分布向左延伸,这种分布称为,左偏分布,。,图 3,-,2,图 3,-,3,左偏分布,见,图3-3,。,x,f,f,x,其,分布的特征是,一边小一边大的单调分布,,即形如字母,J,字。,它是与钟型分布图形相反的分布,其特点是:越,靠近中间变量值分布次数较少;越靠近两端变量值分布的次数较多,形成,“两头大、中间小”,的分布特征。,.,.,2.型分布:,见,图3-4,。,3.,J,型分布:,U,型分布,x,f,图3-4,J,型分布有两种类型,即:,正,J,型分布,与,反,J,分布,。,见,图3-5,和,图3-6,。,图3-5,x,f,正,J,型分布,反,J,型分布,图3-6,x,f,频数分布的类型,对称分布,右偏分布,左偏分布,正J型分布,反J型分布,U型分布,几种常见的频数分布,3.5 统计图和统计表的使用,统计图和统计表,3.5.1 统计图,3.5.2 统计表,3.5.1 统计表,20022003年我国城镇居民家庭抽样调查资料,项目,单位,2002年,2003年,调查户数,平均每户家庭人口,平均每户就业人口,平均每户就业面,平均一名就业者负担人数,平均每人全部年收入,可支配收入,平均每人消费性支出,户,人,人,%,元,元,元,元,45317,3.04,1.58,51.97,1.92,8177.40,7702.80,6029.88,48028,3.01,1.58,52.49,1.91,9061.22,8472.20,6510.94,资料来源:中国统计年鉴2004,中国统计出版社,2004,第359页。,注:本表为城市和县城的城镇居民家庭抽样调查资料。,行标题,列标题,数字资料,表头,附加,主词栏,宾词栏,统计表的结构(分别从形式和内容来看),总标题要简明确切地概括统计表内容,一般需满足,3W,(统计数据的时间、地点及何种数据),要求;,数据计量单位相同时,可放在表的右上角标明,不同时应放在每个变量后或单列出一列标明;,表中的上下两条横线一般用粗线,其他用细线;,通常情况下,统计表的左右两边不封口;,表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一;,对于没有数字的表格单元,一般用“,”,表示;,必要时可在表的下方加上注释。,统计表的设计,统计图是用点、线、面或立体图形等形式,直观,地表达统计资料的,数值大小,、,分布情况,、,发展变化趋势,或,相互关系,等。,统计图所表示的数量关系,比统计表更加明白具体,使人一目了然,印象深刻 。,5.5.2 统计图,标题:图的标题应简明扼要,切合图的内容,必要时可注明时间、地点。,图号:文章中若有几幅画,则需按其出现的先后次序编上序号,写在图题的左前方。,标目:对于有纵横轴的统计图,应在纵横轴上分别标明统计项目及其尺度。,图形:图形线在图中为最粗,而且要清晰。,统计图的结构,条形图与柱状图(大小的比较),饼图(总体的结构),直方图、茎叶图和箱式图(数据分布),时序图(发展变化趋势),散点图(两变量之间的关系),常用统计图,
展开阅读全文