资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,应用统计学,南京航空航天大学经济与管理学院,党耀国,1,第三章统计数据的整理,本章的教学目的:,统计数据的整理由统计分组、统计汇总和统计表构成。这三部分相互联系构成整个统计资料整理的全过程。本章要求掌握统计分组的方法和汇总技术;学会编制变量数列和统计表;认识统计资料整理在统计研究中承先启后的地位。,2,第一节 统计数据整理的意义及程序,一统计数据整理,根据统计研究的任务与要求,对统计调查所搜集到的原始资料进行分组、汇总,使其条理化、系统化的工作过程称统计整理。统计整理包括对原始资料和次级资料(二手资料)的整理。,统计整理是统计调查的继续,是统计分析的前提和基础,在整个统计工作中发挥着承上启下的作用。,3,例如:通过调查取得,100,个商业企业某月销售额资料:,(单位:万元),20,,,60,,,45,,,90,,,105,,,56,,,250,,,89,,,130,,,30,,,98,,,300,。,将这些数据资料按,“,销售额,”,的多少进行整理,得到下,列整理结果:,销售额,(万元),企业数,(个),0 50 12,50 100 25,100 150 30,150 200 23,250 300 10,合 计,100,统计整理的方法,:分组、汇总、编表,4,二,.,统计数据整理的程序,(一)设计统计整理方案。是指导整个统计整理工作的基本文件,它是对整理工作的程序和整理的具体内容所做的统一安排。设计统计整理方案的关键是要明确如何对统计调查搜集的资料进行分组以及采用那些汇总指标。,(二)审核原始数据。审核的主要内容应是数据的完整性和准确性。,完整性审核主要是检查填报单位是否有不报或漏报现象,统计表中所有项目是否填写齐全。,准确性审核主要是检查原始数据是否真实可靠,数据计算是否正确。,5,(三)数据的分组和汇总。它是数据整理工作的中心环节。主要是根据研究的目的确定进行那些分组,并在此基础上汇总计算出各组及总体的有关指标数据。,(四)绘制统计表和统计图。将统计整理的结果用表格的形式表现出来或绘制成更直观的统计图。,6,第二节 统计分组,一统计分组的意义,根据统计研究任务的要求和研究现象总体的内在特点,把现象总体按某一标志划分为若干性质不同但又有联系的几个部分称为,统计分组,。,总体的变异性是统计分组的客观依据。统计分组是在总体内进行的一种定性分类,它把总体划分为一个个性质不同的范围更小的总体。,总体经过分组以后,各组内部的差异缩小趋于同质,组与组之间的差异拉大以表明现象间质的差别或量的不同。,7,统计分组的作用:,(,1,)将零散的、不系统的资料条理化、系统化;,(,2,)划分社会经济现象的类型;,(,3,)说明总体内部结构以及整个结构的类型和特征;,(,4,)分析现象的依存关系。,8,二统计分组的种类,统计分组按其任务和作用不同,分为类型分组、结构分组和分析分组。,类型分组就是把复杂的现象总体划分为若干个不同性质的部分。,在对总体分组的基础上计算出各组对总体的比重,籍此研究总体各部分的结构,即结构分组。,为研究现象之间依存关系而进行的统计分组既是分析分组。,9,统计分组按分组标志的多少分为简单分组和复合分组。,简单分组就是对被研究对象只按一个标志进行分组,它只能从一个角度说明现象的分布状况和内部构成。,复合分组是同时按两个或两个以上的标志进行分组。即先按一个标志进行分组,然后再按另一个标志将已分好的各个组再分为若干个小组。,10,统计分组按分组标志的性质分为品质分组和数量分组。,品质分组就是按反映事物属性或质的特征的品质标志进行的分组。,数量分组就是按反映事物数量特征的数量标志的分组。,按数量标志分组结果会形成分布数列,也叫变量数列。,11,三分组体系与分组标志的选择,(一)分组体系,统计分组后所形成的一系列互相联系、互相补充的多种分组的整体称,分组体系,。分组体系有平行分组体系和复合分组体系两种。对同一总体选择两个或两个以上的标志分别进行简单分组,就形成平行分组体系,如对我国工业企业总体构成,可以分别按经济类型,企业规模进行简单分组,就形成平行分组体系;对同一总体选择两个或两个以上的标志层叠起来进行分组,就形成复合分组体系,如为了认识我国高等院校在校学生状况,可以同时选择学科、本科、性别等三个标志进行复合分组。,12,(二)、分组标志的选择,分组标志的选择是统计分组的关键。,正确选择分组标志,必须根据统计研究的任务目的,抓住反映现象本质区别和内在联系的标志作为分组标志。正确选择分组标志,应从以下几个方面考虑:,1,根据统计研究的目的选择分组标志;,2,必须选择能够反映现象本质或主要特征的标志;,3,应考虑现象所处的具体历史条件和经济条件,13,4,统计分组的方法,(,1,)品质标志分组方法,品质标志分组一般较简单,分组标志一旦确定,组数、组名、组与组之间的界限也就确定。有些复杂的品质标志分组可根据统一规定的划分标准和分类目录进行。,(,2,)数量标质分组方法,按数量标志分组的目的并不是单纯确定各组在数量上的差别,而是要通过数量上的变化来区分各组的不同类型和性质。,14,第三节 分布数列,一分布数列的概念,将总体按某一标志分组,计算出总体单位在各组的分布次数或称,频数,,就形成了分布数列,也叫频数分布或次数分布。分布数列由两部分组成:分组与分布次数。,二分布数列的类型,分布数列根据分组标志的性质不同,分为品质分布数列和数量分布数列,也叫变量数列。分别由品质标志分组和数量标志分组形成。变量数列又有单项式数列和组距式数列。,15,单项式分组和组距式分组,离散变量如果变量值的变动幅度小,就可以一个变量值对应一组,称单项式分组。按单项式分组所得的分布数列称为单项式变量数列。,如:人口按年龄分组,1,岁一组,学生按报考科目分组等。这种分组适用于离散性变量,且变量值的个数较少的情况。,离散变量如果变量值的变动幅度很大,变量值的个数很多,则把整个变量值依次划分为几个区间,各个变量值则按其大小确定所归并的区间,区间的距离称为组距,这样的分组称为组距式分组。按组距式分组所得的分布数列称为组距式变量数列。,连续变量由于不能一一列举其变量值,只能采用组距式的分组方式,且相邻的组限必须重叠。,适用于连续型变量和离散型变量的变量值较多的情况。,16,组距式数列的编制大致可分三步:,第一步:确定组数和组距。,第二步:确定组限;,第三步:计算各组分布次数(频数)或频率。,17,等距分组和不等距分组,等距分组是各组保持相等的组距,也就是说各组标志值的变动都限于相同的范围。,各组组距均相等。如:,10,20,,,20,30,,,30,40,,等。组距为,10,。这种分组适用于均匀分布的总体,。,不等距分组即各组组距不相等的分组。,如:,10,20,,,20,50,,,50,60,,,60,70,等。其中第二 组与其它各组组距不同。这种分组适用于资料分布离差较大或特殊的研究目的。,统计分组时采用等距分组还是不等距分组,取决于研究对象的性质特点。,在标志值变动比较均匀的情况下宜采用等距分组。等距分组便于各组单位数和标志值直接比较,也便于计算各项综合指标。,18,在标志值变动很不均匀的情况下宜采用不等距分组。在变量分布比较密集的区间,采用较短的组距;在变量分布比较稀少的区间,采用较长的组距。不等距分组有时更能说明现象的本质特征。,在不等距分组中,由于各组组距的大小对各组的分布次数有影响,这时的次数分布不能反映总体的分布特征,因此需要消除组距不等的影响,方法是用各组组距去除相应的分布次数,即用次数密度或称频数密度反映现象的分布状况。,19,组限和组中值,组距两端的数值称组限。其中,每组的起点数值称为下限,每组的终点数值称为上限。,组限的表示方法常见的有两种,一是上下限重叠式(连续组距式);二是上下限不重叠式(间断组距式)。,对于连续型变量,只能采用上下限重叠式的组限表示法;对于离散型变量,二者都可以采用。若采用上下限重叠式的表示法,应遵循“上组限不包括在内”的统计原则。,20,对于组限采用重叠式的分组,组距和组中值的计算公式为:组距上限下限,表示各组标志值变动的范围。组中值,=,(上限,+,下限),2,,代表各组标志值的一般水平。,对于组限采用不重叠式的分组,组距和组中值的计算公式为: 组距后组下限本组下限。 组中值,=,(后组下限,+,本组下限),2,。,对于第一组是 “多少以下”,最后一组 “多少以上”的开口组,组中值的计算可参照邻组的组距来决定。即:缺下限开口组组中值,=,上限,1/2,邻组组距,缺上限开口组组中值,=,下限,+1/2,邻组组距。,21,三频数和频率,统计分组后各组对应的单位数称为频数,也叫次数;各组单位数占总体单位总数的比重称为频率。各组的频率大于,所有组的频率总和等于。,在变量分布数列中,频数(频率)表明对应组标志值的作用程度。频数(频率)数值越大表明该组标志值对于总体水平所起的作用也越大,反之,频数(频率)数值越小,表明该组标志值对于总体水平所起的作用越小。,22,在具体的研究中,经常会观察某个数值以上或以下的分布次数(频数)之和,这就需要计算累计次数(累计频数),继而计算累计频率。,在计算时,由变量值小的向变量值大的方向累计称为向上累计。,由变量值大的向变量值小的方向累计称为向下累计。,23,序 计划完成 工人数 比重 向上累计 向下累计,号 程度(,%,) (人) (,%,) 人数 比重 人数 比重,1 60 70 2 1.0,2 70 80 5 2.5,3 80 90 14 7.0,4 90 100 31 15.5,5 100110 65 32.5,6 110120 52 26.0,7 120130 23 11.5,8 130140 8 4.0,合 计,200 100,累计频数或频率分配数列,通过累计频数分配数列可以反映累计到某一组出现的总次,数或总频率。想一想:第四组的累计结果说明什么问题?,2,7,21,52,117,169,192,200,100,8,31,83,148,179,193,198,200,100,24,第四节 统计数据的显示,1,统计表的概念与意义,统计表是由纵横交叉的线条所绘制表现统计资料的一种表格形式。,统计表有以下几方面的作用:,(,1,)它能使统计资料条理化,更清晰地表述统计资料的内容;,(,2,)采用统计表格表达统计资料比用叙述的方式表述统计资料简明易懂,节省篇幅;,(,3,)统计表便于比较各项目(指标)之间的关系,而且便于计算;,(,4,)利用统计表易于检查数字的完整性和正确性。,25,2.,统计表的构成,从形式上看,统计表是由总标题,横行标题、纵栏标题和指标数值四部分组成;,从内容上看,统计表是由主词栏和宾词栏两部分构成。,主词栏是统计表所要说明的对象及其组成部分;宾词栏是用来说明主词的一系列统计指标。,26,3,、统计表的种类,(,1,)统计表根据主词是否分组及分组情况分为简单表、分组表和复合表。,简单表,是指主词不经过任何分组的统计表。,分组表,是指主词按一个标志进行分组的统计表,也称为简单分组统计表。,复合表,是指主词按两个或两个以上的标志进行分组的统计表,也称为复合分组统计表。,27,(,2,)统计表按用途或作用不同分为调查表、汇总表和分析表。,调查表,指在统计调查中用于登记、搜集原始资料的表格,表中的数字可以是未经综合的各个单位的标志值,它不是严格意义上的统计表。,汇总表,是在统计整理中用于整理过程和结果的表格,表中的数字是经过汇总的总量指标。,分析表,指在统计分析中对整理所得的统计资料进行统计定量分析的表格。表中的数字即有总量指标,又有相对指标,分析表又称为计算表。,28,(,3,)统计表按数列的性质不同可分为空间表、时间数列表、时空数列结合表。,空间表是指反映在同一时间条件下不同空间范围内的某项或某几项统计数列的表格。又称为静态表。,时间数列表是指反映在同一空间条件下不同时间阶段上的某项或某几项统计数列的表格。又称为动态表。,时空数列结合表。指同时反映上述两方面内容的统计表。,29,(,4,),统计表根据宾词的设计方式不同可分为简单设计与复合设计。,简单设计是指平行设置宾词的各项指标。,复合设计是指层叠设置宾词的各项指标。,4,、 统计表的编制规则,(,1,)统计表的各种标题,特别是总标题的表达应该简明扼要,确切地反映出表格的基本内容、所属地区和时间;,(,2,)表中主词各行和宾词各栏的次序排列,一般多是合计或总计栏在各部分栏之后;,(,3,)如果统计栏较多,可以添加编号;,(,4,)统计表中上下数字要对齐。,30,统计表的设计,1,统计表格式设计应注意的事项:,(,1,)统计表应设计成由纵横交叉线条组成的长方形表格,长宽之间应保持适当的比例。,(,2,) 线条的绘制。,(3),合计栏的设置。,(,4,) 栏数的编号。如果栏数较多,应按顺序编号。,31,统计表内容设计应注意的事项,(,1,)标题设计。,(,2,)指标数值。表中数字应该填写整齐,对准位数。,(,3,) 计量单位。统计表必须注明各指标的计量单位。,(,4,) 注解或资料来源。在统计表下应注明资料来源,以便查考。,32,二、统计图,数据的图形表示能以醒目的方式揭示频数(频率),常见的有条形图、饼分图、折线图和直方图等。,例:某高校,2003,年各系教师在国内核心杂志发表论文情况如下表:,编号,系别,论文数,1,数学系,40,2,物理系,120,3,化学系,140,4,无线电系,80,5,管理科学系,100,33,1,、条形图(,bar chart,),条形图常用于描述离散型数据,用宽度相等而高度为频数(率)的线段或狭条表示。,34,2,、饼分图,饼分图常用来表示各成分在总体中所占地百分比。,35,3,、直方图(,histograms,),对于等距分组变量数列,以每组的上下限为底,以组频数(率)为高作矩形来绘制直方图。对于不等距分组变量数列,一般要用频数密度绘制直方图来反映次数分布的特征。,36,4,、折线图,在直方图的基础上,将各长方形顶边中点(即各组组中值)用直线连接起来,就形成了频数分布的折线图。折线图应和横轴形成一个封闭的图形,因此左右两边折线要继续延伸,通过各自长方形竖边中点至横轴。,37,5,、曲线图,常见的频数分布曲线的主要类型有:,钟型分布 特征是,“,两头大,中间小,”,,即靠近中间的变量值分布的次数多,靠近两边的变量分布次数少,形若古钟。,型分布 其特征与钟型分布正相反,靠近中间的变量值分布的次数少,靠近两端的变量值分布次数多,形成,“,两头大,中间小,”,的字型分布。,J,型分布 在社会经济现象中,一些统计总体分布曲线呈,J,型。,洛伦兹分布 洛伦兹曲线专门用以检定社会收入分布的平等程度。,38,例:洛伦兹(,Lorenz,)曲线常用来描述财富的分配是否公平。数据如下表:,人群,人口比例,累积百分比,财富百分比,累积财富百分比,A,50,50,10,10,B,25,75,20,30,C,10,85,10,40,D,10,95,15,55,E,3,98,25,80,F,2,100,20,100,公平线,税后,税前,右下图中的对角线为公平线,散点图折线离公平线越远,说明财富分配越不公平。,39,
展开阅读全文