统计学原理第三章

资源描述

大标题用华文中宋,36,号字,一级标题用华文中宋,32,号字,二级用华文中宋,28,号字,三级用华文中宋,24,号字,四级用华文中宋,20,号字,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第,3,章数据整理和频数分布,3.1,数据的审核和筛选,3.2,数据的分组,3.3,数据的频数分布,3.4,绝对数,3.5,数据的展示,3.1,数据的审核和筛选,3.1.1,数据的审核,3.1.2,数据的筛选,3.1.3,数据的排序,3.1.1,数据的审核,1,原始数据,原始数据（,Raw Data,）是指数据搜集所取得到的，未经过数据分组和汇总的，反映个体特征的零散数据。,数据审核（,Data Auditing,）是指在进行数据整理之前对原始数据的审查和核对。,原始数据包含了所有由调查登记获取的个体信息的初级数据，经过数据整理的数据反映的是总体的综合数量特征和分布状态，原始数据所反映的个体数值特征消失或湮没在总体的综合数量特征和分布状态数值之中了。,数据整理是按照数据分析的要求进行的，数据分析思路和目的决定着数据整理分类或分组。,2,数据审核的内容,统计数据的时效性，准确性、一致性三个方面的标准就是数据审核的基本内容。,（,1,）统计数据的时效性审核。检查是否在规定的统计调查时间内完成数据搜集，采集的数据是否为规定的调查时点上，或规定的调查时段内的数量特征。,（,2,）统计数据的准确性审核。从数据的完整性、真实性和精确性角度进行审核。,检查调查对象中每一个单位是否不重复、不遗漏地包含在统计调查的实际登记资料之中，或抽样调查的抽样框不重复、不遗漏地包含统计调查对象所有调查单位。检查是否每一个调查单位的特征都无偏差、无失真、准确无误地反映在登记资料中，以及抽样调查的抽样误差是否有效控制在规定的许可范围内。,（,3,）统计数据的一致性审核。检查统计数据在时间和空间上的连续性和可比性。,3,数据审核的方式,数据审核一般有逻辑检查和技术检查两种方式。,（,1,）逻辑审核,(Logistic Auditing),是按照数据审核的内容，采用逻辑分析的方法，检查原始数据中各项数据是否合理的数据审核方式。逻辑检查要求检查人员具备较强逻辑推理能力，以及丰富的专业知识和数据审核经验。,（,2,）技术审核,(Technical Auditing),是按照数据审核的内容，通过对调查数据原始登记表，和其它原始登记材料进行机械性核对，来实施的数据审核方式。,填报单位是否存在漏报和重报，调查项目是否填齐，所填内容是否符合填报要求，填报数据有无错行、错栏问题，计量单位是否正确，各栏之间的合计数、乘积数与相关分项数据是否相符等。,人口调查表逻辑审核要点,一、基本要点,姓名,：未起名的新生婴幼儿应填写“,C”+,母亲姓名,与户主关系：,同一户调查表中，不应无户主，也不应多于一个户主。多于一个成员的家庭户，除户主外的其他成员最少应有一位为亲属；集体户，除户主外的其他成员通常应为非亲属。,性别,：只能填“,1”,或“,2”,码。,出生日期,：应填满填,8,位数字码；前,4,位年份码应不大于,2010,，不小于,1879,；第,5,、,6,位月份码为,01,12,的数字；第,7,、,8,位日期码为,01,31,的数字；月份码为,02,时，日期码应为不大于,29,的数字。,公民身份证号码,：应填,18,位数字码（个别情况最后一位空填）。第,7,至,14,位码应与“出生日期”项相同；“性别”项为男性时，第,17,位码应为奇数，否则为偶数。,户口性质,：只能填“,1”,、“,2”,或“,9”,码。,文化程度,：注意年龄与文化程度的关系，一般是小年龄不应有高学历。,婚姻状况,：属已婚、丧偶、离婚的，出生不应晚于,1989,年,6,月。,流动原因,：只能填“,1”,、“,2”,或“,9”,码。,二、流出人口信息调查表,户籍地,(A0),：只能填写本村（居）委名称。,流出日期,(A8),：不得早于出生日期。,三、流入人口信息调查表,现居住地,(B0),：只能填写本村（居）委名称。,流入日期,(B9),：不得早于出生日期。,3.1.2,数据的筛选,数据筛选（,Data Filter,）是指对已有数据的有意识的过滤和挑选，滤去不需要的数据，选出所需要的数据。,从广义上讲，数据审核也是一种数据筛选。这里所讲的数据筛选是指按照数据分析的要求所确定的挑选数据标准，通过对现有数据的逐一比较，从中挑选出一组数据，构成一个数据集合的过程。,数据的筛选的,Excel,演示,。,3.1.3,数据的排序,数据排序是指将一组数据按照大小、高低、优劣等顺序进行依次排列的过程。依据数据在经过排序之后的有序序列中的位置确定的测度称为顺序统计量（,Order Statistics,）。,数据排序为计算取值范围、最大值、最小值等总体参数提供了便利，有助于人们了解数据大致的分布状态，数据排序也是有效地进行数据分类或分组的前期准备。,数据的排序,的,Excel,演示。,3.2,数据的分组,3.2.1,数据分组的意义,3.2.2,非数值型数据的分组,3.2.3,数值型数据的分组,3.2.4,组中值,3.2.1,数据分组的意义,数据分组（,Data Grouping,）就是根据研究现象的特点和数据分析的目的，将原始数据按照总体单位的某一特征分为不同的组别。,经过数据分组之后形成的分布在各个组里的数据称为,分组数据,（,Grouped Data,）。作为数据分组标准的这一特征称为,分组标志,。,数据分组既可以视为是按照分组标志将原始数据分别归入各个不同的组里，又可以看成是按照分组标志部分具有相同特征原始数据合并在同一组中。在数据分组过程中，,强调和突出了原始数据中作为分组标志这一特征，同时忽略和隐去了原始数据中的其它特征。,按照统计研究的要求，,科学地选择分组标志是有效进行统计认识活动的基本前提。,数据分组包括,非数值型数据分组,和,数值型数据分组,。,例如：在以地区作为分组标志对全国职工的工资收入数据进行分组后，人们看到的是按全国各个地区分组的职工工资水平，突出了工资收入在地区之间的差异，而职工工资在从业部门、工作岗位、教育水平、工作年限、不同性别等方面的差异未能得到显示。,1.,统计分组,2.,统计分组的作用,:,统计分组两个含义：,对总体而言,-,“,分”,对个体而言,-,“,和,”,划分社会经济现象的类型,反映社会经济现象的内部结构和比例关系,揭示社会经济现象之间的相互依存关系,分组前,分,组,后,25,33,42,统计分组的种类,（,1,）简单分组与复合分组,对研究对象按一个标志进行分组，就叫简单分组。多个简单分组构成平行分组体系。,简单分组,标志,人数（人）,比重（,%,）,按性别分组,男性,女性,按企业性质分组,国有企业,独资企业,其他企业,按规模分组,大型企业,中型企业,小型企业,（,2,）品质标志分组和数量标志分组,品质标志分组,数量标志分组,标志,人数（人）,比重（,%,）,按性别分组,男性,女性,按产值分组,大型企业,中型企业,小型企业,选择分组标志,确定分组体系,划定组间界限,科学性,：,组间差异大，组内差异小。,完备性和互斥性：,每个单位均能且只能归到某个组中。,统计分组的程序与原则,选择分组标志,选择分组标志时，一般应考虑原则：,（,1,）根据研究问题的目的和任务选择分组标志；,（,2,）在若干标志中，要抓住具有本质性的或主要的标志作为分组的依据；,（,3,）要考虑到现象所处的具体历史条件或经济条件进行分析。,确定分组体系,分组体系,指同时使用两个以上标志分组时，分组标志的组合形式。,各分组标志并列使用,各分组标志交叉结合使用,平行分组体系,交叉分组体系,平行分组体系,对教师的分类,按性别分类,男性,女性,按职称分类,按年龄分类,高级,中级,初级,青年,中年,共计,7,组,2+3+2,交叉分组体系,按性别分类,按职称分类,按年龄分类,男,女,高级,中级,初级,青年,中年,共计,12,组,2,32,对教师的分类,男生,本科学生组,女生,理科学生组,男生,专科学生组,女生,高校学生,男生,本科学生组,女生,文科学生组,男生,专科学生组,女生,变量数列,品质数列,将总体各单位按某个标志分成若干组，列出各组的总体单位数或各组在总体中所占的比重而形成的数列,分布数列,分,类,分组标志的具体表现,各组的次数或频数,比率或频率,构成要素,异距数列,等距数列,组距数列,单项数列,单项数列,指每个组值只用一个具体的变量值表现的数列,同时,具备,变量数列的编制,变量是离散变量,变量的不同取值个数较少,编制条件,:,【,例,】,己知某车间有,24,名工人，他们的日产量（件）分别是：,20,，,23,，,20,，,24,，,23,，,21,，,22,，,25,，,26,，,20,，,21,，,21,，,22,，,22,，,23,，,22,，,22,，,24,，,25,，,21,，,22,，,21,，,24,，,23.,要求根据以上资料编制变量数列。,日产量（件）,X,工人数（人,),f,20,21,22,23,24,25,26,3,5,6,4,3,2,1,合计,24,编制结果如下：,组距数列,指每个组的变量值用一个区间来表现的变量数列,变量数列的编制,变量是连续变量；,或：,总体单位数较多，变量不同取值个数也较多的离散变量。,编制条件,:,变量值变动区间的长度相等,变量值变动区间的长度不完全相等,等距数列,异距数列,相关概念,指每,组,两端表示各组界限的变量值，各组的最小值为,下限,，最大值为,上限,组限,每组,变量值变动区间的长度，为上下限之差,组距,每组,变量取值范围的中点数值,组中值,组中值,=,某,地区,100,个百货商店,月销售额与流通费用情况,销售额（万元）,商店数（个）,每百元,商品销售额中支付的流通费（元）,50,以下,50,100,100,200,200,300,300,以上,10,20,30,25,15,14.2,11.4,10.1,9.2,8.5,上组限,U,下组限,L,如：组距,d=U-L,=100-50=50,（,万元,）,如：组中值,x=(U+L)/2 =(100+200)/2,=150,（万元）,对于离散变量，相邻组限可,间断,，也可,重叠,；,对于连续变量，相邻组组限,必须重叠,；,符合,“,上组限不计入,”,原则；,首末两组可使用,“,以下,”,及,“,以上,”,的开口组。,组限的表示方法,开口式组距数列组中值的计算：,首,组,假定下限首组上限相邻组组距,末组假定上限末组下限相邻组组距,先,计算开口组的假定上、下限：,因此有：,首组,组中值,末组,组中值,数据分组包括非数值型数据分组和数值型数据分组,3.2.2,非数值型数据的分组,非数值型数据的分组也称为分类。定类数据和定序数据都是对事物质的属性的描述，两者都是一种分类性质的数据，只在分类划分的无序和有序上存在差别。,反映事物自然属性的非数值型数据的分组一般比较简单，只要进行适当的细分或合并，以及选择恰当的分组标志即可。,货物：农产品、工业品,农产品：种植业产品、林业产品、渔业产品、畜牧业产品,种植业产品：水稻、小麦、玉米、棉花,食品：无公害食品、绿色食品、有机食品、其他食品,反映事物社会经济属性的非数值型数据的分组一般比较复杂，往往是人们对事物数量特征进行深入地统计分析之后形成的一种质的划分，这种质的划分体现了人们认识活动对于事物由量变到质变的把握，一般采用国家标准、行业标准或者企业标准等标准化的形式确定下来，并借助统计报表和统计调查方案等方式加以明确，以此来规范和指导后续的统计活动。,【,课后作业,】,：,搜集有关无公害食品、绿色食品、有机食品相关知识，加深对食品安全的认识,BDC,产品等级：一等品、二等品、三等品,产品等级：优质品、合格品,产品质量检测标准,【,课后作业,】,自己搜集资料，了解某一产品质量标准,在我国现行统计制度中，将城镇家庭分成收入水平由低到高的七组，即最低收入户、低收入户、中等偏下收入户、中等收入户、中等偏上收入户、高收入户、最高收入户，属于定序数据的分组。这七组的划分是将所有调查户依户人均可支配收入由低到高排序，然后按照,10%,，,10%,，,20%,，,20%,，,20%,，,10%,，,10%,的频数比例依次分组，最后构成了我国城镇家庭分成收入水平由低到高不同收入阶层的定性分组。,表,3.1 2003,年我国城镇居民家庭基本情况元,资料来源：,2004,中国统计年鉴,.,北京,.,中国统计出版社,2004,人口年龄段：,0014,少年儿童人口数,1564,劳动年龄人口数,65,老年人口数,老年抚养比是指人口中非劳动年龄人口数中老年部分对劳动年龄人口数之比，用以表明每,100,名劳动年龄人口要负担多少名老年人。老年人口抚养比是从经济角度反映人口老化社会后果的指标之一。也称为老龄人口抚养系数，简称老年系数。英文为,old-age dependency rate,简写做,ODC.,少年儿童抚养比,也称少年儿童抚养系数。指某一人口中少年儿童人口数与劳动年龄人口数之比。通常用百分比表示。以反映每,100,名劳动年龄人口要负担多少名少年儿童。,计算公式为：,CDR=,（,A/B,）,100%,其中：,CDR,为少年儿童抚养比；,A,为,0,14,岁少年儿童人口数；,B,为,l5,64,岁劳动年龄人口数。,复杂的非数值型数据分组大多建立在对隐含的数值型数据进行科学分组的基础之上，由数量界限的先行确定到定序或定类数据分组的产生，反映了统计认识过程由量的分析到质的确定的鲜明特征。因而，数值型数据分组构成了统计分组研究的主要内容。,2012-03-09(Zhouwuwan),3.2.3,数值型数据的分组,1,组距分组,（,1,）,组距分组,是数值型数据分组的基本形式。数值型数据分组可以分为,单变量分组,和,组距分组,。,单变量分组,是指每个分组只用一个变量值表示的分组形式，又称为,单项分组,。单变量分组一般在分组标志为离散变量，且变量的取值范围不是太大的情况下使用。,组距分组,是指每个分组用一个数据取值区间表示的分组形式。组距分组适用于按连续变量分组或变量的取值范围较大的离散变量的场合。,（,2,）,组限,。在组距分组中，各组之间的取值界限称为组限，一般用,L,表示。其中大者为该组数值变量可能取的最大数值，称之为上限（,Upper Limit,）。小者为该组数值变量可能取的最小数值，称之为下限（,Low Limit,）。,在一个组距分组中，既有上限又有下限的组称为,闭口组,，否则称为,开口组,。,（,3,）,组距,。组距分组中，同一分组的上限与下限之间的绝对距离称为组距（,Class Width,），用,d,表示。一般有，组距上限下限。,2,等距分组,组距分组有,等距分组,和,异距分组,之分。等距分组是各组组距全都相等的组距分组，等距分组中各组单位数的多少不会受到组距大小的影响，便于直接比较各组次数的多少，研究次数分布的特征。因此，等距分组是组距分组的基本方法。,等距分组的具体步骤如下。,（,1,）计算取值范围,(Value Area),。,（,2,）确定组数,(,经验公式,),。,（,3,）计算组距。,（,4,）确定组限。,（,5,）将原始数据按照各自数值大小分配到各组中。,（,1,）计算取值范围。,取值范围（,Value Area,）,为全体数据中最大数值与最小数值之差，反映了该组数值变量取值的变动幅度，一般用,R,表示，有,(3.1),（,2,）确定组数。,在进行数值型数据分组时，有一个计算组数的经验公式，即,(3.2),例如：数据的总数,N,为,80,时，采用经验公式计算出组数为,H=7,，可考虑将该组数据分为,7,组。,确定组数的目的是为了使数据恰当地分布在各组中，数据过于集中和过于分散都有碍于对数据分布特征的展示，不利于后续的分析研究。,组距的确定还要根据实际情况，因地制宜地加以确定。例如，在考试成绩的分析中，人们习惯将其分为优、良、中、及格和不及格,5,组，不论数据个数多少，分成这样,5,组较为适宜。,（,3,）计算组距。,由于取值范围是客观存在的，当组数确定之后，组距也就随之确定了，两者之间成反比例关系。设,H,为组数，,d,为组距，即有组距,d=R/H,。为了便于数据分组和组限的划定，组距一般取,5,，,10,的整数倍。,（,4,）确定组限。,确定组限就是具体规定各组中变量可能取值的上限和下限。确定组限的原则是“不重不漏”，使每一数据都能够被分配到其中一组里，并且只能分配到其中一组里。组限的具体形公式有间断组限和重合组限，闭口组限和开口组限。,间断组限是每一组的组限与邻组的组限都是间断设置的。一般适用于离散变量数据的分组。,年龄：,04,59,1014,重合组限是每一组的组限与邻组的组限都是相互重叠设置的。,年龄：,05,510,1015,在采用重合组限场合，为了贯彻“不重不漏”原则，一般采用“下限在内，上限不在内”统计惯例的处理方式。,重合组限既适用于离散变量数据的分组，也适用于连续变量数据分组，在各种场合能够适应各种数据分组的需要，同时有利于组中值的计算，所以重合组限在数据分组中得到了广泛的应用。,闭口组限是既有上限又有下限的组限设置。由闭口组限设置形成的数据分组称为闭口组。,开口组限是缺少上限或者缺少下限的组限设置。由开口组限设置形成的数据分组称为开口组。,（,5,）将原始数据按照各自数值大小分配到各组中。,组限确定之后，就可以将原始数据按照各自数值大小分配到各组中。,一般先按照分组标志对原始数据进行排序，然后根据各组的组限水平，将经过排序之后的有序数据进行分段，归入到各个组中。,在采用,Excel,等数据处理软件时，可以直接运用有关数据筛选功能，完成数据的分组。,3.,异距分组,异距分组是各组组距不尽相等的组距分组。当采用等距方式进行分组时，各组之间数据的数量差距过大，一些分组中的数据过多或过少，影响到对数据分布状态的观察和分析，可采取缩小组距或扩大组距的方法，来拆分数据过多的分组或合并数据过少的分组，这样形成的各组组距不尽相等的组距分组就是异距分组。,3.2.4,组中值,组中值（,Class Midpoint,）是指组距分组中处在各组取值范围中点位置上的数值。,组中值是一个代表性的数值，用来代表该组数据取值的一般水平。,在缺乏原始数据，仅拥有已经过分组整理后的数据情况下，只能采用组中值取代组平均数，作为一个代表性的数值，进行各种数据分析。,组中值作为代表性数值所隐含的假定前提是该组数据呈均匀分布，或者对称分布。在该组数据明显偏离均匀分布，或者对称分布时，使用组中值作为该组数据取值代表性数值存在着较大偏误。,2012-03-09(Zhouwushangwu),（,1,）重合组限分组的组中值计算。,在采用重合组限设置的组距分组中，组中值为本组的上限与本组下限之和除以,2,。有,组中值,（上限,+,下限）,/,(3.3),表,3.2 2003,年我国按年龄和性别分人口数及组中值,重合组限,（,2,）间断组限分组的组中值计算。,在采用间断组限设置的组距分组中，计算组中值需要将以上一组的下限与本组的下限之和除以,2,。即有,组中值,(,上组下限,+,本组下限）,/,(3.4),表,3.3 2003,年我国按年龄和性别分人口数及组中值,间断组限,（,3,）开口组组中值的计算,计算开口组组中值，需先确定其缺少的下限或上限。一般以邻组组距近似地作为本组的组距，来确定其下限或上限，进而计算出开口组组中值。开口组组中值的计算仍然要区分重合组限设置间断组限设置两种情况。,重合组限设置开口组组中值的计算,缺少下限组的组中值该组上限邻组组距,/2,缺少上限组的组中值该组下限邻组组距,/2,（,3.5,）,间断组限设置开口组组种值的计算,缺少下限组的组中值邻组下限邻组组距,/2,缺少上限组的组中值该组下限邻组组距,/2,（,3.6,）,表,3.4 2003,年我国按年龄和性别分人口数及组中值,重合组限,3.3,数据的频数分布,3.3.1,频数与频数分布,频数与频数分布是在数据分组基础形成的概念。频数与频数分布总是在具体的分组设置前提下的对总体数据分布特征的描述。,频数（,Frequence,）是落在某一特定分组中的数据个数，也称为次数。频数有两点要素，一是具体的数据分组，一是落在该组中的数据个数。,频数分布（,Frequence,Distribution,）是由各组的频数组成的一个数组。一般需要用统计图或统计表的形式将频数分布展示出来，以便更加直观和全面地了解和把握总体的频数分布特征。,比例（,Proportion,）各组数据个数（频数）占数据总数（各组频数之和）的比重，为频数的相对形式，又称为频率，一般用百分数表示。显然有，各组比例之和等于,100%,。,表,3.5 2001-2003,年我国按性别分人口数及构成,本表各年人口未包括香港、澳门特别行政区和台湾省的人口数据。,资料来源：,2004,中国统计年鉴,.,北京,.,中国统计出版社,2004,【,课后作业,】,把表,3.5,的数据更新,表,3.5 2001-2003,年我国按性别分人口数及构成,本表各年人口未包括香港、澳门特别行政区和台湾省的人口数据。,资料来源：,2004,中国统计年鉴,.,北京,.,中国统计出版社,2004,统计分组,分配在各组的单位数及其相对形式,3.3.2,累积频数,累积频数（,Cumulative,Frequence,）按照各组数据取值范围高低的次序，逐组依次累加得到的一组频数。累积频数表明了在某一数值水平以上，或以下总共包含的数据个数。,依据逐组累加次序是从最低的数据取值范围组依次向较高组进行，还是从最高的数据取值组依次向较低组进行，可以将累积频数分为向下累积和向上累积。从最高的数据取值组开始，依次向较低组进行累加所形成的累积频数称为向下累积频数，表明了各组下限以上的数据个数之和；从最低的数据取值组开始，依次向较高组进行累加所形成的累积频数称为向上累积频数，表明了各组上限以下总共包含的数据个数。,同样，可以用数据总的个数分别去除各组的累积频数，得到各组累积频数的相对数值，以相对的形式来描述累积频数。,3.3.3,异距分组与标准组距频数,由于异距分组中各组组距不尽相等，各组频数之间不具有直接的可比性，不能直接用来描述数据的分布特征，需要进行标准化处理。,一般可以用某一组组距作为标准组距，将各组不等组距频数，换算为统一的，以标准组距为组距条件下的，标准化了的标准组距频数。即,组距标准化系数,=,标准组距,/,该组组距,标准组距频数该组频数,该组频数,组距标准化系数,还可以通过计算频数密度，来进行异距分组的标准化，即,频数密度该组频数,/,该组组距,显然，所谓频数密度是单位组距作为标准组距，即标准组距为,1,的情况下的标准组距频数。,统计学教程,第,3,章数据整理和频数分布,3.3,数据的频数分布,校正后的数据,Excel,应用,统计分组的要点和基本概念：,统计分组,基本概念：,R,、,d,、,H,、,组中值；,间断组距、重合组距、开口组、闭口组、标准组距；,频数、频数分布、频率、累积频数、累积频率。,非,数值型数据分组,数值型数据分组,单变量分组,组距分组,等距分组,异距分组,3.4,绝对数,3.4.1,绝对数的概念,绝对数,（,Absolute Data,）,【,总量指标,】【,绝对指标,】,是反映总体绝对规模和绝对水平的测度，是通过数据汇总直接得到的测度。绝对数数值的大小与界定的总体的范围有直接的联系，两者呈同方向变化。,数据整理的结果就是产生总体及其各分组的绝对数。就数值型数据而言，数据整理的成果表现为两个方面，一方面是数据个数的频数，反映数据分布状态和数据值的总规模；另一方面是数据值的总值，反映数据值的总水平。,由数据整理形成绝对数是,基础数据,，其它数据都是在绝对数基础上衍生出来的,派生数据,。,在经济管理中，,绝对数,是反映现象在一定时间、地点、条件下的总规模和总水平的综合数据，有着特别重要的地位。一个国家、地区或单位的基本情况通常要通过绝对数来反映。,国内生产总值、总人口数、国土面积、主要工业产品产量等都是反映一国国情和国力的基本数据，绝对数是制定国民经济政策、编制计划进行企业经营管理的重要依据。,综合国力（,National Power,）是衡量一个国家基本国情和基本资源最重要的,指标,，也是衡量一个国家的经济、政治、军事、技术实力的综合性指标。,【,课后作业,】,搜集综合国力相关资料,3.4.2,绝对数的种类,1,总值,【,总体标志总量,】,和频数,【,总体单位总量,】,。,总值（,Total Value,）为总体内某一数字变量所有数据的取值之和。总值是说明总体某一数量特征总水平的数据。,【GDP】,频数为总体内所有数据个数之和。频数是说明总体分布状态及其规模大小的数据。,【,总人口,】,2,时期数据,和,时点数据,时期数据（,Period Data,）是反映事物及其现象在某一指定时间区段内的发展过程中的累计总量的数据。如：总产量、投资总额、企业的利税总额等。,时点数据,（,Point Data,）是反映事物及其现象在某一指定瞬间状态下的具体水平的数据，如耕地面积数、企业总数、商品库存额等。,三点区别：, 时期数据体现的时间概念是一个时间区间，时点数据的时间概念是一个瞬间时点；, 时期数据具有累加性，时点数据不具有累加性；,时期数据的数值大小与时间长短直接相关，其数值大小直接受现象活动时间长短的制约；而时点数据与时间间隔长短没有直接的关系。,3,截面数据,和,时间序列数据,。,截面数据,（,Cross-Sectional Data,）在相同的时期内或相同的时点上搜集的数据，反映同一时间上的变量在不同空间上的差异。例如，同一年份不同国家和地区国内生产总值数据，或者全国各个省市自治区的国内生产总值数据等。,时间序列数据,（,Time-Sectional Data,）在同一空间上，不同的时期或不同的时点的数据，反映变量在不同时间上的变动。例如，我国各年国内生产总值数据，人口数据等。,统计学教程,第,3,章数据整理和频数分布,3.4,绝对数,表,3.6 2001-2003,年我国国内生产总值亿元,本表按当年价格计算。,资料来源：,2004,中国统计年鉴,.,北京,.,中国统计出版社,2004,面板数据,(Panel Data),，是截面数据与,时间序列数据,综合起来的一种数据类型。其有时间序列和截面两个维度，当这类数据按两个维度排列时，是排在一个平面上，与只有一个维度的数据排在一条线上有着明显的不同，整个表格像是一个面板,所以把,panel data,译作“面板数据”。但是,如果从其内在含义上讲,把,panel data,译为“时间序列,截面数据” 更能揭示这类数据的本质上的特点。也有译作“,平行数据,”或“,TS-CS,数据,（,Time Series - Cross Section,）”。,如：某一年，,北京,、上海、,重庆,、天津的,GDP,分别为,10,、,11,、,9,、,8,（单位亿元）。这就是截面数据，在一个时间点处切开，看各个城市的不同就是截面数据。,如：,2000,、,2001,、,2002,、,2003,、,2004,各年的,北京市,GDP,分别为,8,、,9,、,10,、,11,、,12,（单位亿元）。这就是时间序列，选一个城市，看各个样本时间点的不同就是时间序列。,如：,2000,、,2001,、,2002,、,2003,、,2004,各年,中国,所有直辖市的,GDP,分别为：,北京市分别为,8,、,9,、,10,、,11,、,12,；,上海市,分别为,9,、,10,、,11,、,12,、,13,；,天津市,分别为,5,、,6,、,7,、,8,、,9,；,重庆市,分别为,7,、,8,、,9,、,10,、,11,（单位亿元）。,这就是面板数据。,3.4.3,绝对数的计量单位,【,量纲,】,绝对数是反映总体绝对规模和绝对水平的数据，都具有具体计量单位。例如，人口用人、万人，长度用厘米、米、千米，重量用克、千克、吨等。,计量单位是绝对数数值的尺度，数量的度量工具。计量单位和绝对数数值是绝对数的缺一不可的两个组成要素，两者有机结合在一起，共同反映总体绝对规模和绝对水平。计量单位又称为量纲。,绝对数的计量单位都为,有名数,，可分为,实物单位,、,货币单位,及,时间单位,三种。据此，绝对数也可相应分为,实物量数据,、,价值量数据,和,劳动量数据,。,关于倍数,2012-03-14(Zhousanshangwu),无名数和有名数,(,也称复合名数,),。,(1),无名数,: %,、,、倍数,(,分子值超过分母值,),、成数,(,将分母抽象化为,10),(2),有名数,(,复合名数,):,由分子、分母的计量单位复合而成的。,全员劳动生产率,:,万元,/,人表示,;,人口密度,:,人,/,平方公里表示,;,手机,(,电话、私人汽车等,),的普及程度,:,台,/,百户,(,部,/,百户、辆,/,万户,),等,多重单位：,电功公式：,Q=U2/R*t =,UIt,=I,2*R*t,比热容,(specific heat capacity),又称比热容量，简称比热,(specific heat),，是单位质量物质的热容量，即使单位质量,物体,改变单位温度时的吸收或释放的内能。比热容是表示物质热性质的,物理量,。通常用符号,c,表示。比热的单位是复合,单位,。,在,国际单位制,中，,能量,、,功,、,热量,的主单位统一为,焦耳,，,温度,的主单位是,开尔文,，因此比热容的主单位为,J/(,kgK,),，读作“焦,耳,每千克开,尔文,”,1,、,实物单位,。,实物单位,（,Goods Unit,）实物单位是指根据现象的自然或物理属性而规定的计量单位。也称为,使用价值量单位,。具体有,自然单位,，例如总人口数按“人”；,度量衡单位,，例如煤产量以“吨”或“标准吨”；以及,双重单位,、,多重单位,和复合单位，例如货运量以“吨公里”等。,采用实物单位为计量单位的绝对数称为,实物量数据,，也称为,使用价值量数据,。,实物数据的特点是能够直接地反映事物的,具体内容,，但,综合能力差,。不同的实物具有不同的使用价值；不同的使用价值无法直接汇总，从而不能全面和概括地反映复杂总体的总规模或总水平。,2,、,货币单位,。,货币单位（,Monetary Unit,）是指以货币作为价值尺度对社会财富和劳动成果进行计算的计量单位。货币单位又称为,价值量单位,。如国内生产总值、总成本、销售总额等。,采用货币单位为计量单位的绝对数称为,货币量数据,，也称为,价值量数据,。,与实物量数据相反，价值量数据的突出特点就是它隐去了现象的具体,物质内容,，具有很强的,综合能力,。在实际使用时要充分注意它的这个特点，尤其要防止使用不当混淆事物的本质特征。,3,、,时间单位,时间单位（,Time Unit,）一般用劳动时间的长短来度量，一般以复合单位的形式出现。如工时、工日等。,工时：,work hours; hours of,labour,一小时所做正常工作量的劳动计量单位。工人工作,一小时,为一个工时，是工业上计算工人劳动量的,时间,单位。主要应用于劳动经济学领域。,工日：按照我国劳动法的规定，一个工作日的工作时间为,8,小时，简称“工日”。,工程,计量的时统计人工费的一个依据，比如修一间房子，有,5,个工人，每天如此，修了一个星期,7,天，那么总工日就是,35,个（,5,人*,7,天,),，一天的工日就是,5,个,(1,天*,5,人,),。,2012-03-12(ZhouyiShangwu),3.5,数据的展示,统计表的形式与构成,一、统计表的一般形式,统计表,一般为开栏式表格。左右两侧不封口，上下两端画粗实线，除标题行与合计行以细实线区分外，行与行之间一般不画线（复合分组时可以画线），表内各栏目之间用实线隔开，表体为比例协调的长方形,10:7,。,统计表一般由表头、表体,【,行标题、列标题、数据,】,、表脚,【,附注,】,三个部分构成。,例：,按用途特征分类,面积,比重（,%,）,耕地,森林,内陆水域面积,草地,#,可利用草地,其他,13004,17491,1747,40000,31333,23758,13. 54,18.22,1.82,41.67,32.64,24.75,合计,96000,10000,2006,年我国土地状况,计量单位,:,万公顷,表头,资料来源,:,中国统计年鉴,表脚,表体,统计表的结构,.,.,.,纵标目,总标目（单位）,.,合计,.,.,横标目,纵标目,纵标目,纵标目,总标目,横标目的,总标目,备注,: (,数据来源，一些标注,),【,表头,】,表号标题（包括何时、何地、何事）,从统计表的内容来看，由主词和宾词两个部分组成。主词是统计表所说明的总体，总体的各组或各组的名称。宾词是用于说明主词的各种指标。,某地区,1999,年工业总产值按轻重工业分组表,项目,工业总产值,纵栏,标题,产值（亿元）,比重（,%,）,横,行,标,题,轻工业,重工业,3059.7,3105.7,68.84,51.16,指标,数值,合计,6264.4,100.00,主词,宾词,统计表的种类,一、空表和实表,1,、空表：是指没有填写指标数值的统计表。,2,、实表：是指已经填写指标数值的统计表。,统计表的分类,按其用途不同，统计表可分为,调查表,、整理表（又称,汇总表,）和,分析表,。,附表,2-4,地下水饮用水水源地水质状况调查表浓度：,mg/L,水源地名称：,水源地编码：,一般化学指标,毒理学指标,细菌学,放射性指标,代码,名称,浓度,代码,名称,浓度,代码,名称,浓度,代码,名称,浓度,（河流基本情况普查）汇总表目录,序号,表号,普查表名称,1,H101,表,河流汇总表,2,H102,表,水文站和水位站情况汇总表,3,H103,表,实测和调查最大洪水情况汇总表,4,H104,表,湖泊汇总表,汇总表目录,H101,表,问卷调查与汇总表,分析表,一般情况下，分析表主要是指对被审计单位财务信息执行分析程序的记录。例如，记录对被审计单位本年各月收入与上一年度的同期数据进行比较的情况，记录对差异的分析等。,统计表,类型,将变量所取值按时,间顺序排列,序列表,分类表,按数值分类,定性分布,频数分布,时间序列表,地域序列,将变量所取值按,地域排列,按性质分类,统计学教程,第,3,章数据整理和频数分布,3.5,数据的展示,按其表述的内容不同,统计表可分为时间分组表、空间分组表和时空分组结合表。,统计表的种类,简单表,主词未经过任何分组，反映出总体各单位的名称或按时间顺序简单排列，或同时反映以上内容的统计表。,分时间分组表、空间分组表和特征分组表。,分组表,主词按照一定标志分组的统计表，也称简单分组表。,复合表,主词按照两个或两个以上的标志层叠分组所形成的统计表。,分为平等分组表、复合分组表和不规则分组表。,简单表,、,分组表,、,复合表,1,、简单表（,我国三个城市的人口数,(1990,年,7,月,1,日,0,时,),城市,人口数,(,人,),较,1982,年,7,月,1,日,0,时增长,%,北京市,10819407,17.21,天津市,8785402,13.15,上海市,13341896,12.50,简单分组表,【,单标志分组表,】,：只按一个特征或标志分组。,矫治方法,观察人数,近期有效人数,近期有效率,%,新医疗法,32,16,50.0,眼,保健操,32,9,28.1,表,2-8,某医院用良种疗法矫治假性近视的近期有效率,简单分组表,我国某年国内生产总值,按三次产业分,国内生产总值,（亿元）,比上年增长率,(%,）,第一产业,14883,2.9,第二产业,52982,9.9,第三产业,34522,7.3,合计,102398,8.0,复合表,【,多标志分组表,】,：按两个或两个以上特征或标志结合起来分组。,表,2-9,某省某工厂,1994,、,1998,年四项检测指标异常检出率,检测指标,1994,年,1998,年,受检人数,异常人数,检出率,(%),受检人数,异常人数,检出率,(%),血压,心率,TTT,GPT,519,519,519,519,55,44,36,20,10.16,0.48,6.94,3.85,582,582,582,582,38,39,23,16,6.52,6.70,3.95,2.75,：,TTT,（,麝香草酚浊度试验），,：,GPT,（,谷丙转氨酶）。,(,丁建生等,.,中国卫生统计,1999; 16(3):166 ),复合表某年末某地区人口资料,按,城乡及性别分组,人口数（万人）,增长率（）（与上年比）,城镇人口,男性人口,女性人口,农村人口,男性人口,女性人口,合计,按月工资分组,按性别分（人,),按级别分,小计,男,女,小计,技工,学徒工,300,以下,300,400,400,500,500,600,600,700,700,以上,4,16,22,15,10,5,1,6,10,11,8,4,3,10,12,4,2,1,4,16,22,15,10,5,0,2,4,5,8,5,4,14,18,10,2,0,合计,72,40,32,72,24,48,对,宾词栏的简单分组,按月工资分组,按级别分（人）,总计,技工,学徒工,小计,男,女,小计,男,女,对,宾词栏的交叉分组,3,统计表的绘制,原则：科学、实用、简练、美观,（,1,）统计表的表头,应用较少的文字准确地概括出统计表的基本内容，必须满足时间、地点、和什么数据的,3W,要求。一般来说，根据具体情况和实际需要，统计表的表头还包括表号、制表时间、计量单位等内容。,（,2,）统计表的标题,统计表的行标题和列标题分别位于统计表的第一行和第一列，所表示的内容包括所研究问题的类别、分组标志、变量名称和数据所属的空间或时间。,（,3,）,统计表的表式,统计表一般是两端开口式，表的左右两边不封口。统计表是由纵横直线垂直交叉而组成的长方形表格，表的上下两端的横线应以粗线绘制，其他线段均用细线。各列间用细线分开，除行标题和总计栏外，其他各行之间一般不需要再用线条分隔。,（,4,）统计表的计量单位,统计表上应标明数据的计量单位。如果表中所有数据属同一计量单位，可将计量单位标在表的右上方；否则，应在行标题或列标题分别标明，或专门列出一行或一列加以分别标明。,（,5,）统计表的填表要求,统计表中数字应填写整齐，对准位数。一般是右对齐，对于小数应按小数点对齐，且小数点的位数应统一。当数字为,0,或小可略而不计时，要写上,0,，不得留空；当缺少某项资料时，用,“,”,表示；不应有数字时用符号,“,”,表示；上、下、左、右数字相同，必须如实写出，不得用,“,同上,”,、,“,同左,”,或,“,”,等符号。,一般统计表内要列出合计数，方便核对和使用。,（,6,）统计表的的注释,统计表的下端加注说明或注解，包括统计资料来源以及调查方法等。,如果统计表中指标有一定的计算关系，可以用算式表示。如果栏目较多，可以加以编号：一般主词的计量单位栏用,(,甲,),、,(,乙,),、,(,丙,),等次序编号，宾词各栏用,(1),、,(2),、,(3),等次序编号。,企业数,职工人数,工龄,（人）,五年以下,五至,十年,十年以上,男,女,计,男,女,计,男,女,计,男,女,计,（甲）,1,2,3,4,5,6,7,8,9,10,11,12,13,（乙）,某集团总公司下属单位,2005,年,9,月销售情况如下,单位,工人数,销售额,（万元）,完成销售,单位,工人数,销售额,（万元）,完成销售,甲,一公司,320,250,90,丙,一公司,80,70,103,二公司,470,360,102,二公司,100,90,101,三公司,580,410,95,三公司,130,100,99,四公司,760,980,125,四公司,180,130,100,五公司,840,720,105,丁,一公司,620,650,100,乙,一公司,800,980,106,二公司,910,1000,104,二公司,820,720,93,三公司,1100,1250,105,三公司,1450,5420,110,四公司,1300,1500,120,四公司,1260,1440,115,合计,13500,18060,五公司,1780,1990,118,根据上述资料：,1,、按计划完成程度分组整理出一个统计表；,2,、按企业的工人数分组表明企业人数与工人劳动生产率之间的关系。,按计划完成程度分组,计划完成程度,企业数（个）,工人数,销售额（万元）,90100,4,1850,1480,100110,9,5100,5250,110120,3,4490,8850,120,以上,2,2060,2480,合计,18,13500,18060,通过按计划完成程度的分组可以看出：,该总公司有四个企业没有完成销售计划，有九个企业的计划完成程度在,100,110,之间。有三个企业的计划完成程度在,110,120,之间。有二个企业的计划完成程度在,120,以上。,按企业工人人数分组,职工人数,企业数,工人数,销售额（万元）,劳动生产率,500,人以下,6,1280,1000,0.781,5001000,7,5330,5460,1.024,1000,人以上,5,6890,11600,1.684,合计,18,13500,18060,1.338,通过按职工人数的分组后，计算的工人劳动生产率说明企业的职工人数少，规模小，劳动生产率低。反之则高。,某洗衣机厂第一季度生产洗衣机情况统计表,2006,年,3,月制,项目,台数,月份,计划生产台数,实际生产,台数,完成计划,的百分数,合计,116000,125200,107.9%,一月份,40000,42000,105%,二月份,36000,40000,111.1%,三月份,40000,43200,108%,统计表的审核,一、统计表外观形式的审核：,1,、,完整性与恰当性审核,。审核表头、表体、表脚各部分所应具备的内容是否有遗漏，表述与位置是否恰当。,2,、,规范性审核,。审核各类文字字体、字号是否符合要求，表格线是否规范。,3,、,美观性审核,。审核表体是否为开栏式，是否为长方形，长与宽的比例协调与否；表头、表体、表脚是否协调；全表与周围文本、图示是否协调。,二、统计表内容结构的审核,1,、目的性审核。审核分组标志的选择及组别的划分、指标项目的设置是否能体现统计研究的目的和任务要求。,2,、完整性审核。审核分组体系是否完备，指标项目是否全面，有无遗漏。,3,、系统性审核。审核各个组别、各个指标项目是否分别依序而排。,4,、简明性审核。审核分组体系与指标项目的设置是否过于繁杂，能否简化。,三、表中数值的审核,1,、审核数值的填写是否规范、录入是否无误。,2,、审核数值的计算结果是否正确。通过重新计算或验算平衡项目之间的关系来进行检查。,不良统计表的修改举例,3.5.2,统计图,1,非数值型数据的统计图,非数值型数据通常使用的统计图有,条形图,和,饼图,。,（,1,）,条形图,（,Bar Chart,）是以一簇宽度相等、相互分离的条状图形的长度（或高度）来表示频数分布的统计图。当以条状图形的高度来表示频数分布特征时，条形图也称为柱形图。条形图中条状图形的长度（或高度）所表示的数据可以是,频数,，也可以是,频数的相对比例,还可以是,事物具体的数值水平,等。,条形图图形为落在一个直角坐标系中的条状或柱状图形。这个直角坐标系可以是两维的，也可以是三维的。相应的条状或柱状图图形为平面和立体的。这个直角坐标系原点的具体数值可以为,0,，也可以为其他特定数值，需要根据实际情况而定。,统计学教程,第,3,章数据整理和频数分布,3.5,数据的展示,图,3.1 2003,年我国按性别分人口数柱形图,统计学教程,第,3,章数据整理和频数分布,3.5,数据的展示,图,3.2,是根据表,3.6,中我国,2003,年国内生产总值数据绘制的条形图,图,3.2 2003,年我国国内生产总值条形图,（,2,）,饼图,（,Pie Chart,）,是以同一圆形内一簇扇形的面积的大小来表示数值分布的统计图。,图,3.2,是根据表,3.6,中我国,2003,年国内生产总值数据绘制的饼图。,图,3.3 2003,年我国国内生产总值饼图,3.5,数据的展示,条形图,环形图,雷达图,2,、

展开阅读全文

统计学原理 第三章

最新文档

统计学原理第三章