资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2020/2/19,#,19-11月-24,1,一、数据整理的内容和程序,1,)统计资料的审核。,2)资料的分组和汇总。,分组,,即对资料按其性质和特点,划分为若干类;,汇总,,加总计算形成各项统计指标。统计分组和统计汇总是整理的中心工作。,3)编制统计表或绘制统计图。,4)统计资料的积累、保管和公布。,19-11月-24,2,统计资料的审核,识别虚假的问卷,识别错误的信息,剔除不一致、不充分或不相关的回答,19-11月-24,3,二、统计分组,(一)统计分组的概念与种类,1、统计分组,1)根据统计,研究的目的,和,客观现象的内在特点,,按某个标志(或几个标志)把被研究的总体划分为若干个不同性质的组,称为统计分组。,2)分组的性质来:兼有分和合双重含义。,19-11月-24,4,2、统计分组的原则,穷尽原则,,使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体所有的单位。,互斥原则,,在特定的分组标志下,总体中的任何一个单位的只能归属于某一组,而不能同时或可能归属于几个组。,19-11月-24,5,3、统计分组的种类,1)按分组,标志的多少,,可分为简单,分组和复合分组。,简单分组,:就是对研究现象按,一个标志,进行分组。,复合分组,:用,两个或两个以上标志,分组,即先按一个标志分组,在此基础上再按第二个标志分小组,又再层叠地按第三个标志分成更小的组,这称为复合分组。,19-11月-24,6,国内生产总值(复合分组),第一产业,三次产业,第二产业,工业,行业,国有工业,经济类型,非国有工业,建筑业,第三产业,19-11月-24,7,统计分组的种类,2)按分组的,标志的性质,不同,分为品质,分组(或称属性分组)和数量分组,(或称变量分组)。,品质分组,:按品质(或属性)标志进行分组。品质分组所形成的数列称为,品质数列,。,数量分组,:按数量标志分组,数量标志的变异性体现在它不断变动自身的数量上,故也称为变量分组。变量分组所形成的数列称为,变量数列,。,19-11月-24,8,统计分组的种类,3)按分组的,作用和任务,不同,分为类型,分组、结构分组和分析分组。,类型分组,:把复杂的现象总体,划分为若干个不同性质的部分,就是类型分组。,结构分组,:在对总体分组的基础上计算出各组对总体的,比重,,借此研究总体各部分的结构,即结构分组。,分析分组,:为研究现象之间依存关系而进行的统计分组即分析分组。,19-11月-24,9,类型分组,我国全社会消费品零售额,国有及国有控股商业零售额,集体商业零售额,私营及个体商业零售额和,其他类型商业零售额,19-11月-24,10,(二)统计分组的方法,1、品质分组的方法。,按品质标志分组,分组比较简单,分组标志一经确定,组的名称和组数随之确定。,例如,,人口按性别,分为,男女,两组。有些品质分组还取决于统计分析对分组层次的不同要求,例如,我国把社会经济各部门划分为第一产业、第二产业和第三产业,第一产业还可细分为农业、林业、畜牧业和渔业等。,19-11月-24,11,(二)统计分组的方法,2、,数量分组的方法,按数量标志分组,应注意如下两个问题:,首先,,分组时各组,数量界限的确定,必须能反映事物质的差别。,其次,,应根据被研究的现象总体的数量特征,采用,适当的分组形式,,确定相宜的组距、组限。,19-11月-24,12,1)单项式分组与组距式分组,A),单项式分组,:用,一个变量值,作为一组,形成单项式变量数列。,变量值又称标志值。按数量标志分组,数量标志的表现,就是变量的取值,单项式分组一般适用于,离散型变量,且变量变动,范围不大,的场合。,例如,育龄妇女按其生育子女的存活数分组,可分为,0,个、,1,个、,2,个、,3,个、,4,个、,5,个等,6,组。,如表,1,所示:,19-11月-24,13,按生育个数分组(,x,),频数(,f,i,),0,5,1,1,2,8,3,11,4,11,5,7,6,4,7,以上,3,合计,50,表,1,旧社会育龄妇女生育子女存活个数 单位:个,19-11月-24,14,B),组距式分组,:将变量依次划分为,几段区间,,一段区间表现为“,从到,”距离,把一段区间内的所有变量值归为一组,形成组距式变量数列。区间的距离就是组距。,连续型变量,或者,变动范围较大,的离散型变量,适宜采用组距式分组。,例如,反映居民居住水平情况按人均居住面积分组分为:,6,平方米以下,,6,10,平方米,,10,14,平方米,,14,平方米以上等,4,组。如表,2,19-11月-24,15,按人均居住面积分组(,x,),频数(,f,i,),6,以下,5,6,10,1,10,14,8,14,18,11,18,22,11,22,26,7,26,30,4,30,以上,3,合计,50,表,2,人均居住面积 单位:平方米,/,人,19-11月-24,16,B),组距式分组:,下限,上限,:组距式分组的每一组变量值中,其,最小值为下限,,,最大值为上限,。,80,90,组距:上下限之间的距离。,组限:相邻两组的界限。,19-11月-24,17,2)间断(连续)组距式分组,间断组距式分组,:,组限不相连,的组距式分组。,连续组距式分组,:,组限相连,,即以同一数值作为相邻两组的共同界限的组距式分组。,离散型变量,两种分组都可以。连续型变量,只能采用连续组距式分组。,“上限在不内”原则,:在连续组距式分组中,以同一个数值作为相邻两组共同的界限,统计上规定,凡是总体某一个单位的变量值是相邻两组的界限值,这一个单位归入作为下限值的那一组内。,19-11月-24,18,按人均居住面积分组(,x,),频数(,f,i,),6,以下,5,7,10,1,11,14,8,15,18,11,19,22,11,23,26,7,27,30,4,31,以上,3,合计,50,表,2,人均居住面积 单位:平方米,/,人,间断组距分组,19-11月-24,19,按人均居住面积分组(,x,),频数(,f,i,),6,以下,5,6,10,1,10,14,8,14,18,11,18,22,11,22,26,7,26,30,4,30,以上,3,合计,50,表,2,人均居住面积 单位:平方米,/,人,连续组距分组,19-11月-24,20,3)等距分组与异距分组,等距分组,:,标志值在各组保持,相等的组距,,即各组的标志值变动都限于相同的范围。一般用于标志值变动比较均匀的场合。,异距分组,:,各组的,组距不相等,。,19-11月-24,21,按人均居住面积分组(,x,),频数(,f,i,),6,以下,5,6,10,1,10,14,8,14,18,11,18,22,11,22,26,7,26,30,4,30,以上,3,合计,50,表,2,人均居住面积 单位:平方米,/,人,等距分组,19-11月-24,22,(,三,),相关指标的计算,1.,组距,连续式分组的组距计算公式:,组距=本组上限本组下限,间断式分组的组距计算公式:,组距=本组上限本组下限+1,开口组的组距:以,相邻组的组距,为本组的组距。,19-11月-24,23,按人均居住面积分组(,x,),频数(,f,i,),6,以下,5,6,10,1,10,14,8,14,18,11,18,22,11,22,26,7,26,30,4,30,以上,3,合计,50,表,2,人均居住面积 单位:平方米,/,人,19-11月-24,24,2.,组中值,:上下限之间的中点数值称为组中值,组中值的计算公式:,计算,平均指标,或进行其它统计分析时,常以组中值来代表各组标志值的平均水平。,19-11月-24,25,3.,组数,组数=全距/组距,斯特杰斯经验公式,:,组数=1+3.3,Lg N,由此推出,组距=(最大变量值-最小变量值)/(1+3.3,Lg N),19-11月-24,26,N,15,24,25,44,45,89,90,179,180,359,n,5,6,7,8,9,根据这一公式,可以得出如下(见表,2-1,)的组数参考标准:,19-11月-24,27,三 频数分布,(一)频数分布的基本概念,1、,频数分布,在统计分组的基础上,将总体所有的单位,按某一标志进行归类排列,,称为频数分布,或,次数分布,。根据分组标志特征的不同,分布数列可分为品质分布数列和变量分布数列。,19-11月-24,28,2、,分布数列的两个要素,1)总体,按某标志,分组。,2)各组所,出现的单位数,,即频数,亦称次数。对于变量数列,标志值形成的数列,称为变量,一般用,x,表示;频数(次数)用,f,表示。,19-11月-24,29,(二)变量数列的编制,1、编制方法。,19-11月-24,30,【,例,2-1】,对产品生产过程进行质量控制,抽取,50,个电子元件调查其耐用时数(单位:小时),具体资料如下:,1180,1010,1230,1100,1180,1580,1210,1460,1170,1080,1050,1100,1070,1370,1200,1630,1250,1360,1270,1420,800,1030,870,1150,1410,1170,1230,1260,1380,1510,1010,860,810,1130,1140,1190,1260,1350,930,1420,1080,880,1050,1250,1160,1320,1380,1310,1250,1270,19-11月-24,31,对上述资料采用等距分组,分为,8,组,组距为,100,,以,800,为第一组下限。经过整理,得出计算结果如表,2-2,所示。,表,2,2 50,个电子元件耐用时数资料表 单位:小时,频率(,按耐用时数分组(,x,),频数(,f,i,),频率 ),800,900,5,0.10,900,1000,1,0.02,1000,1100,8,0.16,1100,1200,11,0.22,1200,1300,11,0.22,1300,1400,7,0.14,1400,1500,4,0.08,1500,以上,3,0.06,合计,50,1.00,19-11月-24,32,1、编制方法。,2、,频率的性质,1)任何频率都是界于0和1之间的一个分数。,2)各组频率之和等于1。,19-11月-24,33,(三)累计频数与累计频率,1、,向上累计频数(或频率)分布,:,先列出各组的上限,然后由标志值低的组向标志值高的组依次累计。,向上累计频数表明某组上限以下的各组单位数之和是多少,向上累计频率表明某组上限以下的各组单位数之和占总体单位数比重的大小。,2、,向下累计频数(或频率)分布,:,先列出各组的下限,然后由标志值高的组向标志值低的组依次累计。,向下累计频数表明某组下限以上的各组单位数之和是多少,向下累计频率表明某组下限以上的各组单位数之和占总体单位数比重的大小。,19-11月-24,34,50,个电子元件耐用时数累计表,向上累计,向下累计,电子元件耐用时数分组上限,频,数,累计,频数,频率,(%),累计频率,(%),电子元件耐用时数分组下限,频,数,累计频数,频率,(%),累计频率,(%),900,5,5,10,10,800,5,50,10,100,1000,1,6,2,12,900,1,45,2,90,1100,8,14,16,28,1000,8,44,16,88,1200,11,25,22,50,1100,11,36,22,72,1300,11,36,22,72,1200,11,25,22,50,1400,7,43,14,86,1300,7,14,14,28,1500,4,47,8,94,1400,4,7,8,14,1600,2,49,4,98,1500,2,3,4,6,1700,1,50,2,100,1600,1,1,2,2,合计,50,100,合计,50,100,19-11月-24,35,3、,累计频数分布特点,1),第一
展开阅读全文