统计数据的整理和显示

上传人:无*** 文档编号:66133409 上传时间:2022-03-26 格式:DOC 页数:25 大小:289.50KB
返回 下载 相关 举报
统计数据的整理和显示_第1页
第1页 / 共25页
统计数据的整理和显示_第2页
第2页 / 共25页
统计数据的整理和显示_第3页
第3页 / 共25页
点击查看更多>>
资源描述
第三章 统计数据的整理和显示一、教学目的和要求明确统计整理的概念、意义和内容;掌握统计分组的概念、原则、方法和作用,了解分组的类型;熟悉频数分布的概念、种类;熟悉变量数列的编制方法,注意组距数列中的一些基础知识;熟悉统计表的构成和制表、填表规则。二、教学时数:6学时 三、教学重点统计数据分组的类型原则和方法、变量数列特别是组据数列的编制方法、统计表设计的原则和方法。四、教学难点变量数列的编制。五、教学方法基本知识通过案例结合EXCEL软件演示授课。六、教学内容第一单元 统计数据整理概述和统计分组教学目的要求:理解数据整理的概念、种类理解数据整理的主要原则和内容掌握数据预处理的方法理解理解数据分组的涵义和类型教学重点:数据整理的原则内容统计数据分组的类型教学难点:数据的预处理、对数据分组概念的辩证理解授课时数:2学时第一节 统计数据整理概述一、统计整理及其类型(一)统计整理:就是对搜集得到的初始数据进行审核、分组、汇总,使之条理化、系统化,变成能反映总体特征的综合数据的工作过程。对已整理过的资料(包括历史资料)进行再加工也属于统计整理。(二)统计整理的意义1、通过统计调查可以取得第一手资料,但这种资料只能反映总体各单位的具体情况,是分散、零碎、表面的。要说明总体情况,揭示出总体的内在特征,还需要对这些资料进行加工整理,使之系统化,以便通过综合指标对总体作出概括性的说明。2、统计整理是整个统计工作和研究过程的中间环节,起着承前启后的作用。统计整理是统计调查的继续,又是统计分析的基础。统计调查所搜集到的资料,只有通过科学的审核、分类、汇总等整理工作,才能使统计在认识社会的过程中,实现由个别到全体、由特殊到一般、由现象到本质、由感性到理性的转化,才能从整体上反映出事物的数量特征。否则统计调查所得的资料再丰富、再完备,其作用也发挥不出来,统计调查就将徒劳无益,统计分析也将无法进行。3、统计整理还是积累历史资料的必要手段。统计研究中经常要用动态分析,这就需要有长期累积的历史资料,而根据积累资料的要求,对已有的统计资料进行筛选,以及按历史的口径对现有的统计资料重新调整、分类和汇总等,都必须通过统计整理工作来完成。(三)统计整理的类型1.定期统计报表数据的整理2.专题性统计数据的整理3.历史统计数据的整理二、统计整理的原则和内容(一)数据整理的原则1.目的性原则2.联系性原则3.简明性原则(二)数据整理的内容统计整理的全过程包括对统计资料的审核、分组、汇总和编制统计图表四个环节,需要按照一定的步骤进行:(1)对搜集到的资料进行全面审核,以确保统计资料符合统计研究目的的要求,资料准确无误。(2)根据研究目和统计分析的需要,选择整理的标志,并进行划类分组。统计分组是统计整理的重要内容和统计分析的基础,只有正确的分组才能整理出有科学价值的综合指标,并借助这些指标来揭示现象的本质与规律。(3)在分组的基础上,将各项资料进行汇总,得出反映各组和总体数量特征的各种指标。(4)统计资料的显示。即通过编制统计表和绘制统计图,将整理出的资料简捷明了、系统有序地显示出来。(5)对统计数据分门别类地系统积累。三、数据的预处理(一)数据的 对调查资料进行审核是统计整理的第一步,包括以下内容:1.审核资料的完整性和及时性审核资料的完整性,就是看调查单位或填报单位是否齐全;规定的项目是否都有答案,应报资料的份数是否符合规定。审核资料的及时性,是看填报单位是否按时报送了有关资料。对不报、漏报或迟报的现象都要及时查清。2.审核资料的正确性:审核资料的正确性,是检查所填报的资料是否准确可靠。常用的审核方法有两种:(1)逻辑检查首先,从理论上或常识上检查资料是否有悖常理、有无不切实际或不符合逻辑的地方。比如,一张调查表中,年龄是9岁,职业是教师,其中必有一个是错误的。又如,若在某劳动密集型行业的报表中,企业规模为大型,而职工人数则是100人,这其中也必有一错。其次,是检查各项目之间有无相互矛盾的地方。例如,企业的净产值大于同期总产值就是明显的逻辑错误。(2)计算检查即检查各项指标的计算口径、计量单位是否符合规定,并通过各种计算方法来检查各指标间的数字是否相互衔接。3.历史资料的审核在利用历史资料(或其他间接资料)时,应审核资料的可靠程度、指标含义、所属时间与空间范围、计算方法和分组条件与规定的要求是否一致。一般可以从调查资料的历史背景、调查者搜集资料的目的以及资料来源等,来判断资料的可靠程度,也可以从指标间的相互关系以及指标的变动趋势来检查它的正确性。对不能满足现在要求、缺漏或有疑问的资料,要进行有科学根据的推算、弥补和订正。(二)资料审核后的订正通过上述审核,如发现有缺报、缺份和缺项等情况,应及时催报、补报;如有不正确之处,则应分别不同情况作如下处理:(1)对于可以肯定的一般错误,应及时代为更正,并通知原报单位。(2)对于可疑之数或无法代为更正的错误,应要求原单位复查更正。(3)如果所发现的差错在其他单位也可能发生时,应将错误情况通报所有单位,以免发生类似错误。(4)对于严重的错误,应发还重新填报,并查明发生错误的原因,若属于违法行为,则应依法严肃处理。四、统计分组的含义1.概念:根据社会经济现象的特点和统计研究的目的要求,按照一定的标志把总体划分为若干不同性质的组或类型,称为统计分组。统计分组的对象是总体,统计分组的标志可以是品质标志,也可以是数量标志。2.统计分组的深层次理解从分组的性质来看,分组兼有“分和合”双重含义。(1)对于现象总体而言,是“分”,即把总体分为性质相异的若干部分;而对于总体单位而言,又是“合”,即把性质相同的许多总体单位合为一组。(2)对于分组标志而言,是“分”,即按分组标志将不同的标志表现分为若干组,而对于其他标志而言,是“合”,即在一个组内的各单位即使其它标志表现不相同也只能结合在一组。由此可见,选择一种分组方法,突出了一种差异,显示了一种矛盾,必然同时掩盖了其他差异,忽略了其他矛盾。不同的分组方法,可能得出不同的结论。缺乏科学根据的分组,不但无法显示事物的根本特征,甚至会把不同性质的事物混淆在一起,歪曲社会经济现象的本质。因此,统计分组必须先对所研究现象本质作全面地、深刻地分析,确定所研究现象类型的属性及其内部差别,而后才能选择反映事物本质的正确的分组标志。五、统计分组的类型(一)按分组的作用或目的不同,分为类型分组、结构分组和分析分组。1.类型分组:是将复杂的现象总体,划分为若干个不同性质的部分。2.结构分组:是在对总体分组的基础上计算出各组对总体的比重,以此来研究总体各部分的结构。类型分组和结构分组往往紧密联系在一起。3.分析分组:是为研究现象之间依存关系而进行的统计分组。分析分组的分组标志称为原因标志,与原因标志相对应的标志称为结果标志。如影响某种商品消费需求的因素有:该商品的价格、消费者收入、相关商品的价格、消费者偏好以及消费者对该商品的预期等。原因标志不同,结果标志也会不同;同一原因标志由于分组的不同,结果标志也会不同。例如,工人的劳动生产率与产值之间、商品流通费用率与商品销售额之间的依存关系,都可以按分析分组法来研究它们之间的联系。(二)按分组标志的多少,可分为简单分组、复合分组和并列分组。1.简单分组:就是对总体只按一个标志进行分组。例如国民生产总值按产业分为第一、第二、第三产业三组;货运量按运输方式分为铁路运输、公路运输、水陆运输、航空运输与管道运输等五组。2.复合分组:就是对总体按两个或两个以上的标志进行的重叠式分组,即在按某一标志分组的基础上再按另一标志进一步分组。复合分组的优点是,从对同一现象的层层分组和分组标志的联系中,更深入全面地研究总体各个方面的内部结构。但是,采用复合分组时,组数会随着分组标志的增加而成倍增加,使每组包括的单位数相应减少,处理不好就会成为烦琐哲学,不利于分析问题。因此,不能滥用复合分组,尤其不宜采用过多的标志进行复合分组,也不宜对较小总体进行复合分组。3、分组体系:就是同时用两个或两个以上的标志,分别从不同的角度,进行不重叠的多种分组。也就是说,很多简单分组从不同角度说明同一个总体,就构成一个并列的分组体系。例如,职工先按性别分成两组,另按年龄分成若干组;进口总额先按贸易对象分成若干组,另按商品用途分成若干组。分组体系的特点是两种或多种分组相互独立而不重叠,既可从不同的方面反映事物的多种结构,又不致使分组过于烦琐,故被广泛采用。(三)按分组标志的性质,分为属性分组和变量分组。1.属性分组:是按品质标志进行的分组,即按事物的某种属性分组。如企业按经济类型、行业分组;人口按性别、民族分组;大学生按专业分组等。这种分组可以反映总体的构成和不同属性事物在总体中的地位和作用。2.变量分组:是按数量标志进行的分组。如企业按生产能力、劳动生产率分组;商店按商品流转额、职工人数分组;人口按年龄、身高分组等。这种分组的目的在于通过事物在数量上的差异来反映事物在性质上的区别。属性分组和变量分组是一对重要的统计分组,统计分组方法主要是围绕这两种分组来阐述的。单元小结:1统计数据整理主要是将搜集的原始数据加工成反映总体特征的综合数据的工作过程,在统计过程中起着承上启下的作用。统计数据整理包括定期统计报表数据的整理、专题统计数据的整理和历史统计数据的整理。统计数据整理的原则是2统计数据整理的原则是目的性、联系性和简明性;整理的内容主要包括审核、分组、汇总、数据显示、分门别类积累资料。3统计数据分组是分与合的辨证统一,其类型中最重要的是按分组标志的性质和分组标志的多少分。习题布置:见统计学原理习题集第三章 第17至23页,朱胜主编,中国统计出版社第二单元 统计数据分组与频数分布教学目的要求:掌握统计数据分组的原则、方法和作用了解统计数据分组的类型熟悉频数分布的概念、种类熟悉变量数列的编制方法,注意组距数列中的一些基础知识教学重点:数据分组的原则、方法变量数列的编制教学难点:频数累计与组据数列的编制授课时数:2学时一、统计数据分组的原则和方法(一)统计数据分组的原则统计分组,必须遵循以下两个原则: 1.穷尽原则:就是使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体所有的单位。例如,从业人员按文化程度分组,分为小学毕业、中学毕业(含中专)和大学毕业三组,那么,那些文盲或识字不多的以及大学以上的学历者则无组可归。如果将分组适当调整为文盲及识字不多、小学程度、中学程度、大学及大学以上,这样分组,就可以包括全部从业人员的各种不同层次的文化程度,符合了分组的穷尽原则。2.互斥原则:就是在特定的分组标志下,总体中的任何一个单位只能归属于某一组,而不能同时或可能归属于几个组。例如,某商场把服装分为男装、女装、童装三类,这不符合互斥原则,因为童装也有男、女装之分。若先把服装分为成年与儿童两类,然后每类再分为男女两组,这就符合互斥原则了。(二)分组标志的选择分组标志是统计分组的依据或标准。正确选择分组标志是进行统计分组的关键,分组标志确定得恰当与否会直接影响统计分组的作用。为了正确选择分组标志,必须遵循以下几条原则:1.要符合统计研究的目的和要求统计分组是为统计研究服务的,统计研究的目的不同,选择的分组标志也应有所不同。例如,同是以工业部门为研究对象,当研究的目的是为了分析部门中各种规模的企业的生产情况时,应该选择产品数量或生产能力作为分组标志;当研究目的在于确定工业内部比例及平衡关系时,应该以行业为分组标志,将工业部门划分为重工业与轻工业或冶金、电力、化工、机械、纺织、煤炭等工业行业。2.必须选择最重要的标志作为分组依据社会经济现象纷繁复杂,研究某一问题可能涉及许多标志,科学的统计分组则应从中选择与统计研究的目的、与有关事物的性质或类型关系最密切的标志,即最主要或最本质的标志作为统计分组的依据。例如,根据统计调查资料,研究人民生活水平变动情况时,可供选择的分组标志有:家庭人口数、每户就业人数、每一就业者负担人数、家庭总收入、平均每人月生活费收入等。而其中最能反映人民生活水平变动的标志是平均每人月生活费收入,故应选择这一标志作为分组标志。3.要考虑到社会经济现象所处的具体历史条件客观事物的特点和内部联系随着条件的变化而不同,因此选择分组标志时,要具体情况具体分析,根据事物的不同条件来选择分组标志。例如,同是划分企业规模,在劳动密集型的行业或地区,可采用职工人数作为分组标志;而在技术密集型的行业或地区,则应选择固定资产价值或生产能力作为分组标志。(三)分组界限的划分(分组标志确定后,分组界限便成为数据分组的重要问题)1.按属性分组时,确定各组的界限有两种情况:(1)组限是自然形成的或比较明显的;例如,人口按性别、文化程度、党派分组等。(2)由于存在属性之间的过渡形式,使分组界限难以确定。这种比较复杂的属性分组,国家有关部门都制定有标准的分类目录,分组时可以依据分类目录来确定组限。例如,人口按职业分组,企业按行业分组,产品按经济用途分组等。2.按变量分组时,应注意以下两点:(1)分组时各组数量界限的确定必须能反映事物质的差别。例如,学生学习成绩分组,不能把55分和65分合为一组,因为这样的分组未区分及格与不及格的质的差别。(2)其次,应根据被研究的现象总体的数量特征,采用适当的分组形式,确定相宜的组距、组限和组数。单项式分组与组距式分组1)单项式分组:就是用一个变量值(标志值)作为一组,形成单项式变量数列。单项式分组一般适用于离散型变量且变量变动范围不大的场合。如,育龄妇女按其生育子女存活数分组,可分为0个、1个、2个、3个、4个、5个等6组。2)组距式分组:就是将变量依次划分为几段区间,一段区间表现为“从到”距离,把一段区间内的所有变量值归为一组,形成组距式变量数列。区间的距离就是组距。对于连续型变量或者变动范围较大的离散型变量,适宜采用组距式分组。例如,反映居民居住水平情况按人均居住面积分组分为:4平方米以下,4-6平方米,6-8平方米,8平方米以上等4组。再如了解某班学生成绩情况,按成绩进行组距式分组。间断组距式分组和连续组距式分组在组距式分组中,每组包含许多变量值,每一组变量值中,其最小值为下限,最大值为上限。组距是上下限之间的距离,相邻两组的界限,称为组限。间断组距式分组:是指凡是组限不相连的分组。例如,儿童按年龄分组分为未满1岁,1-2岁,3-4岁,5-9岁,10-14岁。连续组距式分组:凡是组限相连(或称相重叠的)分组,即以同一数值作为相邻两组的共同界限的分组。例如,工人按工时定额完成程度分组分为90-100%,100-110%,110-120%等组。如果变量值只是在整数之间变动,例如企业数、职工数、机器设备台数等离散型变量,可采用间断组距式分组,也可采用连续组距式分组。如果变量值在一定范围内的表现即可以是整数,也可以是小数,如产值、身高、体重等连续型变量,只能采用连续组距式分组。在进行连续组距式分组时应注意,由于以同一个数值作为相邻两组共同的界限,为了遵循统计分组穷尽和互斥原则,所以统计上规定,凡是总体某一个单位的变量值是相邻两组的界限值,这一个单位归入作为下限值的那一组内,即所谓“上限不在内”原则。例如学生成绩分组,把70分的学生归入70-80分组内,把80分的学生归入80-90分组内。根据这一原则,离散型变量的分组,各组的上限也可以写为下一组的下限,这样处理既简明又便于计算。连续型变量的分组也可以仅列出左端的数值,即以各组的下限来表示。如上例学生成绩分组也可表示为50-,60-,70-,等距分组与异距分组按数量标志进行组距式分组,还可分为等距分组和不等距(或称异距)分组。1)等距分组等距分组:就是标志值在各组保持相等的组距,即各组的标志值变动都限于相同的范围。凡是在标志值变动比较均匀的情况下,都可采用等距分组。例如,工人的年龄、工龄、工资的分组;零件尺寸的误差、加工时间的分组;农产品单位面积产量、单位产品成本的分组等等。等距分组有很多好处,它便于绘制统计图, 也便于进行各类运算。2)异距分组分组的形式应服从分组的要求,即性质相同的单位应合并在一个组内,性质不同的应当分开。现象的差别取决于现象的本质,而不在于数学形式,必须根据现象的本质特征和统计研究的目的任务来确定分组的等距与否。在下列情况下,就必须考虑采用异距分组:第一,标志值分布很不均匀的场合。例如,学生成绩如果密集于某一范围,如60-80分或70-90分之间,其它部分则分布十分稀少,在这种场合若仍以10分为组距进行等距式分组,则无法显示出分布的规律性,会使得这一密集的分数段分布的信息损失过大。因此,合理的做法是,在分布比较密集的区间内使用较短的组距,在分布比较稀少的其余部分使用较长的组距,形成各组的组距不相等的异距分组。第二,标志值相等的量具有不同意义的场合。例如,生命的每一个月对于新生婴儿和对于成年人是大不一样的,此时,进行人口疾病研究的年龄分组,应采用异距式分组,即1岁以下按月分组,1-10岁按年分组,11-20岁按5年分组,21岁以上按10年或20年分组等等。第三,标志值按一定比例发展变化的场合。例如,百货商场营业额差别是很大的,比如营业额从5万元至5千万元,可采取公比为10的不等距分组5-50万元、50-500万元、500-5000万元。若用等距分组,即使组距为100万元,也得分为50组,显然是不合适的。对于异距分组方法的运用,没有固定模式可供依循,全凭统计人员在实践中不断探索,关键在于对所研究现象的内在联系必须十分熟悉,才能很好运用异距分组来揭示事物的本质。二、统计分组的应用(一)划分社会现象的不同类型。社会经济现象千差万别,要了解各种社会经济现象的性质、特点及其相互关系,必须根据某种标志把它们划分为性质不同的类型,以便揭示不同社会经济现象的质的差异。例如,国民经济按产业分组;农业分成农、林、牧、渔业各组;社会商品零售额按商品用途分组;企业按所有制分组等等。这些分组也叫类型分组。如下表是我国城镇居民家庭收入消费性支出按商品类别分组的统计表,它将全部消费品分为八大类,尽管它们同属于消费品,但在效用上却有“质”的差别。通过这种分类,可以反映我国居民和社会集团的商品性消费中不同类别的商品所占的地位和作用,也为进一步研究我国消费品零售额的水平与结构提供了便利条件。我国城镇居民家庭人均消费支出及构成按商品类别分组零售额(元)构成(%)食品类衣着类家庭设备用品及服务类文化娱乐用品类交通通讯类医疗保健类居住类杂项商品类合计(二)揭示社会现象的内部结构。从数量上反映总体内部的结构是统计研究的重要任务。总体的内部结构可体现部分与整体的关系以及各部分之间存在的差别和相互联系,反映事物从量变到质变的过程,帮助人们掌握事物的特征,认识事物的性质。我国出口产品构成表(%)年份农副产品农副产品加工品工矿产品合计1950196019701980198519901995200057.531.036.718.717.513.07.35.233.242.337.729.526.929.226.225.19.326.725.651.855.657.866.569.7100100100100100100100100如该表,就从我国出口商品构成的变化,反映出我国经济发展水平和经济结构的变化。(三)分析社会现象之间的依存关系。社会经济现象之间广泛地存在着相互依存的关系,如农作物的耕作深度与收成率之间、合理密植与农产量之间、家庭的工资收入与生活费支出之间、工人技术级别与产品质量之间、工人劳动生产率与产品成本之间、市场商品价格与其需求量之间等等,都在一定程度上存在相互依存的关系。所有这些依存关系,都可通过统计分组分析出影响因素与结果因素之间的变动规律。三、组距、组数、组限与组中值在具体进行分组时,首先应对标志值的分布情况进行仔细审查,找出变量的最大值和最小值;其次,在分布比较集中的标志值处确定组距的中心位置;再次,根据预定的组距的大小定出上下限。一般地,第一组的下限必须略小于实际变量值的最小值,最后一组的上限必须略大于实际变量值的最大值,并尽可能使各单位的标志值在组内分布比较均匀。(一)组距在组距式分组中,组距是各组上下限之间的距离,即各组最大标志值和最小标志值之差。1.由于有等距分组与异距分组之分,在后文中将要出现的频数密度的概念,必须具体计算确定每一个组的组距大小。在许多版本的教科书中,笼统地使用如下公式来计算组距的大小,即:组距=上限-下限事实上,这一公式只适用于计算连续组距式分组的组距大小,例如成绩分组中,60-70分,70-80分,其组距为10分(=70-60或80-70)。如果将这一公式套用于间断组距式,将会产生谬误。例如,商店规模按职工人数分组,分为1-5人,6-10人,11-15人等等。套用上述公式,得出5-1(或10-6,或15-11)=4,即组距为4人的结论,显然是错误的。2.对于间断式分组的组距大小的计算,必须采用如下公式:组距=上组下限-本组下限(二)组数全距是总体中最大的标志值与最小的标志值之差。组数的多少直接取决于两个因素,一个是总体的全距,另一个是组距。在等距分组的条件下,组数等于全距除以组距。在组距既定的条件下,全距大则组数多,全距小则组数少;在全距既定的条件下,组距大则组数少,组距小则组数多。全距是客观存在的事实,不以人的意志为转移,所以,确定组数的关键是确定组距。如对学生成绩情况的统计分组中,组数过少,例如学生成绩分为2组,不能很好地达到分组的基本要求;组数过多,例如成绩分为101组,即分组过细,也无法起到化繁为简的作用,难以显示出总体分布的规律。决定组数的多少,并无规则可言,必须凭借经验和所研究问题的性质作出判断。这里,向大家介绍一种确定组数和组距的经验公式,这一公式是美国学者斯特杰斯(Sturges)创立使用的,称为斯特杰斯经验公式,即: 则有:,公式中,n为组数,N为总体单位数,i为组距,R为全距,即最大变量值Xmax与最小变量值Xmin之差。根据这一公式,可以得出如下(见下表)的组数参考标准。分组组数参考标准表N15-2425-4445-8990-179180-359n56789上述公式及表中数据仅供参考,不能生搬硬套。实际分组时采用组数多少应依据所研究资料的性质而定。(三)组中值组中值:各组中点位置所对应的变量值。其计算公式为:组中值=(适用所有闭口组) 或= (适用上开口组)或=(适用下开口组)在计算平均指标或进行其它统计分析时,常以组中值来代表各组标志值的平均水平。当各组标志值均匀分布时,组中值代表各组标志值的水平,其代表性就高。因此,分组时应注意:1、尽可能使组内各单位标志值分布均匀;2、为避免产生过大的计算误差,在选取各组上、下限时,应尽可能使组中值恰为整数。3、当连续型变量按离散型变量表示时,组距数列的编制采取相邻组限不重叠的形式,组中值的确定应考虑到连续型变量自身的特点。4、开口组的组中值的确定。在编制组距式变量数列时,使用“以上”或“以下”这样不确定组距的组,称为开口组。例如,反映某工业企业工人生产定额完成情况,按生产定额完成程度分组,分为90%以下,90-100%,100-110%,110%以上。开口组的组距是以相邻组的组距为本组的组距,如上例,90%以下的组,因相邻组的组距为10%(=100%-90%),故第一组视为80-90%,其组中值为(80%+90%)/2=85%,即85%;110%以上的组距以邻组的组距10%为本组组距,视为110-120%,组中值为 =115%。四、频数分布及其构成要素(一)频数分布 在统计分组的基础上,将总体所有的单位按某一标志进行归类排列,并计算各组的单位数称为频数分布,或次数分布。(二)频数分布的两个要素1.组别:总体按某标志所分的组 2.频数(次数)和频率:各组的单位数叫频数,各组的单位数与总体单位总数之比叫频率。频率具有如下两个性质:(1)各组频率都是界于0和1之间的一个分数。即:(2)各组频率之和等于1 。即(三)频数分布的种类1.品质频数分布:简称为品质数列,它是经过属性分组后形成的频数分布,其组别表现为一系列的概念或范畴。2.变量频数分布:简称为变量数列,它是经过变量分组后形成的分布数列,其组别表现为不同的数值或数域。单项数列:是以一个变量值为一组编制的变量频数分布。组距数列:是以表示一定变动范围的两个变量值构成的组所编制的变量频数分布。五、累计频数与累计频率1.累计频数(或频率)可以是向上累计频数(或频率),也可以是向下累计频数(或频率)。(1)向上累计频数(或频率)分布,即先列出各组的上限,然后由标志值低的组向标志值高的组依次累计频数(或频率)。某组向上累计频数表明该组上限以下的各组单位数之和是多少,某组向上累计频率表明该组上限以下的各组单位数之和占总体单位数的比重。(2)向下累计频数(或频率)分布,即先列出各组的下限,然后由标志值高的组向标志值低的组依次累计频数(或频率)。某组向下累计频数表明该组下限以上的各组单位数之和是多少,某组向下累计频率表明该组下限以上的各组单位数之和占总体单位数的比重。现仍以50户居民某月购买消费品支出额的资料为例,分别进行向上和向下累计,其结果如下表所示某市50户居民某月消费品支出累计表居民月消费支出额分组上限向上累计居民月消费支出额分组下限向下累计频数累计频数频率(%)累计频率(%)频数累计频数频率(%)累计频率(%)900100011001200130014001500160017005181111742156142536434749501021622221484210122850728594981008009001000110012001300140015001600518111174215045443625147311021622221484210090887250281462合 计50100合 计50100居民月消费品支出额在1000元以下的有6人,占总数12%;月消费品支出额在1200元以下的有25人,占总数50%,以此类推。居民月消费品支出额在1000元以上的有44人,占总数88%;月消费品支出额在1200元以上的有25人,占总数50%等,以此类推。累计频数(频率)分布具有如下两个特点:第一组的累计频数(频率)等于第一组本身的频数(频率);最后一组累计频数等于总体单位数,最后一组的累计频率等于1。2.累计频数(频率)分布图累计频数(频率)分布图,分为向上累计频数(频率)分布图和向下累计频数(频率)分布图。不论是向上累计或向下累计,它们均以分组变量为横轴,以累计频数(频率)为纵轴。在直角坐标系上将各组组距的上限与其相应的累计频数(频率)构成坐标点,依次用折线(或光滑曲线)相连,即是向上累计分布图。对于向下累计频数分布图,在直角坐标系上将各组组距下限与其相应累计频数(频率)构成坐标点,依次用折线(或光滑曲线)相连,即是向下累计分布图,如下图,从图中可以看出,居民月消费额支出在1100元以下的有14人,占28%;在1100元以上的有36人,占72%。居民月消费额支出在1400元以下的有43人,占86%;以上的有7人,占14%等。由此可见,累计频数和累计频率可以简要地概括地反映总体各单位的分布特征。向上累计分布曲线呈上升状,向下累计分布曲线呈下降状。组的次数或频率较少,曲线显得平缓;组的次数(或频率)较密集,曲线显得较陡峭。六、变量数列的编制统计调查所搜集的原始资料,是比较分散零乱,无法显示现象总体的本质特征。一般来说,对所搜集的资料按标志值大小进行排序,再观察各标志值分布是否均匀,决定是否采用等距分组。例如,根据抽样调查,某月某市50户居民购买消费品支出资料如下(单位:元): 830 880 1230 1100 1180 1580 1210 1460 1170 1080 1050 1100 1070 1370 1200 1630 1250 1360 1270 1420 1180 1030 870 1150 1410 1170 1230 1260 1380 1510 1010 860 810 1130 1140 1190 1260 1350 930 1420 1080 1010 1050 1250 1160 1320 1380 1310 1270 1250对上述资料采用等距分组,分为8组,组距为100,以800为第一组下限。经过整理,得出计算结果如下表。表中第1列是变量,第2列是各组出现的次数,即频数,各组频数之和等于总体单位数,第3列是频率,频率反映了各组频数的大小对总体所起的作用的相对强度,它是各组频数与总体单位总和之比,计算公式如下:频率 = 某市50户居民某月购买消费品支出情况表 单位:元按户月消费品支出额分组()频数()频率()800900900100010001100110012001200130013001400140015001500以上51811117430.100.020.160.220.220.140.080.06合 计501.00通过对总体各单位分组而形成变量数列,显示了各单位标志值在各组间的分布状况,从而使杂乱无章的原始数据显示出一定的规律性。从上表可以看出,月消费品支出额在1000-1300元的居民户占全部户数的60%,而低支出和高支出居民户所占比重较小,呈现出一种近似“两头小,中间大”的钟型分布特征。单元小结:1统计数据分组必须遵循穷尽原则、互斥原则和科学性原则,正确选择分组标志和分组界限是统计分组的关键。2统计数据分组的作用主要有划分现象类型、反映事物结构和揭示事物之间的依存关系。3频数分布由两个要素构成:分组和频数或频率。频数分布包括品质数列和变量数列。4变量数列的编制是本节甚至本章的一个重点问题。5频数和频率的累计包括向上累计和向下累计。习题布置:见统计学原理习题集第三章 第17至23页,朱胜主编,中国统计出版社第三单元 频数分布类型与数据显示教学目的要求:了解频数分布种类熟悉统计表的构成和制表、填表规则了解统计图教学重点:统计表的构成与编制教学难点:频数分布的类型与统计表的设计授课时数:2学时一、频数分布的类型次数分配是统计分析的一种重要方法。由于社会经济现象性质不同,各种统计总体各有不同的次数分配,形成各种不同类型的分布特征。描述统计总体的分布特征,除了采用统计表的形式以外,还可采用直方图和曲线图进行描述。通过这些图形,可以明显地表明不同类型现象的分布特征。各种不同性质的社会经济现象的次数分布的类型,概括起来,根据曲线形状的特点,大致有三种类型:钟型分布、U型分布和J型分布。(一)钟型分布钟型分布的特征是“两头小,中间大”,即靠近中间的变量值分布的次数多,靠近两边的变量值分布的次数少,其曲线图宛如一口钟,如下图所示。(a)正态分布(b)偏态分布正偏(右偏)负偏(左偏)如图(a)所示,其分布特征是以标志变量中心为对称轴,左右两侧对称,两侧变量值分布的次数随着与中间变量值距离的增大而渐次减少。在统计学中,称这种分布为对称分布。而图(b)为非对称分布,它们各有不同方向的偏态,即左偏态分布和右偏态分布。客观实际中,许多社会现象统计总体的分布都趋于对称分布中的正态分布。正态分布是描述统计中的一种主要分布,它在社会经济统计分析中具有重要的意义。(二)U型分布U型分布的形状与钟型分布相反,靠近中间的变量值分布次数少,靠近两端的变量值分布次数多,形成“两头大,中间小”的U型分布。如人口死亡率分布,人口总体中,幼儿和老人死亡率高,而中青年死亡率低。如下图(c)。(三)J型分布J型分布有两种类型,一种是次数随着变量的增大而增多,如投资按利润率大小分布。另一种 呈反U型分布,即次数随着变量增大而减少,如随着产品产量的增加,产品单位成本下降。如下图(d)。(c)J形分布正J形反J形(d)U形分布(四)研究变量数列频数分布类型的作用1.可以利用各种类型的次数分布特征,以检验统计整理资料的准确性;2.可利用次数分布类型特征,分析现象变化的原因,如果现象总体发生了异常变化,会产生通过整理而得的分布类型与社会现象的分布特征不相符的情况。二、统计表(一)统计表的定义和结构统计调查所得来的原始资料,经过整理,得到说明社会现象及其发展过程的数据,将这些数据按一定的顺序排列在表格上,就形成了统计表。广义的统计表包括统计工作各个阶段中所用的一切表格。狭义的统计表专指分析表和容纳各种统计资料的表格,也就是通常所说的统计表,它清楚地、有条理地显示统计资料,直观地反映统计分布特征,是统计分析的一种重要工具。统计表的结构,可以从表式和内容两个方面来认识。1.从表式上看,统计表是由纵横交叉的线条组成的一种表格,表格包括总标题、横行标题、纵栏标题和指标数值四个部分。(课本67页)总标题是统计表的名称,它扼要地说明表的基本内容,并指明时间和范围。它置于统计表格的正上方。横行标题是横行的名称,一般放在表格的左方;纵栏标题是纵行的名称,一般放在表格的上方。横行标题和纵行标题共同说明填入表格中的统计数字所指的内容。指标数值是列在横行和纵栏的交叉处,即表格中的数字就是指标数值,用来说明总体及其组成部分的数量特征,它是填写在统计表格的核心部分。2.从内容上来看,统计表是由主词栏和宾词栏两个部分组成。主词栏是统计表所要说明的总体及其组成部分,一般都列在表的左半部分;宾词栏是统计表用来说明总体数量特征的各个统计指标及其数值,一般都列在统计表的右半部分。此外,统计表还有补充资料、注解、资料来源、填表单位、填表人等附加内容。(二)统计表的分类1.按主词的结构分类,根据主词是否分组和分组的程度,分为简单表、分组表和复合表。(1)简单表:主词未经任何分组的统计表称为简单表。(2)分组表:主词只按一个标志进行分组形成的统计表,又称为简单分组表。简单分组表应用十分广泛,对比简单表,它有如下作用:区分事物的类型,研究总体结构,分析现象的依存关系。(如下表)某年全社会固定资产投资情况固定资产投资按经济类型分组投资额(亿元)比上年增长(%)国有经济投资集体经济投资居民个人投资 其他类型投资合 计(3)复合表:主词按两个以上标志进行分组的统计表,又称为复合分组表。下表就是复合表,表中国内生产总值分别按产业和国民经济行业这两个标志进行分组。国内生产总值及其分组表国内生产总值按产业和行业分组国内生产总值(亿元)比重(%)第一产业第二产业工 业建筑业第三产业交通运输仓储邮电通信业批发零售贸易餐饮业 合 计注意:第二标志进行分组的组别名称要后退一、二字。2.按宾词结构分类统计表按宾词设计不同分为宾词简单排列、分组平行排列和分组层叠排列。(1)宾词简单排列是指宾词不加任何分组、按一定顺序排列在统计表上。(如上表)(2)宾词分组平行排列是指宾词栏中各分组标志彼此分开,平行排列。(如下表) 各地区社会商品零售总额 单位:亿元按地区分组按商品性质和用途分类按城乡分组按经济类型分组社会消费品零售总额农业生产资料销 售 额城镇乡村国有集体个体其他北京天津(3)宾词分组层叠排列是指统计指标同时有层次地按两个或两个以上标志分组,各种分组层叠在一起,宾词的栏数等于各种分组的组数连乘积,例如农村劳动力按三次产业分为三组,按性别分为两组,则符合分组设计的宾词栏共有6栏(不包括总计栏)1996-2000年农村劳动力的分布情况年份劳动力三次产业人数第一产业第二产业第三产业合计男女合计男女合计男女合计男女19961997199819992000总计统计表的主词分组与宾词分组是有区别的。主词分组的结果使总体分成许多组成部分,它们是需要用统计指标(宾词)来描述和表现的。宾词分组的结果并不增加统计总体的组成部分,仅仅是比较详细地描述总体已有的各个组成部分。由此可见,主词分组具有独立的意义,而宾词分组从属于主词的要求,是为了描述主词的数量特征而设计的。(三)统计表的设计统计表的设计要求是:简练、明确、实用、美观,便于比较。1.统计表表式设计应注意的事项(1)统计表应设计成由纵横交叉线条组成的长方形表格,长与宽之间保持适当的比例;(2)线条的绘制。表的上下两端应以粗线绘制,表内纵横线以细线绘制;表格的左右两端一般不划线,采用“开口式”。(3)合计栏的设置。统计表各纵列须合计时,一般应将合计列在最后一行;各横行若须合计时,可将合计列在最前一栏或最后一栏。(4)栏数的编号。如果栏数较多,应当按顺序编号,习惯上主词栏部分分别编以“甲乙丙丁”等序号,宾词栏编以(1)(2)(3) 序号。2.统计表内容设计应注意的事项(1)标题设计。无论是总标题,还是横栏、纵栏标题都应简明扼要,简练而又准确得表述出统计资料的内容及所属的时间和空间范围。(2)指标数值。表中数字应填写整齐,对准位数。当数字本身为0或因数字太小而忽略不计时,可填写为“0”;当缺某项数字资料时,可用符号“”表示;不应有数字时用符号“”表示。如品质标志值的合计项目(3)计量单位。统计表必须注明数字资料的计量单位。当全表只有一种计量单位时,可以把它写在表头的右上方。如果表中各栏的指标数值计量单位不同,可在横行标题后添一列计量单位。(4)注解与资料来源。为保证统计资料的科学性与严肃性,在统计表下,应注明资料来源,以便考察。必要时,在统计表下加注说明。三、统计图如果说统计表能够集中有序地表现统计资料,统计图则能够将统计资料展示的更为生动具体。便于人们直观地认识事物的特征。随着计算机技术不断发展,电脑制图功能日益强大,使得统计图的制作更加方便和精确。(一)条形图条形图是用宽度相同的条形的高度或长度来表示数据变动的图形。条形图可以横置也可以纵置,纵置时又称为柱形图,也就是说,当各类别放在纵轴时,称为条形图;当各类别放在横轴时,称为柱形图。例如: (二)圆形图又称为饼图,是用圆形和圆内扇形的面积来表示数值大小的图形,主要用于表示总体中各组成部分所占的比例,对研究结构性问题十分有用。在绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度是按各部分百分比占360度的相应比例确定的。如根据上表,绘制出相应的圆形图如下:(三)环形图环形图与圆形图又有区别,环形图中间有一个空洞,总体中的每一部分数据用环中的一段表示;圆形图只能显示每一个总体各部分所占的比例,而环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环。因此环形图可以显示多个总体各部分所占的相应比例,从而有利于进行比较研究。例如:在一项有关住房问题的研究中,调查人员在甲乙两个城市各抽样调查300户家庭,其中一个问题是:“您对您家庭目前的住房状况是否满意?”备选答案有:(1)非常不满意;(2)不满意;(3)一般;(4)满意;(5)非常满意。调查结果如下表: (四)直方图显示分组数据频数分布特征的图形有直方图、折线图和曲线图等。1.概念直方图是用矩形的宽度和高度来表示频数分布的图形。在平面直角坐标中,横轴表示数据分组,即各组组限,纵轴表示频数(一般标在左方)或频率(一般标在右方),若没有频率的直方图只保留左侧的频次数。这样各组组距的宽度与相应的频数的高度就绘制成一个个矩形,即直方图。2.直方图与条形图不同条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数密度,宽度则表示各组的组距,因此其高度与宽度均有意义。此外,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。(五)折线图和曲线图折线图可以在直方图的基础上,把直方图顶部的中点用直线连接而成,也可以用组中值与频数求坐标连接而成。需要注意,折线图的两个终点要与横轴相交,具体的做法是将第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。这样才会使折线图下所围成的面积与直方图的面积相等,从而使二者所表示的频数分布一致。当对数据所分的组数很多时,组距会越来越小,这时所绘制的折线图就会越来越光滑,逐渐形成一条平滑的曲线,这就是频数分布曲线。(六)描述时间序列的线图线图是在平面坐标上用折线表现数量变化特征和规律的统计图。线图主要用于显示时间序列数据,以反映事物发展变化的规律和趋势。例如,1991-1998年我国城乡居民家庭的人均收入情况如下表:从上图可以清楚地看出,城乡居民的家庭人均收入逐年提高,而且城镇居民的家庭人均收入高于农村,1993年以后这种差距有扩大的趋势。绘制线图时应注意以下几点:1.时间一般绘在横轴,指标数据绘在纵轴;2.图形的长宽比例要适当,一般为横轴略大于纵轴的长方形,其长宽比例大致为10:7,图形过扁或过于瘦高,不仅不美观,而且会给人造成视觉上的错觉,不便于对数据变化的理解;3.一般情况下,纵轴数据下端应从0开始,以便于比较。数据与0之间的间距过大,可以采取折断的“”符号将纵轴折断。单元小结:1.常见频数分布类型主要有:对称分布型、对称分布型、U形分布和J形分布。2.统计表是纵横交叉的线条绘制的表格表达统计数据的一种形式。从形式上看,包总标题、横行标题、纵栏标题和数字资料;从内容看,包括主词和宾词两部分。统计表根据主词是否分组及分组程度分为简单表、分组表和复合表。3统计表的设计应符合科学、美观、实用、简练和醒目的原则。作业布置:见统计学原理习题集第三章 第17至26页,朱胜主编,中国统计出版社。
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 压缩资料 > 基础医学


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!