数据分组与频数统计.ppt

上传人:xin****828 文档编号:15898284 上传时间:2020-09-13 格式:PPT 页数:19 大小:354.05KB
返回 下载 相关 举报
数据分组与频数统计.ppt_第1页
第1页 / 共19页
数据分组与频数统计.ppt_第2页
第2页 / 共19页
数据分组与频数统计.ppt_第3页
第3页 / 共19页
点击查看更多>>
资源描述
第5章 数据分组与频数统计,统计数据概是信息,同时又是信息的载体,统计信息的质量决定决策成功与否。而影响信息质量因素是多方面的,数据的分类与分组计算的分析方法是影响信息质量的重要因素。本章就重点介绍统计分组的概况及方法,并详细介绍频数统计的相关知识。,5.1 数据分组的概况及方法,数据分组即统计分组,为了从数量方面深入地研究总体的特征,从更深层揭示统计总体中的数据集中和离散的特点,便要进行统计分组。,5.1.1 数据分组的概况,统计分组是根据研究的目的,按照一定的标志,将统计总体区分为特定个数的组成部分的一种统计方法。这些组成部分中的每一个部分就叫做一个分组。统计分组对总体而言是对其进行拆分,即把统计总体划分为总体的某个性质下可相互差别的多个分组;对个体而言是对各个个体进行合并,即把总体的某些性质相同的个体组合成一组。因此,统计分组就是区分事物之间存在着的各种性质的差异,这是其最根本的任务。通过分组,可以把总体中各个不同性质的个体区分开,性质相同的个体归在一个组内。这样才能从性质的角度来分析事物,揭示事物个体之间的联系,深入地研究总体的特征,认识事物的本质及其个体的统计规律。统计分组是所有统计分析研究的基础,应用于统计工作的全过程,是统计研究的基本途径之一。 统计分组的分组原则是兼顾差异性与统一性,既保证组间各个体间存在差异性,有保证组内各个体间存在同质性。对总体进行统计分组,是根据总体中各个个体间所存在的性质差异特征所决定的,总体数据的差异性是统计分组的客观依据。同时,被分到一个分组中的个体在某些性质上具有同一性,组成一个新的总体成分。,5.1.2 分组标志的选择,统计分组的质量,一方面取决于数据本身,另一方面则取决于统计方法的选择,其中包括对分组标志的选择,分组方式的选择等,在随后的3个小节将会一一介绍。 分组标志就是将具有同一性质的数据划归为一类,将不同性质的数据列入不同组的依据。因此,选择分组标志时,一定要突出了各个个体在该标志下的性质差别,其他方面的差别则不必在此标志下体现。由于分组标志的差异,同一总体的分组可能会有不同的分组结果,为了能够更准确地分组,进而更准确地反映总体的特征,就要选择适当的分组标志,这个问题也就是统计分组的核心问题。为了选择合适的分组标志,通常有以下几个原则可供参考: 分组标志要贴近统计研究的分组目的:利用统计分组来表示数据的特点,其关键性问题就是要选择合适的分组标志,只有合适的分组标志才能科学地体现总体的分类特点。 分组标志要选择能反映事物或现象的本质的性质:明确了统计研究的目的,还需要进一步筛选分组标志,因为同一个总体的个体可能有若干个性质可以作为分组标志,在这些相关的分组标志中,进行分组时应选择最能反映事物本质特征的标志。 分组标志具有一定的时效性,需要及时注意:因为任何事物或现象都是在随着时间、地点等条件的变化而发生性质变化的,因此,要准确把握事物或现象的性质,进行科学准确的统计分组,就要对其分组标志进行及时的更新,保证其时效性。,5.1.3 根据分组标志分组,根据分组标志的不同性质,统计总体可以按品质标志进行分组,也可以按数量标志进行分组。按品质分组是按品质标志进行的分组。例如工业企业按所有权的经济类型、生产产业的不同部门、轻重工业等品质标志分组,按变量分组是按数量标志进行的分组,例如工厂规模分组可以按职工人数、生产能力等数量标示分组。两种分组方法的具体介绍如下: 品质标志分组的方法:是选择反映事物属性差异的品质标志作为分组标志进行分组,这些品质标志一般难以进行量化。分组标志的确定,是通过组名称和组数的确定来实现的,各个分组件不会存在各个组之间的界限区分的困难。对于分组的组数,对事物进行品质标志分组,其组数的多少要取决于事物本身的特点,也就是不同分类品质标志的个数;对于有些事物或现象,构成比较复杂,其分组的组数可多可少,就需要考虑统计研究任务的具体目标。 数量标志分组的方法:是选择能够反映事物数量差异的数量标志作为分组标志进行的分组,这种方法需要确定各个分组在数量上有一定差别,并通过数量上的差别来区分各个分组的不同类型和性质。,5.1.4 统计分组的形式,统计分组的方式很多,一般情况下,可以根据分组标志的多少及其排列形式分为3种方式:简单分组、平行分组体系和复合分组体系。 简单分组就是对被研究事物或现象总体只根据一个分组标志所进行的分组,表现一种性质下总体数据的差异和分组,是最简单的分组形式,它只能说明总体的某一个性质。例如,人口按性别或年龄分组、企业按所有制或规模大小进行分组等。 分组体系与简单分组相比,分组过程和标志更为复杂,在统计分组中,更加全面摄入的研究观察总体,往往需要使用多个分组标志来表现总体的不同性质,形成一系列相互联系、相互补充而有一定层次的分组体系,从不同的角度来描述总体。例如,日常用品既可以按照衣食住行等应用分组,也可以按照必需或非必需用品等方式分类,在各种所要研究现象中,总是可以选择一系列标志进行分组,所以分组体系是客观存在的,组与组之间层层深入、相互联系、相互补充。根据分组标志层次设置的不同,分组体系可以分为平行分组体系和复合分组体系两种,平行式分组体系中,每增加一种标志,分组总数只增加一种,而复合式分组体系中,每增加一种标志,分组类别增加一个等级,分组总数也就相应的增加一倍。,5.2 频数统计,在统计分组中,落在不同小组中的数据个数为该组的频数,各组的频数之和等于这组数据的总数,通过对每组频数的统计,可以看出数据的大体分布情况,根据分组标志的特点,还可以通过频数统计进行比较分析等方式认识数据。,5.2.1 频数统计的分组方法,根据变量性质和分类标志的不同,频数统计的分组方法一般分为单项式分组和组距式分组两种,以下为两种方法的介绍。 1单项式分组 就是用一个变量值或分组标志值作为一个组的代表性质,每个变量或标志值对应一个分组,当总体数据是离散型变量且变量变动范围不大时,可以选择单项式分组的分组方法,同时,单项式分组的分组方法也是按品质标志分组的主要方法。 2组距式分组 组距式分组是将变量按照一定的数量或质量关系划分为几个区间段,一个区间段就是某两个变量分类界限的距离,并把一个区间段的所有变量值归为一类,分到一组中,形成组距式变量数列,这段区间的距离就是组距。对于连续型变量或者变动范围较大的离散型变量,适宜采用组距式分组,也是数量标志分组的对应分组方法。 根据分组时所有组距的大小关系,组距式分组通常可以分为等距分组和不等距分组两种。等距分组就是分组标志在各组中都是有相等组距;多不相等,就称为不等距分组。在总体数据比较均匀的情况下,等距分组比较适用,而总体数据有急剧增长或下降的特点时,就应采用不等距分组,这种方法需要根据事物性质变化的数量界限来确定组距。,5.2.2 计算一个数据系列中某一个值出现的频数,在Excel中,进行频数统计的种类很多,例如计算一个数据系列中某一个值出现的频数,计算一个数据系列中多个数值出现的频率,计算多个文本或数字值出现的频率,最重要的,还能进行组距式分组的频数统计,并能用直方图进行表述,随后几个小节中将会一一介绍。 在实际统计过程中,往往会统计一个数据系列中某一数值出现的次数,也就是统计频数。在Excel中,某一数值的频数可以通过函数COUNTIF实现,其具体语法为: COUNTIF(range,criteria) 参数range是一个或多个要计数的单元格,其中包括数字或名称、数组或包含数字的引用,空值和文本值将被忽略。 参数criteria为确定哪些单元格将被计算在内的条件,其形式可以为数字、表达式、单元格引用或文本。例如,条件可以表示为32、32、32、apples或B4。,5.2.3 计算数据系列中多个数值出现的频数(方法1),实际应用中,还需要计算在数据系列中的多个数值的出现频率,在Excel中,可以利用IF函数和COUNT函数的结合来实现,也可以利用SUM函数和IF函数的结合来实现,还可以通过函数COUNTIFS实现,下面将一一介绍。 首先要先介绍IF函数的语法,以方便后面的使用。其具体使用语法如下: IF(logical_test,value_if_true,value_if_false) 参数logical_test表示计算结果为TRUE或FALSE的任意值或表达式。例如,A10=100就是一个逻辑表达式,其内含为如果单元格A10中的值等于100,表达式的计算结果为TRUE,否则为FALSE。此参数可使用任何比较运算符。 参数value_if_true是logical_test为TRUE时返回的值。例如,如果此参数是文本字符串“频率统计”,而且logical_test参数的计算结果为TRUE,则IF函数显示文本“频率统计”。如果logical_test为TRUE而value_if_true为空,则此参数返回0。此外,参数value_if_true可以是其他公式。 value_if_false是logical_test为FALSE时返回的值。例如,如果此参数是文本字符串“非频率统计”,而logical_test参数的计算结果为FALSE,则IF函数显示文本“非频率统计”。如果logical_test为FALSE而value_if_false被省略(即value_if_true后没有逗号),则会返回逻辑值FALSE;如果logical_test为FALSE且value_if_false为空(即value_if_true后有逗号并紧跟着右括号),则会返回值0。同样,参数value_if_false可以是其他公式。,5.2.4 计算数据系列中多个数值出现的频数(方法2),与上一方法的思路相仿,同样可以利用SUM函数和IF函数的组合对数值出现的频率进行统计,与上一方法不用的是,IF函数中的value_if_true和value_if_false只能分别为1和0,应用较前一方法更简便。 结合上一个例子,这里再添加一个筛选条件“利润超过30%”以便更好的介绍IF函数的嵌套,其具体求解方法如下:,5.2.5 计算数据系列中多个数值出现的频数(方法3),上两个方法在输入约束条件时操作比较繁琐,并且在约束条件较多时尤为明显,在Excel中,可以利用COUNTIFS函数解决这一问题,其使用语法如下: COUNTIFS(range1,criteria1,range2,criteria2,) 参数range1,range2,是计算关联条件的1127个区域,每个区域中的单元格必须是数字或包含数字的名称、数组或引用,空值和文本值会被忽略。 参数criteria1,criteria2,是数字、表达式、单元格引用或文本形式的1127个条件,用于定义要对单元格进行哪些计算,例如,条件可以表示为32、32、32、apples或B4。 同样结合上面的例子,为了更好地说明COUNTIFS函数在多约束条件时的优越性,此处再添加一个筛选条件“单价高于50”,此时如果用COUNT函数来计算,需用四个IF函数,如果嵌套则需要四层,操作很麻烦,通过COUNTIFS函数的语法可以看出,这里只需要输入4个并列的约束条件而不使用IF函数,针对实例,COUNTIFS具体操作方法如下:,5.2.6 组距式分组的频数统计,以上的频数统计只能返回一个频数值,在进行组距式分组时,采用前面的方法需要多次计算,在分组较多时,操作效率较低。在Excel中,可以利用FREQUENCY函数来实现对组距式分组数据各个分组同时进行频数统计。函数FREQUENCY的使用语法如下: FREQUENCY(data_array,bins_array) 参数data_array是一个数组或对一组数值的引用,是进行分组何频数统计的数据对象,如果data_array中不包含任何数值,函数FREQUENCY将返回一个零数组。 参数bins_array是一个区间数组或对区间的引用,该区间用于对data_array中的数值进行分组,如果bins_array中不包含任何数值,函数FREQUENCY返回的值与data_array中的元素个数相等。 在实际应用中,函数FREQUENCY的应用范围很广,以统计某工厂抽样的100个零件的尺寸为例,其具体操作方法如下:,5.2.7 分析工具库进行频数统计,可以看出,利用函数进行数据系列的各种频数统计虽然都能完成任务,但操作却比较复杂,且统计的结果缺少直观的表达方式,在进行大量数据的统计时,更是很难胜任,在Excel中,分析工具库提供了“直方图”分析工具,为了显示其分析的方便和直观,这里以分析200个零件尺寸的频数统计为例,介绍分析工具库的使用方法,其具体操作方法如下:,5.3 频数统计的结果详解,本节将详细介绍频数统计的直方图结果,并根据各个结果的特点,对其进行相应的编辑使其更加美观,并对上述操作过程中没有选择的【柏拉图】选项和【累计百分率】选项的输出结果做出介绍,使其更加完善。,5.3.1 直方图及其编辑,在图5.26给出的结果中,左侧的介绍一列对应【接受区域】选项的内容,频率一列则返回每个接受区域中数据的个数。分别以介绍和频率作为两个数据系列做直方图,可以得到图5.26右侧的结果。直方图又称质量分布图,是一种几何形图表,它是根据从生产过程中收集来的质量数据分布情况,画成以组距为底边、以频数为高度的一系列的直方型矩形图。 绘制直方图的方法比较简单,具体操作方法如下: (1)集中和记录数据,求出其最大值和最小值,在此处的例子中,还计算了其第5最大值和第5最小值,以使其分组更具代表性。数据的数量应在100个以上,在数量不多的情况下,至少也应在50个以上。 (2)确定组数,分组的数量在620之间较为适宜。 (3)计算组距的宽度。一般采用组数去除最大值和最小值之差,求出组距的宽度,上小节的例子为了方便演示进行了取整。 (4)计算各组的界限位。各组的界限位可以从第1组开始依次计算,第1组的下界为最小值减去组距的一半,第1组的上界为其下界值加上组距。第2组的下界限位为第1组的上界限值,第2组的下界限值加上组距,就是第2组的上界限位,依此类推。 (5)统计各组数据出现频数,做频数分布表。 (6)计算完毕后,做直方图,以组距为底长,以频数为高,做各组的矩形图即可,在Excel中,只需执行创建图表的相关操作即可得到直方图。,5.3.2 累计百分率及图表编辑,如果在【直方图】对话框中选中了【累计百分率】复选框,统计结果中会增加1列累积频率,直方图中会增加累积频率的折线图,如图5.30所示。,5.3.3 柏拉图,如果在【直方图】对话框中还选中了【柏拉图】复选框,统计结果会有增加3列数据,并且直方图的形状会发生改变,如图5.33所示,下面就详细介绍这两点不同之处。,5.4 本章小结,本章介绍了数据分组的基本知识,并介绍了频数分析的原理及在Excel中的操作,属于最基本的数据分析内容。 在很多情况下,数据分组会由于数据数量较少而难以实现,在统计学中,就可以利用随机数进行模拟实验,并且进行各种分组,下一章就会介绍此方面的详细内容。,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!