资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,2020/3/26,#,第三章 数据整理,-数据分组,第三章 数据整理,1,统计数据的分组,分组是将总体所有单位按一定的标准区分为若干部分,分组的目的:概括数据,清晰条理,统计数据的分组分组是将总体所有单位按一定的标准区,2,如何分组?,将具有共性的个体归入同一组,将总体内部个体间的差异通过组别区分开来,如何分组?将具有共性的个体归入同一组将总体内部个,3,统计数据的分组,品质数列,是按现象的性质、类别标志进行的分组。例如人口按性别和民族分组;,时间数列,按时间发生的先后顺序分组。例如我国解放后各年的人口数字;GDP,变量数列,是按某一数量标志大小顺序进行的分组。例如某企业按工资收入的多少分组;,空间数列,是按不同地区标志进行的分组。例如人口按省、市、自治区分组;,统计数据的分组品质数列是按现象的性质、类别标志进行的分组。例,4,次数分配,数据观察值在各组中的个数称为,次数,,各组间的次数称为次数分配。次数分配描述了总体的结构和特征。,例如,:,某企业非熟练工人的周工资额(元),如何分组?,次数分配数据观察值在各组中的个数称为次数,各组间的次数称为次,5,变量次数分配的编制,1、将原始资料顺序排序,2、将各个数据按其数值大小归入相应的组内,3、确定组数与组距,4、确定组限,如果数据分布比较均匀、对称,即中间数值次数多,大小极端值次数少,考虑用以下公式来确定组数:,组数1+3.322 log n,组距,(观察值中的最大数值观察值中的最小数值)/组数,变量次数分配的编制1、将原始资料顺序排序 如果数据分布比较均,6,分组计算,组数1+3.322 log n,=5.9(n=30)分6组,组距:每组区间的宽度,(观察值中的最大数值,观察值中的最小数值)/组数,=(128-84)/6=7.3,分组计算组数1+3.322 log n,7,分6组,组距8,排序:,84,85,87,91,91,94,95,96,97,99,101,101,103,103,105,105,105,106,106,106,106,107,107,109,110,111,111,118,119,121,128,分6组,组距8排序:,8,分6组,组距8,每周工资(元),人 数(个),各组人数占总人数百分比(%),8,492,5,17,92,100,5,17,100,108,12,40,108,116,4,13,116,124,3,10,124,132,1,3,合计,30,100,分6组,组距8 每周工资(元)人 数(个)各组人数占总,9,结合实际数据,一、比较计算组距值(7.3),组距为10比较好计算且方便,,二、分组的组数相应从6减少为5。最小值为84,下限从80开 始,,结合实际数据一、比较计算组距值(7.3),组距为10比较好计,10,分5组,组距10,每周工资(元),人数(个),各组人数占总人数百分比(%),8,090,3,10,90,100,7,23,100,110,13,43,110,120,5,17,120,130,2,7,合计,30,100,分5组,组距10 每周工资(元)人数(个),11,分两组,工资收入次数分配表,工资收入分组,次数,80105,13,105-130,17,合计,30,反映不出观察值分布特征,分两组 工资收入次数分配表 工资收入分组次数801,12,分组太细会出现什么问题?,分组太细会出现什么问题?,13,不等距分组,在不等距分组情况下,要比较各组次数或分析总体结构,要消除由组距不等造成的影响。为此需计算单位组距的次数,即频数密度。,每组单位组距次数某组次数/该组组距,不等距分组,14,不等距分组,人口按年龄分组,人口数(万人),频数密度(万人),1岁以下,2,2,1,7岁,12.2,2.03,718岁,24,2.18,18,25岁,14.8,2.11,25,55岁,34.2,1.14,55岁以上,16.3,0.54,合计,103.5,-,不等距分组 人口按年龄分组人口数(万人)频数密度(万人)1,15,组限分类,重叠组限:“100200”,“200300”,间断组限:“100199”,“200299”,开口组:“100以下”,“500以上”,应用范围:,离散变量可采用间断组限,亦可采用重叠组限;,连续变量应采用重叠组限;,数据资料中若有极端值应采用开口组.,注重叠组限计数时应遵循“上组限不包括在内,原则。,组限分类重叠组限:“100200”,“200300”,16,组中值的计算,组中值=(下限+上限)/2,若遇开口组的资料,其开口组的组限一般按其相邻组的组距计,,组中值的计算,17,例,某生产车间50名工人日加工零件数,如下(单位:个)。试对数据进行组距分组。,117,108,110,112,137,122,131,118,134,114,124,125,123,127,120,129,117,126,123,128,139,122,133,119,124,107,133,134,113,115,117,126,127,120,139,130,122,123,123,128,122,118,118,127,124,125,108,112,135,121,例 某生产车间50名工人日加工零件数1171221241,18,1.将数据排序,107,108,108,110,112,112,113,114,115,117,117,117,118,118,118,119,120,120,121,122,122,122,122,123,123,123,123,124,124,124,125,125,126,126,127,127,127,128,128,129,130,131,133,133,134,134,135,137,139,139,2.确定组数及组距,组数=1+3.322lg50=6.647,组距=(139-107)/7=4.6 5,1.将数据排序 107,108,108,110,19,3.确定组限,最小值为107,以105为第一组下限。采用重叠组限.,某车间50名工作日加工零件数分组表,按零件数分组,频数(人),频率(),105110,110115,115120,120125,125130,130135,135140,3,5,8,14,10,6,4,6,10,16,28,20,12,8,合计,50,100,3.确定组限 最小值为107,以105为第一组下限。采,20,亦可采用间断组限,某车间50名工人日加工零件数分组表,按零件数分组,频数(人),频率(),105109,110114,115119,120124,125129,130134,135139,3,5,8,14,10,6,4,6,10,16,28,20,12,8,合计,50,100,亦可采用间断组限 某车间50名工人日加工零件数分组表按零件,21,变量次数分配的图示,直方图:频数分配直方图、频率分配直方图,次数多边形图,茎叶图,累积次数分配图:小于上组限的累积次数分配图、大于下组限的累积次数分配图。特例 洛伦茨曲线,变量次数分配的图示直方图:频数分配直方图、频率分配直方图,22,直方图,以变量值为横坐标、次数为纵坐标,以矩形高度表示各组次数(频数)分配多少。如下图:,频数分布直方图,直方图 以变量值为横坐标、次数为纵坐,23,直方图,频率分布直方图,直方图,24,次数多边形图,次数多边形图,25,次数多边形图,还可将几种不同数据绘在同一多边形图上用于比较.如图:,次数多边形图 还可将几种不同数据绘在同一多边形图上用于比,26,茎叶图,数据源:,21,29,60,1,27,35,66,23,8,38,31,45,57,66,68,62,62,93,68,19,68,72,76,91,46,62,3,10,49,56,52,95,按大小排序后如下:,1,3,8,10,19,21,23,27,29,31,35,38,45,46,49,52,56,57,60,62,62,62,66,66,68,68,68,72,76,91,93,95,茎叶图 数据源:,27,茎叶图,茎 叶 次数,0 1 3 8 3,1 0 9 2,2 1 3 7 9 4,3 1 5 8 3,4 5 6 9 3,5 2 6 7 3,6 0 2 2 2 6 6 8 8 8 9,7 2 6 2,8 0,9 1 3 5 5 4,茎叶图茎 叶,28,累计次数分配图,小于上组限的累积次数分配,每周工资(元),上组限,组次数,小于上组限的累计次数(人),小于上组限的累积百分比(%),8,090,90,3,3,10,90,100,100,7,10,33,100,110,110,13,23,77,110,120,120,5,28,93,120,130,130,2,30,100,累计次数分配图,29,累计次数分配图,以变量值为横坐标、以累积计次数为纵坐标描点连接而成的图,如下图:,累计次数分配图 以变量值为横坐标、以累积计次,30,累计次数分配图,大于下组限的累积次数分配,每周工资(元),上组限,组次数,小于上组限的累计次数(人),小于上组限的累积百分比(%),8,090,80,3,30,100,90,100,90,7,27,90,100,110,100,13,20,66,110,120,110,5,7,23,120,130,120,2,2,7,累计次数分配图,31,累计次数分配图,累计次数分配图,32,洛伦茨曲线,以人口百分比为横坐标、以累积收入百分比为纵坐标描点连接而成的图形,如图:,洛伦茨曲线 以人口百分比为横坐标、,33,基尼系数,反映一国收入的平等程度。,如上图,基尼系数 r=A/(A+B),r=0 绝对平等,r=1 绝对不平等,r越大越不平等,反之则越平等。,基尼系数反映一国收入的平等程度。,34,无论你觉得自己多么的不幸,永远有人比你更加不幸。,11月-24,11月-24,Saturday,November 16,2024,绳子总在磨损地方折断,事故常在薄弱环节出现。,00:52:07,00:52:07,00:52,11/16/2024 12:52:07 AM,安全生产勿侥幸,违章蛮干要人命。,11月-24,00:52:07,00:52,Nov-24,16-Nov-24,尊重老师的境界就是超越老师。,00:52:07,00:52:07,00:52,Saturday,November 16,2024,下苦功,三个字,一个叫下,一个叫苦,一个叫功,一定要振作精神,下苦功。,11月-24,11月-24,00:52:07,00:52:07,November 16,2024,观察才行。,2024年11月16日,12:52 上午,11月-24,11月-24,报国之心,死而后已。,宋,苏轼。,16 十一月 2024,12:52:07 上午,00:52:07,11月-24,我要努力,以最好姿态出现在当初否定我的人面前。,十一月 24,12:52 上午,11月-24,00:52,November 16,2024,当大家都尽力包装自己的时候,我就什么都不穿。这是我的策略,质朴示人,真实有力。,2024/11/16 0:52:07,00:52:07,16 November 2024,当大家都变得聪明起来的时候,我就甘心做个笨人。,12:52:07 上午,12:52 上午,00:52:07,11月-24,坚韧是成功的一大要素,只要在门上敲得够久够大声,终会把人唤醒的。,11月-24,11月-24,00:52,00:52:07,00:52:07,Nov-24,学习时不要在渊博浩翰的知识面前感到自卑,也不能因为学到一点点知识而骄傲自满。,2024/11/16 0:52:07,Saturday,November 16,2024,当一个人用工作去迎接光明,光明很快就会来照耀着
展开阅读全文