统计学原理-第三章 统计整理.ppt

上传人:za****8 文档编号:15492523 上传时间:2020-08-12 格式:PPT 页数:68 大小:430.01KB
返回 下载 相关 举报
统计学原理-第三章 统计整理.ppt_第1页
第1页 / 共68页
统计学原理-第三章 统计整理.ppt_第2页
第2页 / 共68页
统计学原理-第三章 统计整理.ppt_第3页
第3页 / 共68页
点击查看更多>>
资源描述
第三章统计整理,学习目标,明确统计资料整理的涵义和作用 了解统计整理的内容和程序 掌握分布数列的编制方法,第一节统计整理的一般问题,统计整理的概念,统计整理,将统计调查得到的原始资料进行科学的分组和汇总,使其系统化、条理化,成为能够反映总体特征及其发展变化情况的综合统计资料的工作过程,统计整理是统计调查的继续,统计分析的前提和基础,统计整理的内容,统计整理,统计汇总,统计分组,逐级汇总,集中汇总,优点:满足各层次的需要,缺点: 费时费力,优点:速度快 层次少,缺点: 有错不易查找,统计整理的程序,设计和编制统计资料的汇总方案 对原始资料进行审核 对调查数据进行编码及录入 分组汇总原始资料 编制统计表和绘制统计图,第二节统计汇总技术,统计汇总的内容,利用计算机进行统计汇总主要包括:审核、编码、录入、数据净化、逻辑检查运算以及编制和打印汇总表、统计图等。,编 码,将调查表或调查问卷中的各个项目转化为数字符号的过程。,编码,事前编码,事后编码,适用封闭性问题,适用开放性问题,编码的常用方法,又称系列编码法。只用一个标准对数据进行分类,并按照一定的顺序用连续数字或字母进行编码的方式。,顺序编码法,编码的常用方法,又称区间编码法,是根据调查数据的属性特点和处理要求,将具有一定位数的代码单元分成若干个组,每个组的数字均代表一定的意义。,例如:在某项关于社会公众保险意识调查中,对被调查者个人的基本情况进行了调查,运用分组编码法对有关信息编码如下:,分组编码法,编码的常用方法,把调查数据分成不同的组,给以一定的组码(数字区间)来进行编码的方法.,例如:对某地市场上99种商品的价格变动进行调查,在运用信息组吗编码法对调查的信息进行编码时,首先对99种商品分组,再给每个组分配一个组码:,信息组码编码法,组别 百货组 食品组 家电组 服装组 其他组,名称码 01-30 31-50 51-65 66-80 81-99,编码的常用方法,又称助忆编码法,它用数字符号等表明编码对象的属性,并依次方式对调查数据进行编码的方法.,例如:用180BXJ表示容量为180升的进口电冰箱.其中180为冰箱的容量, BX表示冰箱. J表示进口.,表义式文字编码法,编码手册的编制,也称编码表,是用来进行数据编码的工作手册,包括四个项目:问题顺序号,每个调查项目的预置代码位置,项目名称,内容说明.,1.您的职务? (1)正高级 (2)副高级 (3)中级 (4)其他 2.您的年龄_ 3.您从事的专业_ 4.您对自己工作情况的评价? (1)已充分发挥积极性 (2)基本发挥了积极性 (3)积极性有所发挥 (4)完全没有发挥积极性 5.目前,您是否有离开学校的想法?(1)是 (2)否 6.请您按投入精力的多少,将下列三项活动排序? (1)校内工作 (2)校外兼职 (3)生活琐事 第一位_ 第二位_第三位_,案例:对某高等学校教师的工作,生活状况的调查,一共有32个问题,我们摘录6个问题,来说明编码手册的编制.,录入,数据录入就是将问卷或编码表中的每一个项目对应的代码读到磁盘中,或通过键盘直接敲入计算机中的工作过程。,方式: 程序录入 光电扫描录入,数据净化,数据净化指通过计算机处理错误的或不合理的数据以及进行一致性检验。,方式: 统计软件:SPSS、SAS,第三节统计汇总的质量控制,全面审核 审核调查单位的全面性、审核调查项目的全面性 准确性审核 逻辑审核、计算技术审核,资料审核,编码和录入的质量控制,编码工作的质量控制 录入工作的质量控制,统计预处理,缺省数据处理,以样本统计量代替缺省值 以统计模型计算的估计值代替缺省值 缺省值样本删除 缺省值样本保留,通过对调查数据进行加权,使样本更具代表性。,统计预处理,加权处理,变量类型的转化 数学意义上的变量转化,统计预处理,原始数据或变量的转换,第四节分布数列的编制,次数分布,次数分布:在统计分组的基础上,将总体的所有单位按组归类整理,并按一定顺序排列,形成总体中各单位在各组间的分布,就叫做次数分布。 频数(次数):各组单位数。 频率:各组单位数占与总体单位数的比率。,表示各组标志值对总体标志值所起作用的强度,次数分布的作用,反映统计总体内所有总体单位在各组间的分布。同类总体不同的分布状况差异反映了它们的性质差异。如各班成绩分布。 对某随机现象的重复观察,频率分布可以渐近反映其统计规律。,分布数列,分布数列:将各组组别的名称与相应的频数和频率,依次排列起来形成的数列称为次数分布数列。简称分布数列。又称分配数列,次数分配数列。 作用:反映总体中所有单位在各组的分布状态和分布特征。,各组名称(常用x 表示) 两个构成要素 各组次数,分布数列的构成要素,某地人口的性别分布,学生的成绩分布,由于分组是次数分布的基础,因此有怎样的分组就形成怎样的次数分布。 综合上述各种分组类型,次数分布的类型,可归纳为:,分布数列的种类,按品质标志分组形成的分布数列称为属性分布数列,简称品质数列。 按数量标志分组形成的分布数列称为变量分布数列,简称变量数列。,某地人口的性别分布,学生的成绩分布,变量数列,品质数列,每个组值只用一个具体的变量值表现的数列,同时 具备,变量是离散变量 变量的不同取值个数较少,编制条件:,分布数列的种类,单项数列,【例】己知某车间有24名工人,他们的日产量(件)分别是:20,23,20,24,23,21,22,25,26,20,21,21,22,22,23,22,22,24,25,21,22,21,24,23.要求根据以上资料编制变量数列。,分布数列的种类,单项数列案例,每个组的变量值用一个区间来表现的变量数列,或者,变量是连续变量 总体单位数较多,变量不同取值个数也较多的离散变量,编制条件:,分布数列的种类,组距数列,指每组两端表示各组界限的变量值,各组的最小值为下限,最大值为上限,组限,每组变量值变动区间的长度,为上下限之差,组距,每组变量取值范围的中点数值,组中值,分布数列的种类,组距数列相关概念,某地区100个百货商店 月销售额与流通费用情况,上组限U,下组限L,组距d=U-L =100-50=50(万元),组中值x=(U+L)/2 =(100+200)/2 =150(万元),分布数列的种类,组距数列,变量值变动区间的长度相等,变量值变动区间的长度不完全相等,等距数列,异距数列,分布数列的种类,变量数列,适用于总体单位的标志值变动比较均匀的情况,己知某地区某年50个商店商品销售额的资料如下(单位:百万元): 7.4 12.6 29.0 2.0 12.4 7.0 14.8 17.5 15.0 18.2 18.7 15.5 12.8 26.0 17.3 8.3 14.7 12.0 3.5 6.8 25.0 19.3 6.4 4.0 11.9 8.5 13.2 14.5 17.1 15.6 13.4 4.5 9.5 20.0 15.7 6.0 11.4 23.0 14.2 16.7 21.0 16.0 13.6 10.0 13.9 5.0 5.8 10.5 16.3 22.0 要求编制组距数列。,分布数列的种类,编制等距数列,求变异全距,确定组距及组数,确定组距的原则:,要能区分各组的性质差异 要能反映总体资料的分布特征 为方便计算,尽可能为5或10的整数倍 组数不宜过多,也不宜太少,R组距(d) 组数(m),分布数列的种类,编制等距数列步骤,(当R/d 的结果为整数时),(当R/d 的结果为小数时),确定组限,分布数列的种类,编制等距数列步骤,计算次数,(5+(5-5))/2 =2.5,(25+(25+5))/2 =27.5,分布数列的种类,编制等距数列编制结果,开口式组距数列 组中值的计算,首组假定下限首组上限相邻组组距 末组假定上限末组下限相邻组组距,等距分组 各组频数的分布不受组距大小的影响 可直接根据绝对频数来观察频数分布的特征和规律 不等距分组 各组频数的分布受组距大小不同的影响 各组绝对频数的多少不能反映频数分布的实际状况 需要用频数密度(频数密度频数/组距)反映频数分布的实际状况,分布数列的种类,等距分组与不等距分组的差异,分布数列的种类,频率,各组单位数占总体单位总数的比重,累计次数(频率),向上累计:从变量值低的组开始,将各组次数(频率)逐次向变量值高的组累计,说明某一组上限以下各组的累计次数(频率)。,向下累计:从变量值高的组开始,将各组次数(频率)逐次向变量值低的组累计,说明某一组下限以上各组的累计次数(频率)。,分布数列的种类,分布数列的种类,分布数列的种类,分布数列的种类,117 122 124 129 139 107 117 130 122 125 108 131 125 117 122 133 126 122 118 108 110 118 123 126 133 134 127 123 118 112 112 134 127 123 119 113 120 123 127 135 137 114 120 128 124 115 139 128 124 121,【例】某生产车间50名工人日加工零件数如下(单位:个)。,次数分布图,用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布 在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图 直方图下的总面积等于1,次数分布图,分组数据直方图,频 数 (人),15,12,9,6,3,日加工零件数(个),某车间工人日加工零件数的直方图,我一眼就看出来了,大多数人的日加工零件数在120125之间!,次数分布图,分组数据直方图,遇到异距数列时,则通常按次数密度绘制直方图以表示分布 直方图一般不用来表示累计次数的分布。,次数分布图,分组数据直方图,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义 直方图的各矩形通常是连续排列,条形图则是分开排列,次数分布图,分组数据直方图,直方图与条形图的区别,折线图也称频数多边形图(Frequency polygon) 是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉 折线图的两个终点要与横轴相交,具体的做法是 第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴 折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的,分组数据折线图,次数分布图,15,12,9,6,3,105,110,115,120,125,130,135,140,日加工零件数(个),频 数 (人),某车间工人日加工零件数的折线图,分组数据折线图,次数分布图,用于显示未分组的原始数据的分布 由“茎”和“叶”两部分构成,其图形是由数字组成的 以该组数据的高位数值作树茎,低位数字作树叶 对于n(20n300)个数据,茎叶图最大行数不超过 L = 10 log 10 n 茎叶图类似于横置的直方图,但又有区别 直方图可大体上看出一组数据的分布状况,但没有给出具体的数值 茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息,未分组数据茎叶图,次数分布图,树茎,树叶,788,022347778889,0012222333344466777889,0133445799,数据个数,某车间工人日加工零件数的茎叶图,未分组数据茎叶图,次数分布图,未分组数据扩展的茎叶图,次数分布图,用于显示未分组的原始数据或分组数据的分布 箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成 其绘制方法是: 首先找出一组数据的5个特征值,即最大值、最小值、中位数Me 和两个四分位数(下四分位数QL和上四分位数QU) 连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接,未分组数据箱线图,次数分布图,未分组数据箱线图,次数分布图,时间一般绘在横轴,指标数据绘在纵轴 图形的长宽比例要适当,其长宽比例大致为10:7 一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断,时间序列数据线图,次数分布图,【例】已知19911998年我国城乡居民家庭的人均收入数据如表。试绘制线图,时间序列数据线图,次数分布图,时间序列数据线图,次数分布图,雷达图(Radar Chart)是显示多个变量的常用图示方法 在显示或对比各变量的数值总和时十分有用 假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比 可用于研究多个样本之间的相似程度,多变量数据雷达图,次数分布图,【例】1997年我国城乡居民家庭平均每人各项生活消费支出数据如表。试绘制雷达图。,多变量数据雷达图,次数分布图,多变量数据雷达图,次数分布图,次数分布类型,思考题,统计整理的概念和重要性。 统计整理的程序包括哪些方面? 什么是次数分布?有什么作用? 次数分布数列的意义有哪些? 次数分布数列有哪两个基本要素? 次数分布数列有哪些种类? 常见的次数分布类型有哪几种?,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!