第三章统计数据的整理与显示

上传人:小*** 文档编号:243139267 上传时间:2024-09-16 格式:PPTX 页数:86 大小:494.65KB
返回 下载 相关 举报
第三章统计数据的整理与显示_第1页
第1页 / 共86页
第三章统计数据的整理与显示_第2页
第2页 / 共86页
第三章统计数据的整理与显示_第3页
第3页 / 共86页
点击查看更多>>
资源描述
,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第三章 统计数据的整理与显示,第一节 数据的审核与编录,第二节 数据的整理,第三节 数据的显示,第一节 数据的审核与编录,一、数据的审核,(一)审核的概念和原则,(1),真实性原则。排除其中的虚假成分,保证资料的真实性。,(2),标准性原则。注意指标的定义是否一致、计量单位是否相同等等。,(3),逻辑性原则。检查资料有无不合理和相互矛盾的地方。,(4),完整性原则。要检查调查资料是不是按照提纲或统计表格的要求搜集齐全。如果资料残缺不全,就会降低甚至失去研究的价值。还要检查在调查中发现的新线索、新问题是不是都做了调查。,二、数据的编码,编码是将调查表中的信息数字化,转换成统计软件和统计程序能够识别的数字。,(,一,),对调查表的编号,对调查表编号,是为了避免调查资料重输、漏输和录入后数据的检查和审核,确保数据的准确无误。,调查表的编号要视被调查单位的多少而定。,对于未收回来的调查表数和无效调查表数要准确统计,以确保数据分析结果的真实性和参考性,以及工作的严谨性。,(,二,),对封闭式问答的编码,1.,问题号码,2.,问题答案号码,无回答,0,,,“,不知道,”,9,。,问题编号,问卷编号,性别,01,15,(可多选),0,1,2,3,4,0,1,2,3,4,5,001,0,0,1,002,003,398,399,400,合计,编码的步骤为:,a.,对所有的问卷表按,001,400,的顺序编码。,b.,对问卷中所有问题进行编码。,c.,对每个问题的所有答案赋予代码;对无回答赋,0,;对,“,不知道,”,或,“,不清楚,”,或,“,没想过,”,赋,9,。,3.,对开放式问答的编码,(,1,)列出答案。编码员准备一份列出每个开放式问题答案的清单,对所有被调查者的答案全都列出。,(,2,)合并答案。,表,3-3,提供了一个对开放式问题回答的清单。,完成合并过程后,就得到了如表,3-4,所示的分类和编码表。,问题:为什么你喜欢青岛牌啤酒?,1.,因为它口味较好,2.,它具有较好的味道,3.,我喜欢它的口味,4.,我不喜欢其他啤酒太重的口味,5.,它最便宜,6.,我买任何打折的啤酒,它大部分时间都打折,7.,它不像其它牌子的啤酒那样使我的胃不舒服,8.,其它牌子使我头痛,但这种不会这样,9.,我总是选择这个品牌,10.,我已经喝了,20,多年了,11.,它是大多数同事喝的品牌,12.,我的所有朋友都喝它,13.,这是我妻子在食品店里买的牌子,14.,这是我妻子,/,丈夫最喜欢的牌子,15.,我没有想过,16.,不知道,17.,没有特别的原因,回答类别描述,表,3-3,中的回答序号,分配的数字编码,口味好,/,喜欢味道,/,比其它味道好,低,/,较低的价格,不会引起头疼,胃不适,长时间喝,习惯,朋友喝,/,受朋友影响,妻子,/,丈夫喝,/,买,不清楚,1,2,3,4,5,6,7,8,9,10,11,,,12,13,14,15,16,17,1,2,3,4,5,6,7,三、数据的录入,数据录入是指将信息从计算机不可识别的形式转换成为计算机能够识别的形式的过程,有手工直接录入和智能录入两种。,第二节 统计,分组,一、数据分组,二、数据的分布数列,三、数据频数分布的类型,四、频数分布表的制作,一、数据分组,(,一,),分组标志的选择,数据分组标志的选择依据?,调查研究目的,揭示事物本质差异,(,二,),数据分组的原则,1.,穷尽性原则,2.,互斥性原则,单选题,统计整理阶段最关键的问题是(,),A,、对调查资料的审核,B,、,统计分组,C,、统计汇总,D,、编制统计表,单选题,分组标志一经确定就( ),A,、掩盖了总体单位在此标志下的性质差异,突出了总体单位在此标志下的性质差异,B,、,C,、突出了总体单位在其他标志下的性质差异,D,、使得总体内部的差异消失了,(,三,),数据分组的方法,1.,按分组标志的多少分:简单分组、并列分组和复合分组,简单分组,只按一个标志进行分组,并列分组,两个以上标志并列起来对总体进行分组,复合分组,两个或两个以上的标志进行层叠式的分组,单选题,区分简单分组与复合分组的根据是,A,、分组对象的复杂程度不同,B,、分组数目的多少不同,C,、,采用分组标志的多少不同,D,、研究目的和对象不同,2.,按分组标志的特征分:品质标志分组和数量标志分组。,(,1,)品质标志分组,选择适当的品质标志,如按单位性质分组,分为国有、集体、合营、合资、独资、私营、个体等组;按企业规模大小分组,分成大型企业、中型企业、小型企业。,(,2,)数量标志分组,选择适当的数量界线,如粮食按亩产量(公斤)分组,分为,200,以下,,200,300,,,,,500,公斤以上;学习成绩分为,60,分以下,,60,70,分,,,,90,分以上。,二、数据的分布数列,(,一,),分布数列的概念,次数分布,各个单位在各组间的分布,次数,在各组的个体单位数,频率,各组次数与总次数之比,分布数列,将各组组别与各组对应的次数依次编排而成的数列,(,二,),分布数列的类型,1.,属性数列,按品质标志分组所形成的分布数列,它由各组名称和各组频数两个因素组成,产品等级,产量(吨),各组所占比重(),特级品,一级品,二级品,三级品,4000,1300,1400,500,56,18,19,7,合计,7200,100,2.,变量数列,按数量标志分组而形成的分布数列,它是由各组变量值和各组频数两个因素组成,工人按日产量分组(件人),工人数(人),各组所占比重(),20,以下,20,30,30,40,40,50,50,以上,20,45,40,20,5,15,35,31,15,4,合计,130,100,变量数列:单项式变量数列和组距式变量数列,(1),单项式变量数列,单项式变量数列,每个组的变量值都只有一个,每户人数,户数(百户),占家庭户总数比重(),1,2,3,4,5,6,7,8,人以上,170,220,350,430,410,290,180,100,8,10,17,20,19,13,8,5,合计,2150,100,(2),组距式变量数列,按一定的变化范围或距离进行分组而形成的变量数列。,在变量个数多、变量变动范围大的情况下,必须编制组距数列来对总体进行分析。,单选题,下列分组中按品质标志分组的是,A,、人口按年龄分组,B,、,产品按质量优劣分组,C,、企业按固定资产原值分组,D,、乡镇按工业产值分组,3.,属性数列的编制,一家市场调查公司为了研究为同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对,50,名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。表,3-7,即是记录的原始数据。,顾客购买饮料的品牌名称,旭日升冰茶,可口可乐,旭日升冰茶,汇源果汁,露露,露露,旭日升冰茶,可口可乐,露露,可口可乐,旭日升冰茶,可口可乐,可口可乐,百事可乐,旭日升冰茶,可口可乐,百事可乐,旭日升冰茶,可口可乐,百事可乐,百事可乐,露露,露露,百事可乐,露露,可口可乐,旭日升冰茶,旭日升冰茶,汇源果汁,汇源果汁,汇源果汁,旭日升冰茶,可口可乐,可口可乐,可口可乐,可口可乐,百事可乐,露露,汇源果汁,百事可乐,露露,可口可乐,百事可乐,可口可乐,露露,可口可乐,旭日升冰茶,百事可乐,汇源果汁,旭日升冰茶,对原始数据进行整理后,可得如下数据表:,品牌名称,频数,比例,百分比,(%),可口可乐,15,0.3,30,旭日升冰茶,11,0.22,22,百事可乐,9,0.18,18,汇源果汁,6,0.12,12,露露,9,0.18,18,合计,50,1,100,0,2,4,6,8,10,12,14,16,频,数,可口可乐,旭日升冰茶,百事可乐,汇源果汁,露露,不同品牌饮料的频数分布,4.,变量数列的编制,价格区间,人数,(,个,),频率(),20,以下,20,40,40,60,60,以上,合计,连续性变量的分组,确定组距,组距,该组某标志值的最大值与最小值之差,全距,总体某一标志值的最大值与最小值之差,在等距数列中:组距全距,组数,在不等距数列中,组距的确定根据研究对象特性、调查研究的目的等来确定。,组数应该多少?,等距还是不等距?比如期末考试成绩的分组,单选题,在编制组距数列时,当全距不变的情况下,组距与组数的关系是,A,、正例关系,B,、,反比例关系,C,、乘积关系,D,、毫无关系,单选题,在进行组距式分组时,凡遇到某单位的标志值刚好等于相邻两组上下限数值时,一般是,A,、将此值归入上限所在组,B,、,将此值归入下限所在组,C,、将此值归入上限所在组或下限所在组均可,D,、另行分组,(,三,),组中值的计算问题,在闭口组里,在开口组里,单选题,某连续变量,其末组为开口组,下限为,500,,又知其邻组的组中值为,480,,则其末组的组中值为,A,、,490,B,、,500,C,、,510,D,、,520,单选题,用组中值代表各组内的一般水平的假定条件是,A,、各组的次数均相等,B,、各组的组距均相等,C,、各组的变量值均相等,D,、,各组的变量值在本组内呈均匀分布,多选题,某单位,100,名职工按工资额分为,300,以下、,300-400,、,400-600,、,600-800,、,800,以上等五个组。这一分组,A,、是等距分组,B,、分组标志是连续型变量,C,、末组组中值为,800,D,、,相邻的组限是重叠的,E,、某职工工资,600,元,应计在“,600-800,”元组内,多选题,指出下表表示的分布数列所属的类型,A,、品质数列,B,、,变量数列,C,、分组数列,(,无此概念,),D,、,组距数列,E,、等距数列,按劳动生产率分组,(,件人,),职工人数,(,人,),5060,6070,7080,80100,10,20,26,17,总 和,73,三、频数分布的类型,(一)钟型分布,钟型分布的特征是,“,两头小,中间大,”,,即靠近中间的变量值分布的次数多,靠近两边的变量值分布的次数少,其曲线图宛如一口钟,如下图所示。,(,a),正态分布,(b),偏态分布,右偏分布,左偏分布,对称分布,(二),U,型分布,U,型分布的形状与钟型分布相反,靠近中间的变量值分布次数少,靠近两端的变量值分布次数多,形成,“,两头大,中间小,”,的,U,型分布,如人口死亡率分布。如下图,(c),。,(三),J,型分布,J,型分布有两种类型,一种是次数随着变量的增大而增多,如人口的变化曲线。另一种 呈反,J,型分布,即次数随着变量增大而减少,如随着产品产量的增加,产品单位成本下降。如下图,(d),(c)J,形分布,正,J,形,反,J,形,(d)U,形分布,第三节 统计表,一、统计表的作用,二、统计表的结构,三、统计表的种类,四、绘制统计表应注意的问题,五、用,EXCEL,制作,频数分布表与列联表的制作,一、统计表的作用,使统计资料系统化、条理化,便于比较各项目之间的关系,便于计算,紧凑、简明、醒目、一目了然,易于检查数字的完整性和正确性,二、统计表的结构,主词 栏,宾词栏,单选题,统计表的主词是统计表所要说明的对象,一般排在统计表的,A,、,左方,B,、上端中部,C,、右方,D,、下方,三、统计表的种类,简单表:主词未经过分组,按总体单位排列,按时间排列,简单分组表:主词按某一标志分组,复合表,四、制统计表的编制和应注意的问题,统计表通常都应设计成纵横线交叉组成的长方形表格。,统计表一般采用,开口式,,表的左右两端不画纵线,表的,上下端常用粗线封口,,统计表的各栏可用、,统一编号。,为阅读方便,主词按次序排列的横行数据一般每隔五行要空一行。,统计表的,注释、数字的资料来源,等一般都写在表的下面以便核查,必要时还可附以简要文字说明,单选题,统计表的形式应该是(,),A,、上下不封顶,左右不开口,B,、,上下要封顶,左右要开口,C,、上下要封顶,左右不开口,D,、上下不封顶,左右要开口,五、频数分布表与列联表的制作,(一)频数分布表,1,、函数,COUNTIF,(,range, criteria),Range:,数据区域,Criteria:,条件,可以为数值,也可以为表达式,如,”,59,”,、,59,、,”,apple,”,、,”,*,s,”,等,2,、函数,: FREQUENCY( data array, bins array),Data array:,数据序列,(CTR+SHIFT+),Bins array:,分组序列,(CTR+SHIFT+),第一步:选定输出频数的区域(多单元格),第二步:输入函数,第三步:,CTR+SHIFT+ENTER,输出数组结果,3,、数据分析,直方图,数据分析,直方图,输入区域:分组数据区域,输出区域:组限,选项:图表输出,(二)列联表,插入,数据透视表,性别,分配工作单位,男,女,总计,工业企业,4,7,11,交通企业,4,5,9,商业企业,4,6,10,总计,12,18,30,第三节 统计数据的显示,直方图,条形图(柱形图),饼图,茎叶图,箱线图,直方图,用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布,横轴,=,数据分组,纵轴,=,频数或频率,频数,=,直方图面积,绘制直方图步骤,单击 “工具”中的“数据分析”,选定“直方图”分析工具,打开“直方图”对话框,在输入区域输入观测值所在区域,接受区域内输入组上限所在区域,选择输出区域,选定柏拉图、累计百分率,单击“确定”,工人每天加工零件数,零件数(个),零件数(个),零件数(个),107,108,110,112,113,114,115,117,118,119,120,121,122,123,124,125,126,127,128,129,130,131,133,134,135,137,139,频数分配表,分组,频数,130,6,直方图,折线图,条形图,条形图与直方图的区别:,条形图的条形长度表示各类别的频数,宽度,(,表示类别,),是固定的;,直方图用面积表示各组的频数或百分比,宽度表示各组的组距。,某商店顾客购买计算机频数分布表,公司,频数,比重(,%,),苹果,13,26,康柏,12,24,贝尔,5,10,盖特威,9,18,IBM,11,22,合计,50,100,50,次购买计算机的频数分布条形图,各国家庭收入分组表,收入类别,家庭数(千家),比重(,%,),贫困,15743,17.0,中下,34717,37.4,中等,23036,24.8,中上,16421,17.7,富裕,2911,3.1,合 计,92828,100.0,柱形图,条形图,饼图,问题:如何分析该运动员的整体水平及发挥的稳定程度?,茎叶图,某篮球运动员在某赛季各场比赛的得分情况如下:,12,,,15,,,24,,,25,,,31,,,31,,,36,,,37,,,39,,,44,,,49,,,50,。,茎叶图,树茎,:,由数据的高位数值表示;,茎叶,:,由数据的剩余部分数值组成。,茎叶图的树茎适当扩展,如将树茎重复两次,一次有记号“”,表示叶子上的数为,0,4,;另一次有记号“,”,,表示叶子上的数为,5,9,。,例:,12,,,15,,,24,,,25,,,31,,,31,,,36,,,37,,,39,,,44,,,49,,,50,树茎,树叶,10,11,12,13,7 8 9,0 2 2 3 4 5 7 7 7 8 8 8 9,0 0 1 2 2 2 2 3 3 3 3 4 4 4 4 5 5 6 6 7 7 7 8 8 9,0 1 3 3 4 4 5 7 9 9,树茎,树叶,10,13,7 8 9,0 2 2 3 4,0 0 1 2 2 2 2 3 3 3 3 4 4 4 4,0 1 3 3 4 4,10,11,12,11,12,13,5 7 7 7 8 8 8 9,5 5 6 6 7 7 7 8 8 9,5 7 9 9,用茎叶图表示数据的优点:,所有的信息都可以从这个茎叶图上得到,与直方图相比,保留了原始数据信息,茎叶图便于记录和表示,缺点:,适用于小批量数据,茎叶图表示三位数以上的数据时不够方便。,下面是甲,乙两名运动员某赛季一些场次得分的茎叶图:,012345,8247199362,50 32875421 1,(1),甲,乙两名队员的,最高得分各是多少?,(,2,)哪名运动员,的成绩好一些?,箱线图,(Box plot),箱线图是由一组数据的五个特征值绘成,(,即中位数,上下四分位数,最大最小 值,),,由一个箱子和两条线段组成。如下图示:,最小值,最大值,下四分位数,上四分位数,中位数,某生产车间,50,名工人日加工零件数,(,单位:个,),117 122 124 129 139 107 117 130 122 125,108 131 125 117 122 133 126 122 118 108,110 118 123 126 133 134 127 123 117 112,112 134 127 123 119 113 120 123 127 135,137 114 120 128 124 115 139 128 124 121,为了便于分组,首先将数据进行排序:,107 108 108 110 112 112 113 114 115 117,117,117 118,118 118 119 120 120 121 122,122 122 122 123 123 123 123 124 124 124,125 125 126 126 127 127 127,128 128,129,130 131 133 133 134 134 135 137 139 139,由上述数据可得如下箱线图:,最小值,107,最大值,139,下四分位数,117.75,上四分位数,128,中位数,123,(,a,),正态分布,(,b,) U,形分布,(,c,),右偏分布,(,d,),左偏分布,箱线图的类型,Stata,做箱线图,graph box,var,graph box,var1,,,over(,var2,),画基于变量,2,分类的多箱线图,graph hbox,var,画水平的箱线图,graph box var1, nooutsides over(var2) over(var3),画出基于多个分类变量的箱线图,所有值都放在箱体内,Graph box var1 var2,比较两个变量的箱线图,平时成绩的箱线图,期末成绩分组箱线图,散点图,平时成绩与期末成绩的散点图,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 小学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!