数据特征的描述

上传人:花****园 文档编号:242963026 上传时间:2024-09-12 格式:PPT 页数:74 大小:304KB
返回 下载 相关 举报
数据特征的描述_第1页
第1页 / 共74页
数据特征的描述_第2页
第2页 / 共74页
数据特征的描述_第3页
第3页 / 共74页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,Chapter 1 Measure of Central tendency and Dispersion,数据特征的描述,数据特征的描述过程,数据收集,整理,显示,描述,第一节、统计数据的搜集,两种数据来源:,原始数据,次级数据,两种数据形式,横截面数据,时间数列数据,统计讨论网站,http:/forum.swarthmore.edu/epigone/sci.stat.math,统计数据网站,http:/www.census.gov/,http:/www.ed.gov/,http:/www.docgov/,http:/www.bls.gov:80/,统计资料可利用组织:,国际劳工组织统计局:劳动力、就业、工资、社会保险、工会等,联合国教科文组织:教育、科学、文化、技术等,联合国棉农组织、卫生组织、国际货币基金会、世界银行等,一、基本 内容,调查目的,调查对象 调查内容 调查方法,调查结果满足调查目的,二、调查方法,方法,对象,特点,适用条件,普查,全部单位,一次性、周期性、数据准确、全面、使用面窄,掌握总体情况有限总体,抽样调查,样本单位,经济、实用、准确、适应面广,掌握总体情况、有限总体与无限总体,重点调查,重点单位,非随机性,掌握趋势,存在重点单位,典型调查,典型单位,非随机性,用于定性分析,统计报表,全部单位与非全部单位,统一性、准确性,三、调查对象,一、全面调查,不重复、不遗漏,二、非全面调查,代表性、选择偏性,引例:1936年罗斯福与兰登的总统竞选,文学摘要罗斯福(43%)兰登(57%)1千万,实际结果 :罗斯福(62%)兰登(38%),盖洛普:罗斯福(56%)5万人,泛法航空,四、调查内容-问卷设计,(一)问卷结构:,说明词、填写要求、问卷正文及结尾,说明词:主办单位及调查员身份、调查的目的和意义、承诺及感谢,问卷正文:需要调查的问题及答案、被调查者的 背景资料,结尾:说明,(二)、问卷的措辞,清楚定义内容:5,w,“您使用什么品牌的化妆品”,用词通俗、词义明确,“您经常收看电视节目吗?”“1、从来不看;2、偶尔看;3、有时看;4、经常看;5、天天看”,避免隐含的选择(乘车、牛仔裤),避免否定形式的提问,避免诱导性或倾向性的词汇、避免重叠、答案详尽,(三)、问题的顺序,1、先易后难,2、封闭型问题置前,敏感性、开放性问题置后,3、注意对后继问题的影响:,(1、您在选择购物时,哪些因素是重要的?,2、您在选择购物时,售后服务这个因素的重要性如何?),4、逻辑思路保持一致,第二节、数据的整理,审核 分组 (品质数据、数,量数据) 计算频数与频率,数据的表现,一、,数据资料的可用性,方法错误,引:时间,空间,口径等,逻辑错误,引:产值与销售值,年龄与工作年限,主观错误,敏感性、政治性等,引:失业率与平均每周申请失业保险人数,IBM IBM,帕科特 贝尔 康柏,IBM,帕科特 贝尔 苹果 苹果 盖威特 -2000 帕科特 贝尔,康柏 康柏 苹果 ,二、数据的分组与频率的计算,(一)品质数据的分组 与计算,频数:每组数据值出现的次数,表 2-5 购买 50台计算机的样本数据,表 2-6 购买计算机数据的频数分布表,按公司分组,频数,苹果机,13,康柏机,12,盖威特-2000,5,IBM,9,帕科特 贝尔,11,合计,50,(,二)、数量数据的整理,数量数据频数分布的分组需要 3 个步骤: 1 、确定组数; 2 、确定组距; 3 、确定组限。,引例:,表 : 年终审计时间(天,),12,14,19,18,15,15,18,17,20,27,22,23,22,21,33,28,14,18,16,13,1 、确定分组数目,本例组数 =,=5.3,我们确定分 5 个组。,2 、确定组距,近似的组距 =,本例组距 =,取整数 5 天。,=,按审计时间分组(天),频 数,10-14,4,15-19,8,20-24,5,25-29,2,30-34,1,合 计,20,表 2-9 审计时间数据频数分布,4、计算频数与频率,表 2-10 审计时间数据的相对频数和百分比频数分布,按审计时间分组(天),相对频数,百分比频数,10-14,0.20,20,15-19,0.40,40,20-24,0.25,25,25-29,0.10,10,30-34,0.05,5,合 计,1.00,100,按审计时间分组(天),频 数,向上累计频数分布,向下累计频数分布,10-14,4,4,20,15-19,8,12,16,20-24,5,17,8,25-29,2,19,3,30-34,1,20,1,合 计,20,表 2-11 审计时间数据的累积频数分布,在数量数据整理中要注意的问题有:,1 、在一些应用中,我们需要知道各分组的中点,也就是组中值。,2 、开口组(即只有上限或只有下限的组),其组中值用邻组的组距计算。,3 、在数据较少的情况下,可用品质数据整理的方式,采取单变量值分组。,4、连续变量与离散变量的组限问题 上组限不在内,5、等距与不等距分组,三、数据的表现,统计图,统计表,统计指标,1、直方图,是用图形说明数量数据的另一种常用方法,。,图 2-8 审计时间数据直方图,(一)统计图,2、条形图,是用图的方式描述已概括成频数、相对频数或百分比频数分布的品质数据的图形,3、饼图 是用圆的各部分面积来呈现品质数据的常用方法。本例中所有各组计算机购买的百分比频数总和为 100 ,一个圆有 360 ,则饼图中苹果机的部分为 26% 360 =93.6 ,其他组的部分以此类推算出,4、统计折线图与曲线图,洛伦茨曲线,生命曲线,投机需求曲线,质量曲线,5、象形图,按收入大小顺序排列的家庭数,占总收入的%,累计家庭数%,累计收入的%,最低的20%,4.7,20,4.7,第二个20%,11,40,15.7,第三个20%,17,60,32.4,第四个20%,24.4,80,56.8,最高的20%,43.2,100,100,洛伦茨曲线,累计收入的%,累计家庭的%,1975,1985,1995,100,101,Sales up,Sales of Chicago Carpet World since 1975,(二)、统计表,年份,国内生产总值,最终消费 最终消费率,年末人口),1989,112704,1990,18319.5,11365.2 61.3,114333,1991,21280.4,13145.9 60.8,115838,1992,25863.6,15952.1 59.9,117171,1993,1994,1995,1996,合计,34500.6,47110.9,59404.9,68498.2,274978.1,20182.1 58.3,27216.2 58.2,34529.4 59.0,40171.7 58.6,162562.6,118517,119850,121121,122389,第三节、数据特征的描述,绝对数与相对数,集中趋势:,众数、中位数、平均数,离散趋势,:,全距,方差、标准差,方差系数、标准差系数,一、绝对数与相对数,(一)绝对数,反映社会现象整体规模和水平,时期数,时点数,(二)相对数,结构、比较、计划等,(三)绝对数与相对数的应用,1、指标内涵和可比性:,GNP、,工业增加值,2、指标的结合运用,引例:在美国,1985年有19893人遭谋杀,与1970年16848人遭到谋杀相比,增加了20%。这些数字揭示了在1970-1985年期间美国变成一个更多暴力的社会,中国的国民生产总值增长了8%,美国的为1%,二、数据集中趋势的描述,(一)、 众数,Mode,众数是总体数据中出现次数最多的变量值。,例 3-1 :有 10 名大学生的年龄: 18 , 18 , 19 , 19 , 19 , 19 , 19 , 20 , 20 , 21 ,在这里 19 岁的人数最多,所以 19 岁是众数。,例 3-2 :有 10 名职工的年龄: 20 , 21 , 22 , 23 , 24 , 25 , 26 , 27 , 28 , 29 ,由于各年龄的人数相同,没有明显集中趋势点的数值,所以这里没有众数。,注意:,1、是位置平均数,不受极端值的影响,2、假定各单位在组内是均匀分布的,3、信息量小,缺乏敏感性,不适合代数运算,4、用于非对称的次数数列、特别是品质标志数列,5、用于数列中有较多的数值向某一数值集中,6、有时会存在多个众数,(二)、中位数,Medium,中位数就是把计算对象的数据按大小顺序排列后,处于中间位置上的变量值。,=,注意:,1、是位置平均数,不受极端值的影响,2、假定各单位在组内是均匀分布的,3、信息量小,缺乏敏感性,不适合代数运算,4、用于非对称的次数数列,引:个人收入、年龄,(,一)定义:,均值就是分布中全部数据的算术平均值。,(二)、确定,1 、对未经整理的原始数据,,,表示均值,,则,三、均值,Mean,2、对分组数据,某公司推销员工作量如下:,表 3-4,推销量(件),组中值,X,推销员人数(人),F,XF,20-30,30-40,40-50,50-60,60-70,25,35,45,55,65,2,8,10,4,1,50,280,450,220,65,合 计,25,1065,例,对平均数的理解:,(1)某房间有10人平均身高1.6米,第11人走进,其身高1.9米,求11人的平均身高;若房间里20个人身高平均1.6米则第21人走进,21人的身高又会如何,(2)一教师出3个问题,每题1分班级中30%得3分,50%得2分,10%得1分,10%得0分;全班有10个人;全班有20人?,(3)经济衰退时,工人的平均工资高,平均失业期短;经济繁荣时,平均工资低,平均失业期长;,这会是真实吗,注意:,平均数的大小受变量值和权重两个因素的影响,平均数收极端值的影响,权重的选择要注意其经济意义,正确理解各平均数指标,测度值,优 点,缺 点,众数,1、 当数据有明显的集中趋势又是偏态分布时其代表性较好;,2、 不受极端数值的影响;,1、 具有不唯一性,有的分布有不只一个众数,有的分布没有众数;,2、 具有假定性,当假定不成立时其代表性会很差。,中位数,1、 不受极端数值的影响;,2、 可描述集中趋势不明显;,3、 数据分布中心值;,1、 具有假定性,当假定性不成立时其代表性会很差;,2、 当分组数较少而分布又较集中时,中位数不一定准确。,均值,1、 数据信息提取最充分,具有优良的数学性质;,2、 既是数据分布的中心,又是数据的重心,应用广泛,是其他统计方法的基础;,1、 对组距分组数据计算均值具有一定的假定性;,2、 受极端数值的影响;,二)众数、中位数和均值的特点和应用场合,第四节 数据分布离散程度的测度,离散程度是评价数据一般水平代表性大小的依据,并可以反映数据分布的均衡程度。,一、全距,(,Range ),与四分位距,、,全距也称极差,是用分布数据中的最大值减去最小值的差,表示为,四分位距 :将所有数据分为4份,每部分之间的分界点为四分位数据,1、简单标准差:,二、标准差与方差,年净收入(万元),离差(,),离差平方(,),490,-68,4624,538,-20,400,560,2,4,570,12,144,590,32,1024,600,42,1764,合 计,0,7960,例3-13、 某百货公司有 6 家分店,经理要求掌握这 6 家分店的年净收入差异水平,其标准差计算如下:平均年净收入,2、加权的标准差,三、对标准差的理解:,1、相同的数列,用原始数据计算和用分组数据计算,标准差有和不同,2、10个数的数列,若只包括1、9且标准差最大,这10个数是什么,1、是非变量的标准差,在统计研究中,经常遇到这样一种情况,即统计对象总体只有两种表现的可能,这类总体的现象表现就是是非变量。,一般我们将其中一种表现的变量值表示为 1 ,另一种表现的变量值表示为零,如果我们用,P,表示变量值 1 在总体中出现的频率,用,Q,表示变量值零在总体中出现的频率,则有:,,,,,,,四、其他形式的标准差,是非变量的均值,:,是非变量的方差,:,2、总体方差与组方差,例 3-16 某厂某班组 12 名工人日产量件数如下: 9 , 11 , 14 , 15 , 16 , 19 , 20 , 21 , 21 , 22 , 23 , 28 ,对上述 12 名工人求日产量的均值及总方差得:,(件),如果对上述 12 名工人按工人的技术等级分为两组:,第一组工人的日产量分别为 9 , 11 , 14 , 15 , 16 这 5 个变量值,则其组内均值:,组方差,第一组的方差,同理,第二组 2 人日产量分组有 19 , 20 , 21 , 21 , 22 , 23 , 28 七个变量值,则其组内均值和组内方差为:,第二组的方差,工人分组,工人日产量(件),工人数,组内均值,组内均值与总均值离差,离差平方和乘频数,X,j,F,i,第一组,9,11,14,15,16,5,13,-5,125,第二组,19,20,21,21,22,23,28,7,22,4,112,表 3-7 组间方差计算示例表,组内方差的均值与组间方差之和等于总方差,在本例中各组内方差的均值为:,则各类方差之间的关系为:,),26.92=7.17+19.75,(,Coefficient of variation ),主要是标差系数,或,五、离散系数,日期,生产小组,周一,周二,周三,周四,周五,甲组,60,65,70,75,80,乙组,2,5,7,9,12,表 3-8,例 3-17,有两个不同的生产小组,甲组是生产配件,乙组是整机装配,现在要比较这两个生产小组在一周内平均日产量的均衡程度。,:,(,设标准化分位值为,Z ,,则有:,或,六、标准值,例,3-16 :某班的统计学考试成绩平均分数为 80 分,标准差为 6 分,某同学考试成绩 86 分,则该同学统计学的分数相对于平均分数的标准化分位值是:,如果该同学在英语考试中的成绩是 120 分,全班的平均分数是 100 分,标,准差是 20 分,则该同学英语的分数相对于平均分数的标准化分位值是:,在这里英语的 120 分与统计的 86 分是等值的,都是高于平均分一个标准差,引例:,加里福尼亚大学的研究生部就男女生入学情况做了调查研究:在研究期间,6个专业共有2691名男生和1835名女生报考研究生。录取了1197名男生,557名女生,加大学6个专业的资料,男 女,专业 申请人数 录取率 % 申请人数 录取率%,1 825 62 108 82,2 560 63 25 68,3 325 37 593 34,4 417 33 375 35,5 191 28 393 24,6 373 6 341 7,合计 2691 1835,专业 申请者总数,1、 993,2、 585,3、 918,4、 792,5、 584,6、 714,1、大约44%的男生和31%的女生,2、 大约39%的男生和43%的女生,本章推荐参考书籍,用图表说话;基恩、泽拉兹尼著;长春出版社,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 金融资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!