统计调查与数据分析讲座

上传人:张姑****py 文档编号:243058133 上传时间:2024-09-14 格式:PPT 页数:61 大小:273.50KB
返回 下载 相关 举报
统计调查与数据分析讲座_第1页
第1页 / 共61页
统计调查与数据分析讲座_第2页
第2页 / 共61页
统计调查与数据分析讲座_第3页
第3页 / 共61页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,社会调查人员系列培训,调查统计/数据分析讲座,课程要点,一、数据的收集,二、数据的整理,三、数据的统计特,性分析,一、数据的收集,两种数据来源:,原始数据,次级数据,两种数据形式,横截面数据(点),时间数列数据(面),数据的来源与分类,数据收集(调查)策划,调查目的,调查对象 - 调查内容 - 调查方法,调查结果满足调查目的,调查对象,一、全面调查,不重复、不遗漏,二、非全面调查,代表性、选择偏性,例,1936年罗斯福与兰登的总统竞选:,文学摘要:罗斯福(43%)兰登(57%)1千万,盖洛普: 罗斯福(56%)5万人,实际结果 :罗斯福(62%)兰登(38%),调查方法,方法,对象,特点,适用条件,普查,全部单位,一次性、周期性、数据准确、全面、使用面窄,掌握总体情况有限总体,抽样调查,样本单位,经济、实用、准确、适应面广,掌握总体情况、有限总体与无限总体,重点调查,重点单位,非随机性,掌握趋势,存在重点单位,典型调查,典型单位,非随机性,用于定性分析,统计报表,全部单位与非全部单位,统一性、准确性,调查内容,(一)问卷结构,:,说明词、填写要求、问卷正文及结尾,说明词:主办单位及调查员身份、调查的目的和意义、承诺及感谢,问卷正文:需要调查的问题及答案、被调查者的 背景资料,结尾:说明,问卷设计,清楚定义内容:5,w,“您使用什么品牌的化妆品”,用词通俗、词义明确,“您经常收看电视节目吗?”“1、从来不看;2、偶尔看;3、有时看;4、经常看;5、天天看”,避免隐含的选择(乘车、牛仔裤),避免否定形式的提问,避免诱导性或倾向性的词汇、避免重叠、答案详尽,(二)问卷的措辞,(三)问题的顺序,1、先易后难,2、封闭型问题置前,敏感性、开放性问题置后,3、注意对后继问题的影响:,1)您在选择购物时,哪些因素是重要的?,2)您在选择购物时,售后服务这个因素的重要性如何?,4、逻辑思路保持一致,二、数据的整理,审核,分组 (品质数据、数量数据),计算频数与频率,观察数据的表现,审核数据资料的可用性,方法错误,如:时间,空间,口径等,逻辑错误,如:产值与销售值,年龄与工作年限,主观错误,敏感性、政治性等,如:失业率与平均每周申请失业保险人数,IBM IBM,帕科特 贝尔 康柏,IBM,帕科特 贝尔 苹果 苹果 盖威特 -2000,帕科特 贝尔 康柏 康柏 苹果,数据的分组与频率的计算,(一)品质数据的分组与计算,频数:每组数据值出现的次数,例:下表为购买 50台计算机的样本数据,下表为购买计算机数据的频数分布表,按公司分组,频数,苹果机,13,康柏机,12,盖威特-2000,5,IBM,9,帕科特 贝尔,11,合计,50,数量数据频数分布的分组需要 3 个步骤:,1.确定组数; 2.确定组距; 3.确定组限。,12,14,19,18,15,15,18,17,20,27,22,23,22,21,33,28,14,18,16,13,(,二)数量数据的整理,案例: 下表为年终审计耗用的时间(单位:天),=,1.确定分组数目:,本例组数 =,=5.3 确定分 5 个组。,2.确定组距 :,本例组距 =,取整数 5 天,按审计时间分组(天),频 数,10-14,4,15-19,8,20-24,5,25-29,2,30-34,1,合 计,20,3.计算频数与频率,5.计算审计时间数据的相对频数和百分比频数,分布 :,按审计时间分组(天),相对频数,百分比频数,10-14,0.20,20,15-19,0.40,40,20-24,0.25,25,25-29,0.10,10,30-34,0.05,5,合 计,1.00,100,按审计时间分组(天),频 数,向上累计频数分布,向下累计频数分布,10-14,4,4,20,15-19,8,12,16,20-24,5,17,8,25-29,2,19,3,30-34,1,20,1,合 计,20,6.计算审计时间数据的累积频数分布,在数量数据整理中要注意的问题,1 、在一些应用中,我们需要知道各分组的中点,也就是组中值。,2 、开口组(即只有上限或只有下限的组),其组中值用邻组的组距计算。,3 、在数据较少的情况下,可用品质数据整理的方式,采取单变量值分组。,4、连续变量与离散变量的组限问题 上组限不在内,5、等距与不等距分组,观察数据的表现,观察数据的表现(特征)一般通过图表来分析:,统计图,统计表,统计指标,(一)统计图,1、直方图 :是用图形说明数量数据的一种常用方法。,下图为审计时间数据直方图,2、条形图:,是用图的方式描述已概括成频数、相对频数或百分比频数分布的数据的特征,3、饼图 :是用圆的各部分面积来呈现品质数据的常用方法。本例中所有各组计算机购买的百分比频数总和为 100 ,一个圆有 360 ,则饼图中苹果机的部分为 26%,X 360 =93.6 ,其他组的部分以此类推算出:,4.统计折线图与曲线图,洛伦茨曲线,生命曲线,投机需求曲线,质量曲线,5、象形图,按收入大小顺序排列的家庭数,占总收入的%,累计家庭数%,累计收入的%,最低的20%,4.7,20,4.7,第二个20%,11,40,15.7,第三个20%,17,60,32.4,第四个20%,24.4,80,56.8,最高的20%,43.2,100,100,洛伦茨曲线,累计收入的%,累计家庭的%,1975,1985,1995,100,101,(二)统计表,年份,国内生产总值,最终消费 最终消费率,年末人口),1989,112704,1990,18319.5,11365.2 61.3,114333,1991,21280.4,13145.9 60.8,115838,1992,25863.6,15952.1 59.9,117171,1993,1994,1995,1996,合计,34500.6,47110.9,59404.9,68498.2,274978.1,20182.1 58.3,27216.2 58.2,34529.4 59.0,40171.7 58.6,162562.6,118517,119850,121121,122389,三、数据的统计特性分析,绝对数与相对数,集中趋势:,众数、中位数、平均数,离散趋势,:,全距,方差、标准差,方差系数、标准差系数,一.绝对数与相对数,(一)绝对数,反映社会现象整体规模和水平,时期数,时点数,(二)相对数,结构、比较、计划等,(三)绝对数与相对数的应用,1、指标内涵和可比性:,GNP、,工业增加值,2、指标的结合运用,举例,:在美国,1985年有19893人遭谋杀,与1970年16848人遭到谋杀相比,增加了20%。这些数字揭示了在1970-1985年期间美国变成一个更多暴力的社会,中国的国民生产总值增长了8%,美国的为1%,二.数据集中趋势的分析,(一) 众数,Mode,众数是总体数据中出现次数最多的变量值。,例一:有 10 名大学生的年龄: 18 , 18 , 19 , 19 , 19 , 19 , 19 , 20 , 20 , 21 ,在这里 19 岁的人数最多,所以 19 岁是众数。,例二:有 10 名职工的年龄: 20 , 21 , 22 , 23 , 24 , 25 , 26 , 27 , 28 , 29 ,由于各年龄的人数相同,没有明显集中趋势点的数值,所以这里没有众数。,注意:,1、是位置平均数,不受极端值的影响,2、假定各单位在组内是均匀分布的,3、信息量小,缺乏敏感性,不适合代数运算,4、用于非对称的次数数列、特别是品质标志数列,5、用于数列中有较多的数值向某一数值集中,6、有时会存在多个众数,(二)中位数,Medium,中位数就是把计算对象的数据按大小顺序排列后,处于中间位置上的变量值。,1、是位置平均数,不受极端值的影响,2、假定各单位在组内是均匀分布的,3、信息量小,缺乏敏感性,不适合代数运算,4、用于非对称的次数数列,如:个人收入、年龄,注意:,(三)均值,Mean,1.,定义:均值就是分布中全部数据的算术平均值。,2.确定,1 、对未经整理的原始数据,,表示均值,2、对分组数据(加权)的均值,某公司推销员工作量如下:,推销量(件),组中值,X,推销员人数(人),F,XF,20-30,30-40,40-50,50-60,60-70,25,35,45,55,65,2,8,10,4,1,50,280,450,220,65,合 计,25,1065,举例,对平均数的理解:,(1)某房间有10人平均身高1.6米,第11人走进,其身,高1.9米,求11人的平均身高;若房间里20个人身,高平均1.6米则第21人走进,21人的身高又会如何,(2)一教师出3个问题,每题1分班级中30%得3分,50%,得2分,10%得1分,10%得0分;全班有10个人;全班,有20人?,(3)经济衰退时,工人的平均工资高,平均失业期短;经,济繁荣时,平均工资低,平均失业期长;,这会是真实吗?,注意:,1.平均数的大小受变量值和权重两个因素的影响,2.平均数收极端值的影响,3.权重的选择要注意其经济意义,4.正确理解各平均数指标,测度值,优 点,缺 点,众数,1、 当数据有明显的集中趋势又是偏态分布时其代表性较好;,2、 不受极端数值的影响;,1、 具有不唯一性,有的分布有不只一个众数,有的分布没有众数;,2、 具有假定性,当假定不成立时其代表性会很差。,中位数,1、 不受极端数值的影响;,2、 可描述集中趋势不明显;,3、 数据分布中心值;,1、 具有假定性,当假定性不成立时其代表性会很差;,2、 当分组数较少而分布又较集中时,中位数不一定准确。,均值,1、 数据信息提取最充分,具有优良的数学性质;,2、 既是数据分布的中心,又是数据的重心,应用广泛,是其他统计方法的基础;,1、 对组距分组数据计算均值具有一定的假定性;,2、 受极端数值的影响;,众数、中位数和均值的特点和应用场合,三.数据分布离散程度的分析,离散程度是评价数据一般水平代表性大小的依据,并可以反映数据分布的均衡程度。,(一)全距(,Range ),与四分位距:,全距也称极差,是用分布数据中的最大值减去最小值的差,表示为,四分位距 :将所有数据分为4份,每部分之间的分界点为四分位数据,1、简单标准差:,(二)标准差与方差,举例:某百货公司有 6 家分店,经理要求掌握这 6 家分店的年净收入差异水平,其标准差计算如下:平均年净收入,年净收入(万元),离差(,),离差平方(,),490,-68,4624,538,-20,400,560,2,4,570,12,144,590,32,1024,600,42,1764,合 计,0,7960,(三)对标准差的理解:,1、相同的数列,用原始数据计算和用分组数据计算,标准差有何不同?,2、10个数的数列,若只包括1、9且标准差最大,这10个数是什么?,1、是非变量的标准差,在统计研究中,经常遇到这样一种情况,即统计对象总体只有两种表现的可能,这类总体的现象表现就是是非变量。,一般我们将其中一种表现的变量值表示为 1 ,另一种表现的变量值表示为零,如果我们用,P,表示变量值 1 在总体中出现的频率,用,Q,表示变量值零在总体中出现的频率,则有:,,,,,,,(四)其他形式的标准差,是非变量的均值,:,是非变量的方差,:,2.总体方差与组方差,举例: 某厂某班组 12 名工人日产量件数如下: 9 , 11 , 14 , 15 , 16 , 19 , 20 , 21 , 21 , 22 , 23 , 28 ,对上述 12 名工人求日产量的均值及总方差得:,如果对上述 12 名工人按工人的技术等级分为两组:,第一组工人的日产量分别为 9 , 11 , 14 , 15 , 16 这 5 个变量值,则其组内均值:,组方差:,第一组的方差:,第二组的方差:,同理,第二组 2 人日产量分组有 19 , 20 , 21 , 21 , 22 , 23 , 28 七个变量值,则其组内均值和组内方差为:,工人分组,工人日产量(件),工人数,组内均值,组内均值与总均值离差,离差平方和乘频数,X,j,F,i,第一组,9,11,14,15,16,5,13,-5,125,第二组,19,20,21,21,22,23,28,7,22,4,112,组间方差计算列表,组内方差的均值与组间方差之和等于总方差,在本例中各组内方差的均值为:,则各类方差之间的关系为:,26.92=7.17+19.75,主要是标准差系数,或,(五)离散系数,举例:,有两个不同的生产小组,甲组是生产配件,乙组是整机装配,现在要比较这两个生产小组在一周内平均日产量的均衡程度。,日期,生产小组,周一,周二,周三,周四,周五,甲组,60,65,70,75,80,乙组,2,5,7,9,12,计算:,(六)标准值,设标准化分位值为,Z ,,则有:,或,举例:某班的统计学考试成绩平均分数为 80 分,标准差为 6 分,某同学考试成绩 86 分,则该同学统计学的分数相对于平均分数的标准化分位值是:,如果该同学在英语考试中的成绩是 120 分,全班的平均分数是 100 分,标准差是 20 分,则该同学英语的分数相对于平均分数的标准化分位值是:,在这里英语的 120 分与统计的 86 分是等值的,都是高于平均分一个标准差,谢谢大家!,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 金融资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!