统计学02数据的收集.ppt

上传人:za****8 文档编号:6403914 上传时间:2020-02-24 格式:PPT 页数:22 大小:242.56KB
返回 下载 相关 举报
统计学02数据的收集.ppt_第1页
第1页 / 共22页
统计学02数据的收集.ppt_第2页
第2页 / 共22页
统计学02数据的收集.ppt_第3页
第3页 / 共22页
点击查看更多>>
资源描述
统计学 从数据到结论 第二章数据的收集 2 1数据是怎样得到的 可从报纸 电视 互联网 年鉴等方面看到各种数据并且从这些数据可以提取对自己有用的信息 这些间接得到的 并非自己收集的 数据都是二手数据 2 1数据是怎样得到的 获得第一手数据要困难得多某方便面企业每年至少花三四千万元来收集和分析数据调查其产品及竞争者在市场中的状况 各种类型消费者对其产品的态度 收集各地方的经济交通等信息等等 2 1数据是怎样得到的 他们如同间谍 收集各种情报他们很舍得在这方面花钱 因为市场信息数据是企业生存所必需的 绝不是可有可无的 2 1数据是怎样得到的 在自然的未被控制的条件下观测到的数据 称为观测数据 observationaldata 在人工干预和操作情况下收集的数据就称为试验数据 experimentaldata 同学们自己可以举出大量的观测数据和试验数据的例子 2 2个体 总体和样本 需要调查北京市民对交通规则的观点 对象是所有市民 目的是希望知道市民中对该问题的不同看法各自占有的比例显然 不可能去问所有的北京市民 而只能够问一部分 并且根据这一部分的观点来理解整个北京市民的总体观点 2 2个体 总体和样本 在这个例子中 单个北京市民的观点称为个体 element 所有北京市民对这个问题的观点为一个总体 population 总体是包含所有要研究的个体的集合 2 2个体 总体和样本 而调查时问到的那部分市民的观点 也就是部分个体 称为该总体的一个样本 sample 是总体的一部分 也有可能试图调查所有的人 比如人口普查 那叫做普查 census 2 2个体 总体和样本 在抽取样本时 如果总体中的每一个体都有同等机会被选到样本中 这种抽样称为简单随机抽样 simplerandomsampling 而这样得到的样本则称为随机样本 randomsample 2 2个体 总体和样本 如果总体是一锅八宝粥 随机样本则是充分搅拌后的八宝粥中的任意一勺该勺中的八宝粥的成分比例应该和整个一锅粥类似搅拌越充分 样本的代表性也越好 2 3收集数据时的误差 一勺八宝粥中的成分比例和整锅不尽相同 可能稍微多些或稍微少些 这是很正常的 因为样本的特征不一定和总体完全一样这种差异不是错误 而是必然会出现的抽样误差 samplingerror 2 3收集数据时的误差 抽样调查中 人们因为种种原因没有对调查做出反映 这种误差称为未响应误差 nonresponseerror 一些人因为各种原因回答时并没有真实反映他们的观点 这称为响应误差 responseerror 2 3收集数据时的误差 和抽样误差不一样 未响应误差和响应误差都会影响对真实世界的了解应该在设计调查方案时和进行调查过程中尽量避免 2 4抽样调查时获得数据的一些常用方法 在抽样调查时 最理想的样本是随机样本 但是实践起来不方便在大规模调查时一般不用全部随机抽样的方式 而只是在局部采用随机抽样的方法 2 4抽样调查时获得数据的一些常用方法 下面介绍的几种抽样方法没有深奥的理论 读者完全可以根据常识判断在什么情况下获取简单的随机样本不方便以及每个方法有什么好处和缺陷 实际上 一般仅有少数人有机会来确定抽样方案 读者仅需把这些方法当成常识来了解就可以了 或者跳过这部分 2 4抽样调查时获得数据的一些常用方法 分层抽样 stratifiedsampling 这是先把要研究的总体按照某些性质分类 stratum 再在各类中分别抽取样本 比如 按教育程度把感兴趣的人群分成几类 再在每一类中调查和该类成比例数目的人 以确保每一类都有相应比例的代表 2 4抽样调查时获得数据的一些常用方法 整群抽样 clustersampling 先把总体划分成若干群 cluster 再 通常是随机地 从这些群中抽取几群 然后再在这些抽取的群中对个体进行简单随机抽样 比如 在某县进行调查 首先在所有村中选取若干村子 然后只对这些选中的村子的人进行调查 如果各村情况差异不大 这种抽样还是方便的 2 4抽样调查时获得数据的一些常用方法 多级抽样 multistagesampling 在群体很大时 往往在抽取若干群之后 再在其中抽取若干子群 甚至再在子群中抽取子群 等等 最后只对最后选定的最下面一级进行调查 比如在全国调查时 先抽取省 再抽取市地 再抽取县区 再抽取乡 村直到户 每一级都可能采取各种抽样方法 也称为多级混和型抽样 2 4抽样调查时获得数据的一些常用方法 系统抽样 systematicsampling 这是先把总体中的每个单元编号 然后随机选取其中之一作为抽样的开始点进行抽样 在选取开始点之后 通常从开始点开始按照编号进行所谓等距抽样 也就是说 如果开始点为5号 距离 为10 则下面的调查对象为15号 25号等等 不难想象 如果编号是随机选取的 则这和简单随机抽样是等价的 附 随机数的产生 大小为N的总体中产生样本量为n的随机样本的一个常用的方法是利用随机数 randomnumber 利用随机数步骤为 1 把总体的所有个体编号 2 产生n个在0到N之间的随机数 3 与如此产生的随机数中的数目相同的个体则形成了样本量为n的简单随机样本 附 随机数的产生 最原始的办法是掷一种正20面体的均匀材料制成的骰子 标有两套0到9的数字 每次产生一个0到9的数字 另一种是查阅随机数表 在一些传统的统计教科书后可以找到随机数表 也有专门的随机数表的册子今天 多用计算机产生的伪随机数 pseudo randomnumber 来代替真正的随机数
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!