第2章 数据的搜集

上传人:沈*** 文档编号:244556979 上传时间:2024-10-05 格式:PPT 页数:38 大小:423.50KB
返回 下载 相关 举报
第2章 数据的搜集_第1页
第1页 / 共38页
第2章 数据的搜集_第2页
第2页 / 共38页
第2章 数据的搜集_第3页
第3页 / 共38页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,3-,*,2008,年,8,月,统计学,STATISTICS,(,第三版,),第,2,章 数据的搜集,2.1,数据来源,2.2,数据调查,2.3,实验数据,2.4,数据的误差,2008,年,8,月,学习目标,了解数据的来源,掌握概率抽样的方法,掌握非概率抽样的方法,了解搜集数据的基本方法,理解数据的误差,2008,年,8,月,2.2.1,数据的间接来源,2.2.2,数据的直接来源,2.1,数据的来源,2008,年,8,月,2.2.1,数据的间接来源,Internet,http/,WWW.,中国统计年鉴,2001,中国人口统计年鉴,中国市场统计年鉴,世界发展报告,世界经济年检,工业普查数据,中国统计出版社,数据是由别人通过调查或者实,验的方式搜集的,使用者只是找到,它们并加以使用,对此我们称之为,数据的间接来源,也称为二手数据。,2008,年,8,月,二手数据的来源,1.,统计部门和政府部门公布的有关资料,如各类统计年鉴,2.,各类经济信息中心、信息咨询机构、专业调查机构等提供的数据,3.,各类专业期刊、报纸、书籍所提供的资料,4.,各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料,5.,从互联网或图书馆查阅到的相关资料,2008,年,8,月,二手数据的特点,收集容易,采集成本低,作用广泛,分析所要研究的问题,提供研究问题的背景,帮助研究者更好地定义问题,检验和回答某些疑问和假设,寻找研究问题的思路和途径,收集二手资料在研究中应优先考虑,2008,年,8,月,二手数据的评估,数据是谁收集的?,可信度评估,为什么目的而收集的?,数据是怎样收集的?,什么时候收集的?,2008,年,8,月,通过自己的调查或实验活动,直接获得第一手数据,对此我们称之为数据的直接来源,也称为原始数据。,2.1.2,数据的直接来源,2008,年,8,月,数据的直接来源,(,原始数据,),调查数据,通过调查方法获得的数据,通常是对社会现象而言,通常取自有限总体,实验数据,通过实验方法得到的数据,通常是对自然现象而言,也被广泛运用到社会科学中,如心理学、教育学、社会学、经济学、管理学等,2008,年,8,月,2.2,调查数据,2.2.1,概率抽样和非概率抽样,2.2.2,收集数据的基本方法,2008,年,8,月,概率抽样,(,probability sampling,),根据一个已知的概率来抽取样本单位,也称随机抽样,特点,按一定的概率以随机原则抽取样本,抽取样本时使每个单位都有一定的机会被抽中,每个单位被抽中的概率是已知的,或是可以计算出来的,当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率,2008,年,8,月,(,1,)简单随机抽样,(,simple random sampling,),从总体,N,个单位中随机地抽取,n,个单位作为样本,,使得每一个容量为样本都有相同的机会,(,概率,),被抽中,抽取元素的具体方法有重复抽样和不重复抽样,特点,简单、直观,在抽样框完整时,可直接从中抽取样本,用样本统计量对目标量进行估计比较方便,局限性,当,N,很大时,不易构造抽样框,抽出的单位很分散,给实施调查增加了困难,没有利用其他辅助信息以提高估计的效率,2008,年,8,月,(,2,)分层抽样,(,stratified sampling,),将,总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,优点,保证样本的结构与总体的结构比较相近,从而提高估计的精度,组织实施调查方便,既可以对总体参数进行估计,也可以对各层的目标量进行估计,2008,年,8,月,(,3,)整群抽样,(,cluster sampling,),将总体中若干个单位合并为组,(,群,),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查,特点,抽样时只需群的抽样框,可简化工作量,调查的地点相对集中,节省调查费用,方便调查的实施,缺点是估计的精度较差,2008,年,8,月,(,4,)系统抽样,(,systematic sampling,),将总体中的所有单位,(,抽样单位,),按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位,先从数字,1,到,k,之间随机抽取一个数字,r,作为初始单位,以后依次取,r,+,k,,,r,+2,k,等单位,优点:操作简便,可提高估计的精度,缺点:对估计量方差的估计比较困难,2008,年,8,月,(,5,)多阶段抽样,(,multi-stage sampling,),先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查,群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样,具有整群抽样的优点,保证样本相对集中,节约调查费用,不需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开,在大规模的抽样调查中,经常被采用的方法,2008,年,8,月,非概率抽样,(,non-probability sampling,),相对于概率抽样而言,抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查,有方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样等方式,2008,年,8,月,(,1,)方便抽样,调查,过程中由调查员依据方便的原则,自行确定入抽样本的单位,调查员在街头、公园、商店等公共场所进行拦截调查,厂家在出售产品柜台前对路过顾客进行的调查,优点:,容易实施,调查的成本低,缺点:样本单位的确定带有随意性,样本无法代表有明确定义的总体,调查结果不宜推断总体,2008,年,8,月,(,2,)判断抽样,研究人员根据经验、判断和对研究对象的了解,有目的选择一些单位作为样本,有重点抽样,典型抽样,代表抽样等方式,判断抽样是主观的,样本选择的好坏取决于调研者的判断、经验、专业程度和创造性,抽样成本比较低,容易操作,样本是人为确定的,没有依据随机的原则,调查结果不能用于对推断总体,2008,年,8,月,(,3,)自愿样本,被调查,者自愿参加,成为样本中的一分子,向调查人员提供有关信息,例如,参与报刊上和互联网上刊登的调查问卷活动,向某类节目拨打热线电话等,都属于自愿样本,自愿样本,与抽样的随机性无关,样本是有偏的,不能依据样本的信息推断总体,2008,年,8,月,(,4,)滚雪球抽样,先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。这个过程持续下去,就会形成滚雪球效应,适合于对稀少群体和特定群体研究,优点:容易找到那些属于特定群体的被调查者,调查的成本也比较低,2008,年,8,月,(,5,)配额抽样,先将总体中的所有单位按一定的变量分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位,操作简单,可以保证总体中不同类别的单位都能包括在所抽的样本之中,使得样本的结构和总体的结构类似,抽取具体样本单位时,不是依据随机原则,属于非概率抽样,2008,年,8,月,概率抽样与非概率抽样的比较,概率,抽样,依据随机原则抽选样本,样本统计量的理论分布存在,可根据调查的结果推断总体,非概率,抽样,不是依据随机原则抽选样本,样本统计量的分布是不确定的,无法使用样本的结果推断总体,2008,年,8,月,搜集数据的基本方法,自填式,2.,面访式,3.,电话式,2008,年,8,月,自填式,在没有调查员协助的情况下由被调查者自己填写,完成的调查问卷。,形式:调查员分发,通过邮寄方式,通过网络方法,把问卷刊登在媒体上等等。,优点:管理容易,成本低,增大样本量对调查费用的影响很小,可以进行大范围的调查,易进行敏感性问题的调查。,缺点:问卷的回收率比较低;不适合结构复杂的问卷;调查周期长;对于搜集过程中的问题难以及时采取调改措施。,2008,年,8,月,面访式,现场调查中调查员和被调查者面对面,调查员提问、被调查者回答这种调查方式。,优点:提高调查的回答率,提高调查数据的质量,调节数据搜集的时间。,缺点:调查的成本较高;对调查过程的质量控制有一定的难度;进行敏感性问题的调研有一定的难度。,2008,年,8,月,电话式,调查人员通过打电话的方式向被调查者实施调查。,优点:速度快,成本低,对访问过程的控制容易。,缺点:调查地域受限制;访问时间不能过长;对说服不愿参与调研的群众有一定的难度。,2008,年,8,月,数据搜集方法的选择,(,1,)抽样框中的有关信息,(,2,)目标总体的特征,(,3,)调查问题的内容,(,4,)有形辅助物的使用,(,5,)实施调查的资源,(,6,)管理与控制,(,7,)质量要求,2008,年,8,月,2.3,实验数据,2.3.1,实验组和对照组,2.3.2,实验中的若干问题,2.3.3,实验中的统计,2.3.4,实验法案例,2008,年,8,月,实验组合对照组,实验数据:在实验中控制实验对象而搜集到的变量的数据,实验组:随机抽选的实验对象的子集,在这个子集中,每个单位接受某种特别的处理,对照组:每个单位不接受实验成员所接受的某种特别的处理,2008,年,8,月,实验中的若干问题,人的意愿,心理问题,道德问题,2008,年,8,月,实验中的统计,确定实验所需要的单位的个数,以保证实验可以达到统计显著的结果,将统计的思维融入试验设计,使实验设计符合统计分析的标准,提供尽可能有效地同时研究几个变量影响的方法,2008,年,8,月,2.4,数据误差,2.4.1,抽样误差,2.4.2,非抽样误差,2.4.3,误差的控制,2008,年,8,月,数据的误差,2008,年,8,月,抽样误差,(,sampling error,),由于抽样的随机性所带来的误差,所有样本可能的结果与总体真值之间的平均性差异,只存在于概率抽样之中,影响抽样误差的大小的因素,样本量的大小,总体的变异性,2008,年,8,月,非抽样误差,(,non-sampling error,),相对抽样误差而言,除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异,存在于所有的调查之中,概率抽样,非概率抽样,全面性调查,有抽样框误差、回答误差、无回答误差、调查员误差、测量误差,2008,年,8,月,误差的控制,抽样误差可计算和控制,非抽样误差的控制,搞好问卷设计,调查员的挑选,调查员的培训,督导员的调查专业水平,调查过程控制,调查结果进行检验、评估,现场调查人员进行奖惩的制度,2008,年,8,月,结 束,THANKS,2008,年,8,月,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!