抽样调查-多阶段抽样培训课件

上传人:博*** 文档编号:241566156 上传时间:2024-07-05 格式:PPT 页数:47 大小:730.50KB
返回 下载 相关 举报
抽样调查-多阶段抽样培训课件_第1页
第1页 / 共47页
抽样调查-多阶段抽样培训课件_第2页
第2页 / 共47页
抽样调查-多阶段抽样培训课件_第3页
第3页 / 共47页
亲,该文档总共47页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
返回8.1 引 言 前面提到的整群抽样虽然前面提到的整群抽样虽然有很多优点,但是由于群内单有很多优点,但是由于群内单元通常具有相似性(表现为群元通常具有相似性(表现为群内相关系数大于零)。尤其是内相关系数大于零)。尤其是当群比较大时,人们自然会想当群比较大时,人们自然会想到没有必要对群内所有单元都到没有必要对群内所有单元都进行调查,而只要对群内单元进行调查,而只要对群内单元进行再抽样,对被抽中的单元进行再抽样,对被抽中的单元进行调查,这就是常用的多阶进行调查,这就是常用的多阶段抽样。段抽样。返回一、多阶段抽样的定义 先在总体单元(初级单元)中抽出样本单先在总体单元(初级单元)中抽出样本单元,并不对这个样本单元中的所有下一级单元元,并不对这个样本单元中的所有下一级单元(二级单元)都进行调查,而是在其中再抽出若(二级单元)都进行调查,而是在其中再抽出若干个二级单元并进行调查。干个二级单元并进行调查。这种抽样方法称为二阶段抽样。同样的道这种抽样方法称为二阶段抽样。同样的道理,还可以有三阶段抽样、四阶段抽样等。对于理,还可以有三阶段抽样、四阶段抽样等。对于二阶段以上的抽样,二阶段以上的抽样,统称为统称为多阶段抽样多阶段抽样。返回二、多阶段抽样的优点(1)(1)多阶段抽样保持了整群抽样的样本比较集中、多阶段抽样保持了整群抽样的样本比较集中、便于调查、节约费用等优点。便于调查、节约费用等优点。(2)(2)多阶段抽样不需要编制所有小单元的样本框。多阶段抽样不需要编制所有小单元的样本框。三、抽选方法与推断原理 多阶段抽样时,每一个阶段的抽样可以相同,也多阶段抽样时,每一个阶段的抽样可以相同,也可以不同。它通常与分层抽样、整群抽样、系统抽样可以不同。它通常与分层抽样、整群抽样、系统抽样结合使用。多阶段抽样时,抽样是分步进行的,因此,结合使用。多阶段抽样时,抽样是分步进行的,因此,讨论估计量的均值及其方差时,需要分阶段进行这要讨论估计量的均值及其方差时,需要分阶段进行这要用到下面的性质用到下面的性质。返回性质1 对于两阶段抽样,有式中,式中,为在固定初级单元时对第二阶抽样求均为在固定初级单元时对第二阶抽样求均值和方差;值和方差;为对第一阶抽样求均值和方差。为对第一阶抽样求均值和方差。性质性质1 1可以推广到多阶段抽样的情形,例如可以推广到多阶段抽样的情形,例如对于三阶段抽样,有对于三阶段抽样,有返回8.2 初级单元大小相等的二阶抽样第一阶段在总体第一阶段在总体N N个初级单元中,以简单随机个初级单元中,以简单随机抽样抽取抽样抽取n n个初级单元,第二阶段在被抽中的初级个初级单元,第二阶段在被抽中的初级单元包含的单元包含的M M个二级单元中,以简单随机抽样抽取个二级单元中,以简单随机抽样抽取m m个二级单元,即最终接受调查的单元个二级单元,即最终接受调查的单元。例如:某个新开发的小区拥有相同户型的例如:某个新开发的小区拥有相同户型的1515个个单元的楼盘,居民已经陆续搬入新居,每个单元住单元的楼盘,居民已经陆续搬入新居,每个单元住有有1212户居民,为调查居民家庭装修情况,准备从户居民,为调查居民家庭装修情况,准备从180180户居民户中抽取户居民户中抽取2020户进行调查。如下表:户进行调查。如下表:返回编号单 元 房 号123456789101112131415一栋A座一栋B座一栋C座二栋A座二栋B座二栋C座三栋A座三栋B座三栋C座四栋A座四栋B座四栋C座五栋A座五栋B座五栋C座 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 返回表中红字为抽中的房号。这时,初级单元有15个,每个初级单元拥有二级单元12个。首先将单元从1到15编号,在15单元中随机抽取5个单元,分别是1,6,9,12,13号;然后在被抽中的单元中,进行第二次抽样,即分别在12户居民户中随机抽取4户。一、符号说明初级单元和初级单元拥有的二级单元个数:N,M第一阶段和第二阶段抽样的样本量:n ,m 第i个初级单元中的第j个二级单元的观测值:样本中第i个初级单元中的第j个二级单元的观测值:返回第一阶段和第二阶段的抽样比:第i个初 级 单 元 按二级单元的平均 值:按二级单元的平均值:初级单元间的方差:返回初级单元内的方差:由 的表达式可知,若记则有即 是 的平均值。同理有返回二、估计量及其性质(一)总体均值的估计性质2 对于初级单元大小相等的二阶抽样,如果两个阶段都是简单随机抽样,且对每个初级单元,第二阶抽样是相互独立进行的,则对总体均值 的无偏估计为:其方差为:的无偏估计为:返回【例8.1】欲调查4月份100家企业的某项指标,首先从100家企业中抽取了一个有板有5家样本企业的简单随机样本,调查人员对5家企业分别在调查月内随机抽取3天作为调查日,要求样本企业只填写这3天的流水帐。调查的结果如下。样 本 企 业第一日第二日第三日12345573851486259416053556450634954要求根据这些数据推算不100家企业该指标的总量,并给出估计的95%置信区间。返回解 将企业作为初级单元,将每一天看着二级单元。调查月内拥有30天(即拥有30个二级单元)。首先在初级单元中抽取一个n=5的简单随机样本再对每个样本的二级单元分别独立抽取一个m=3的简单随机样本由题意,N=100,M=30,n=5,m=3首先计算样本初级单元的均值 、方差 :返回样 本 企 业123456043585057133939719于是得到:返回 置信度为置信度为95%95%的置信区间为:的置信区间为:1608001.9692161608001.969216在上面的方差估计式中,第一项是主要的,第二项在上面的方差估计式中,第一项是主要的,第二项要小得多要小得多!返回(二)对总体比例的估计 如果要估计总体中具有所研究特征的二级单元数占全体全体二级单元数的比例,则式中,为第i个初级单元中具有所研究特征的二级单元数,则对P的估计为:式中,为第i个初级单元中具有所研究特征的二级单元数。返回性质3 对于二阶抽样,如果两个阶段都是简单随机抽样,则有估计量 的方差为:的无偏估计为:式中,返回【例8.2】欲调查某个新小区居民家庭装潢聘请装潢公司的比例。我们在15个单元中随机抽取了5个单元,在这5个单元分别随机抽取了4户居民进行调查,对这20户的调查结果如下表:样本单元第一户第二户第三户第四户一栋A座二栋C座三栋C座四栋C座五栋B座是否否否是是是否否否否否否否否否否是否否要求根据这些数据推算居民家庭装潢聘请装潢公司的比例。返回解:记聘请装潢公司的居民户为“1”,否则记为“0”。这里,N=15,M=12,n=5,m=4 ,因此,其方差的估计为:P的置信区间为:返回8.3 初级单元大小不等的二阶抽样 一般而言,初级单元的大小是不相等的,如果按初级单元的大小分层后,层内初级单元的大小差别仍很大,则需用本节介绍的方法来处理二阶抽样的问题。当初级单元大小不等时,一般采用不等概抽样。一、符号说明总体中初级单元个数及第一阶抽取的样本量:N,n第i个初级单元中二级单元数:第i个初级单元中第二阶抽样的样本量:第i个初级单元中第j个二级单元的观测值:样本中第i个初级单元中第j个二级单元的观测值:返回第一阶和第二阶的抽样比:二级单元个数:指标总和:第i个初级单元指标总和:第i个初级单元按二级单元的平均值:返回按二级单元的平均值:初级单元间的方差:第i个初级单元二级单元间的方差:返回二、估计量及其性质(一)对初级单元进行简单随机抽样如果二阶抽样中每个阶段都采用简单随机抽样,并且每个初级单元中二级单元的抽样是相互独立的,则对总体总和的估计可以采用简单估计,也可以考虑采用比率估计。1.简单估计量 对总体总和的简单估计为:根据性质1,不仅可以证明这个估计量是无偏的,并且它的方差为:返回的一个无偏估计为:式中,返回2.比率估计量 由于初级单元的大小 不同,往往造成初级单元的观测值 差异很大,使得估计量方差 的第一项很大,从而估计量的方差也就变得很大。这时,可以考虑将初级单元的大小 作为辅助变量,采用比率估计量对总体总和进行估计。对总体总和的估计量为:返回 这是一个有偏估计量,但随着样本量的增加,其偏倚将趋于零。其近似均方误差为:返回的样本估计为:式中,返回(二)对初级单元进行放回不等概抽样利用第五章的方法,事先规定每个初级单元被抽中的概率 对被抽中的初级单元,再抽取个二级单元。对总体总和的估计通常是构造初级单元指标总量的无偏估计 ,然后利用第五章介绍的Hansen-HuRwitz估计量对总体总量Y进行估计。由于 是 的无偏估计,由性质1,可以证明是Y的无偏估计。且 的方差为:返回的一个无偏估计为:注意上述对第二阶抽样并没有做出特别的规定,而且估计量的方差估计式与第二阶抽样的方式无关。在实际工作中,如果初级单元大小不相等,通常人们喜欢在第一阶抽样时按放回的与二级单元数成比例的不等概抽样;第二阶抽样则采用简单随机抽样,且每个样本初级单元的样本量都相等,此时,估计量的形式非常简单。返回 【例8.3】某小区拥有10座高层建筑,每座高层建筑拥有的楼层数如下表:高层建筑ABCDEFGHIJ楼层1212161510161018 16 20 用二阶抽样方法抽出10个楼层进行调查,第一阶抽样为放回的、按与每座建筑拥有的楼层数成比例的不等概抽样抽取5座建筑,第二阶按简单随机抽样对每座建筑抽取两层。对10个楼层居民人数的调查结果如下表:一阶样本序号12345居民数18,1215,1819,1316,1016,11返回解:已知 n=5,m=2,注意到这个样本是自加权的,根据P181公式(8.29),得估计量的方差为:=9776.625估计量的标准差为:返回(三)对初级单元进行不放回不等概抽样 不放回不等概抽样的效率比放回的效率高,因此,有时人们也会倾向于用不放回不等概抽样来抽取初级单元。这时可利用第五章介绍的不放回不等概抽样的结果对总体总量进行推算。当然估计量的推算比较复杂。对总体总量Y的估计可以采用Horvitz-Thompson(赫魏兹-汤普森)估计。返回8.4 其他问题一、总样本量及最优样本量的配置 对于二阶抽样,应该抽多少二级单元,即确定n m为多少,一般可采用两种方法:1.根据调查费用,确定可以调查的样本量。2.根据简单随机抽样时应抽样本量,再乘以设计 效应deff获得。由于影响精度的主要原因是初级单元之间的差异,所以多抽一些初级单元,少抽一些二级单元较好。但往往初级单元的调查费用比二级单元要高。返回考虑费用函数为最简单的一种形式:式中,为与样本量无关的固定费用,如公司的办公费、场租费等;为每调查一个初级单元的费用;为每调查一个二级单元的费用。则 m 的最优值为:式中,实际使用时,m 应为整数,但计算出的 往往不是整数,令 为的 整数部分,则m的取值规则为:返回 求出m之后,根据总费用函数,就可以确定n,从而确定最优抽样比 和返回二、三阶及多阶抽样(一)各级单元大小相等的多阶段抽样 如果总体拥有N个初级单元,每个初级单元拥有M个二级单元,每个二级单元又拥有K个三级单元,各阶的样本量分别为 n,m,k,每个阶段都按简单随机抽样,则三级单元总体均值的估计为:其方差为:方差的无偏估计为:返回 由于方差的主要项为第一项,其次为第二项,第三项几乎可以忽略。所以对于更高阶的抽样,估计量的方差计算一般只计算到第二阶至第三阶就可以了。(二)各级单元大小不相等时的多阶段抽样(略)返回(三)多阶抽样的实例 某调查公司接受了一项关于全国城市成年居民人均奶制品消费支出及每天至少喝一杯鲜奶人数的比例情况的调查。确定抽样范围为全国地级及以上城市中的成年居民。成年居民指年满18周岁以上的居民。第一步:确定抽样方式。调查公司决定采用多阶段抽样方法进行方案设计,调查的最小单元为成年居民。确定调查的各个阶段为城市、街道、居委会、居民户,在居民中利用而维随机表抽取成年居民。第二步:确定样本量及各阶段样本量的分配。按简单随机抽样,在95%置信度下,绝对误差为5%取使方差达到最大的比例P=0.5,则全国样本量为:返回 根据以往调查经验,估计回答率为b=80%,因此调整样本量为:多阶段抽样的效率比简单随机抽样的效率低,这里取设计效率为deff=3.2,则在全国范围内应调查的样本量为:各阶段的样本量配置为:初级单元:20个城市;二级单元:80个街道,每个样本市内抽4个街道;返回三级单元:160个居委会,每个样本街道内抽2个居委会;四级单元:1600个居民户,每个样本居委会内抽10个居 民户。在样本居民户内,随机抽取一名成年 居民。第三步:确定抽样的操作方法。第一阶段 在全国城市中按与人口数成比例的放回的不等概抽样,即PPS抽样。第二、三阶段 分别按人口数成比例的不等概等距抽样。以第二阶段为例,在某个被抽中的城市中,将其所属的街道编号,搜集各街道的人口数,赋予每个街道与人口相同的代码数;根据该市总人口数除以样本量4,然后对代码进行随机起点的第距抽样,则被抽中代码所在的街道为样本街道。返回第四阶段 分别在每个居委会中,按等距抽样抽出10个居民户。即根据居委会拥有的居民户数除以样本量10得到抽样间距,然后随机起点等距抽样。在每个样本居民户,调查员按二维随机表抽取一名成年居民。二维随机表的使用如下:1.随机号的确定。2.选出被访者。返回序号姓名性别年龄1234567891011121肖明男531111111111112汪红女522112121212213肖晓波男233211322131234肖晓玲女2141322314324155412341235426631524351462771436252574388457126375319951438276528101035941728694111161510498327612127294116183105返回第四步:总体估计 记各样本城市的80位样本居民中,奶制品消费总支出为 ,则各样本城市人均奶制品消费支出为:返回 全国1600名居民组成的样本中,奶制品消费总支出为 则成年居民人均奶制品消费支出为:方差估计为:对总体比例的推算可以借用对均值的推算公式。记各样本城市的80位样本居民中,每天至少喝一杯鲜奶的人数为,则各样本城市每天至少喝一杯鲜奶的人数比例为:返回全国1600名居民组成的样本中,每天至少喝一杯鲜奶的总人数为 ,则成年居民中每天至少喝一杯鲜奶的人数的比例为:p的方差的估计为:式中,返回 本章小结本章小结(1)(1)对于大规模的抽样对于大规模的抽样调查项目调查项目,通常采用多通常采用多阶段抽样方法阶段抽样方法;(2)(2)多阶段抽样方法多阶段抽样方法可以可以看做对样本群内的单元进看做对样本群内的单元进行再抽样的一种方法行再抽样的一种方法;(3)(3)一般来说一般来说,多阶段抽样多阶段抽样的前几阶采用的前几阶采用PPS抽样抽样,最最后一阶采用等概率抽样后一阶采用等概率抽样.返回本章作业本章作业(1 1)熟悉本章附录的证明;)熟悉本章附录的证明;(2 2)思考书后习题)思考书后习题1,1,习题习题2 2;(3 3)在作业本上完成书后)在作业本上完成书后习题习题3-3-习题习题5 5。(第八章结束)返回演讲完毕,谢谢观看!
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 其他分类 > 文学论文


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!