资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第七章 不等概抽样,放回不等概率抽样,不放回不等概率抽样,利用软件进行抽样和计算,案例分析,1,第一节 不等概率抽样概述,一、不等概率抽样的必要性,1,、在,简单随机抽样,中,总体,(,或层,),中的每个单元入样的概率都相等。等概率抽样的特点是总体中的每个单元在该总体中的地位,(,或重要性,),相同,在抽样时对每个单元采取的是“不偏不倚”的态度 。等概率抽样不仅实施简单,而且相应的数据处理公式也简单。但是在许多实际问题中,我们还需要使用,不等概率抽样,(,sampling with unequal probabilities,),。,2,2,、抽样单元在总体中所占的地位不一致:例如:,要反映某小麦品种的优良情况,以村作为抽样单位,但各村的种植面积不同,一些种植面积大的村庄在抽样中是否被抽中对推断总体的结果有很大影响 ,所以让“大单元”被抽到的概率大,“小单元”被抽到的概率小,这样能够大大提高样本的代表性,减少抽样误差。,不等概率抽样概述,3,不等概率抽样的特点,2,、,不等概率抽样的主要,优点,是由于使用了辅助信息,提高了抽样策略的统计效率, 能显著地减少抽样误差。,1,、,凡需使用不等概率抽样的场合,必须提供总体单元的某种辅助信息。,例如:,每个单元的“大小”度量,M,i,。,注意:,比估计和回归估计是,估计方法用到了辅助信息,,本章是,抽样方法,用到辅助信息,.,4,不等概率抽样的特点,3,、抽样框的创建比简单随机抽样和系统抽样成本高,更复杂,因为需要存储总体中每一个单元的度量大小,;,4,、并非在任何情况下都能使用,因为并不是每一个总体都有稳定且与主要调查变量相关的有关大小或规模的度量,;,5,、抽样及估计(特别对不放回抽样)相当复杂,;,6,、,当单元大小度量不准确或不稳定时不适用,。,5,6,不等概率抽样的分类,放回不等概抽样,:,按照总体单元的规模大小来确定在每次抽中的概率。抽取后放回总体,再进行下一次抽样,每次抽样都是独立的。这种抽样称为放回不等概抽样,(,sampling with,p,robabilities,p,roportional to,s,izes,,简称,PPS,抽样,),不放回的不等概抽样,:,每次在总体中对每个单元按入样概率进行抽样,抽出的样本不再放回总体,因此,在抽取了第一个单元后,余下的单元再以什么概率被抽取就较复杂。,这种抽样不是独立的,,无论是抽样方法还是方差估计,都要比放回抽样繁复得多。不放回抽样通常称为,PS,抽样。,6,放回不等概抽样,PPS,抽样:有放回的不等概抽样,7,在,PPS,抽样中,赋予每个单元与,M,i,相等的代码数,将代码数累加得到,M,0,,每次抽样都,等概,产生一个,1,,,M,0,之间的随机数,设为,m,,代码,m,所对应的单元被抽中。,放回不等概率抽样实施方法,1.,代码法,8,累计,代码,1,0.6,6,6,16,2,14.5,145,151,7151,3,1.5,15,166,152166,4,13.7,137,303,167303,5,7.8,78,381,304381,6,15,150,531,382531,7,10,100,631,532631,8,3.6,36,667,632667,9,6,60,727,668727,10,1.1,11,738,728738,73.8,738,例,5.1,设某个总体有,10,个单元,相应的单元大小及其代码数如下表,在其中产生一个,n=3,的样本。,假设在,1,738,中,等概,产生第一个随机数为,354,,再在,1,738,中产生第二个随机数为,553,,最后在,1,738,中产生第三个随机数为,493,,则它们所对应的第,5,,,7,,,6,号单元被抽中。,M,i,*10,9,例:假设有,10,个乡,每个乡的村庄数不同,按,pps,抽,3,个乡,乡,村庄数,Mi,累计,代码,1,5,5,1,5,2,28,33,6,33,3,26,59,34,59,4,14,73,60,73,5,10,83,74,83,6,38,121,84,121,7,7,128,122,128,8,50,178,129,178,9,2,180,179,180,10,8,188,181,188,结合一下整群抽样、,多阶段抽样,10,2.,拉希里法,(,二次抽取法,),(统计学家,Lahiri,最先提出):,设,M,1, M,2,M,N,为单元的规模,放回不等概率抽样实施方法,11,拉希里法抽样举例:,例,5.1,中,,M=150,N=10.,在,1,10,1,150,中分别产生(,i,m,)如下,:,第一次,(3,121) , M,3,=15121,舍弃,重抽 ;,第二次(,8,,,50,),,M,8,=3677,第,7,号单元入样;,第四次(,5,,,127,),,M,5,=7877,第,4,号单元入样;,第六次,(9,60),M,9,=60,60,第,9,号单元入样;,因此第,4,,,7,,,9,号单元被抽中。,12,三、,Hansen-Hurwitz,(,汉森,-,郝维茨,)估计量及其性质:,因为是放回抽样,所以是独立样本,数理统计的结论可以在这里应用。,放回不等概率抽样对总体特征的估计,13,对上述结论加以说明:,独立同分布样本,y,1,y,2,y,n,抽中概率,z,1,z,2,z,n,新变量,t,y,1,/ z,1,y,2,/z,2,y,n,/z,n,14,汉森,-,赫维茨估计量估计给出总体总量的估计,如果对总体均值估计可按下公式:,15,例:,某县农业局要调查全县养猪专业户今年生猪的出栏头数,现有全县,365,个养猪专业户,去年的生猪存栏数,,各专业户的规模相差较大,决定以放回方式按与各养猪专业户上年末生猪存栏头数成比例的,PPS,抽样,从中抽取,30,户进行调查,结果如下,已知全县养猪专业户上年末生猪存栏头数为,9542,头,,试估计该县养猪专业户生猪今年出栏总头数和抽样标准误。,(摘自:“应用抽样技术”李金昌),16,其中第,2,、,19,号被抽中两次,17,解:根据题中所给资料,,n=30,M,0,=9542,利用汉森,-,郝维茨估计量,则有:,18,例,5.2,:,某部门要了解所属,8500,家生产企业当月完成的利润,该部门手头已有一份去年各企业完成产量的报告,将其汇总得到所属企业去年完成的产量为,3676,万吨。考虑到时间紧,准备采用抽样调查来推算当月完成的利润。根据经验,企业的产量和利润相关性比较强,且企业的特点是规模和管理水平差异比较大,通常大企业的管理水平较高些,因此采用与去年产量成比例的,PPS,抽样,从所属企业中抽出一个样本量为,30,的样本。,19,1*,38.23,10926,10,5.50,1900,19,1.50,10,2,13.70,1024,11,15.00,864,20,8.00,80,3,0.75,13,12,7.00,17,21,28.42,13672,4,2.85,30,13,15.00,1045,22*,9.01,3845,5,2.00,1102,14,12.30,220,23,0.75,480,6,5.00,600,15,3.86,4600,24,5.00,311,7,10.80,290,16,15.80,2370,25,28.43,9284,8,2.00,430,17,9.00,940,26,9.97,842,9,8.81,992,18*,21.00,640,27,5.20,510,20,773861.05,相对误差达到,20,时所需样本量:,解:,21,有放回不等概整群抽样,群规模不等的整群抽样中,可采用,等概和不等概,抽样;如果群规模,差异不大,,可采用,等概,抽样;如果群规模差异,较大,,各个群对总体的影响不同,此时采用,不等概,抽样。把群规模作为辅助信息,能提高估计精度,而且方差估计形式简单。但在抽样时要掌握辅助信息,比简单随机复杂。,假设群的抽取是按与,M,i,成比例的,pps,抽样,每次按,Z,i,=M,i,/M,0,(,i=1,2,,,N,)的概率抽取第,i,个群。,由汉森,-,赫维茨估计量,,pps,整群抽样总体总值估计量为,22,例,某企业欲估计上季度每位职工的平均病假天数。该企业共,8,个分厂,现用,不等概整群抽样,拟抽取,3,个分厂,并以置信度,95%,计算其置信区间。,分厂编号 职工人数,M,i,累积区间,1,2,3,4,5,6,7,8,1200,450,2100,860,2840,1910,390,3200,1,1200,1201,1650,1651,3750,3751,4610,4611,7450,7451,9360,9361,9750,9751,12950,23,有放回不等概整群抽样,解:,n,3,,采用,PPS,抽样,随机抽取的,3,个数为,02011,,,07972,,,10281,。调查结果如下:,24,有放回不等概整群抽样,注:,1,、,对于群规模不等的整群抽样,采用不等概,PPS,抽样,可以得到总体目标量的无偏估计,,2,、,估计量和估计量的方差都有比较简明的形式,估计的效率也比较高,是值得优先考虑采用的方法,,3,、,使用条件:在抽取样本前,要掌握各群规模的信息。,25,多阶段有放回不等概抽样,当初级单元规模不等时,常采用不等概抽样。对初级单元进行,PPS,抽样时,事先规定每个初级单元被抽中的概率,Z,i,=M,i,/M,0,(i=1N),可利用代码法,,对抽中的,初级,单元再,抽取,m,i,个二级单元;,如果对第二阶段实行简单随机抽样,且抽相同的样本数(,第一阶段抽出来的一般是单元的规模较大,而且彼此差别不大,),此时估计形式较简单,且是自加权的。,这是实际中经常采用的多阶段不等概抽样法。,26,多阶段有放回不等概抽样,实际工作中,如果初级单元大小不等,,人们喜欢:,1,、,第一阶段抽样时按放回的与二级单元成比例的,PPS,抽样;,2,、,第二阶抽样进行简单随机抽样,且抽的样本量相同,这样得到的样本是自加权的,估计量的形式也非常简单。,27,例:,某县农村共有,14,个乡,509,个村,在实现小康的进程中,欲计算该县农村的恩格尔系数,,即居民户的食品支出占总支出的比例。首先要调查全县的食品总支出,现采用了二阶段抽样,第一阶段先在,14,个乡中,按村的数目多少进行,PPS,抽样,共抽了,5,个乡,第二阶段在抽中的乡中随机地抽选,6,个村,然后对抽中的村做全面调查,取得的数据如下,,估计全县的食品支出总额及其标准误。,样本乡序号,村数,样本村数,样本村平均食品支出(万元),1,19,6,48,2,41,6,175,3,72,6,108,4,54,6,90,5,36,6,100,多阶段有放回不等概抽样例题分析,28,多阶段有放回不等概抽样例题分析,误差有点偏大,要想提高估计精度,必须 增加第一阶段的样本量,29,例;某小区有,10,座高层建筑,每座高层建筑 拥有的楼层数如下表,,高层建筑,A,B,C,D,E,F,G,H,I,J,楼层,12,12,16,15,10,16,10,18,16,20,用二阶段抽样方法抽出,10,个搂层进行调查,第一阶段,PPS,抽出,5,座建筑,,第二阶段按简单随机抽样对每座建筑抽取,两个,楼层,具体数据如下表所示,对小区总居民进行估计,并给出估计的误差。,初级样本序号,1,2,3,4,5,居民数,18,,,12,15,,,18,19,,,13,16,,,10,16,,,11,多阶段有放回不等概抽样例题分析,30,解:已知,n=5,m=2,M,0,=145,31,这时,多阶抽样的总样本量可以这样确定:,1.,根据简单随机抽样时应抽样本量,2.,再乘以设计效应,deff,获得。,多阶抽样与简单随机抽样相比其效率比较低,,deff,应该大于,1,。实际工作中,可取,deff,的经验数据。不同项,目的,deff,不同。,下面是一案例分析,多阶有放回不等概抽样,32,例,:,某调查公司接受了一项关于,全国城市成年居民,人均奶制品每天至少喝一杯奶的人数的比例情况的调查。确定抽样范围为全国地级及以上城市中的成年居民。成年居民指年满,18,周岁以上的居民。,第一步:确定抽样方法。,调查公司决定采用多阶抽样方法进行方案设计,调查的最小单元为成年居民。确定调查的各个阶段为城市、街道、居委会、居民户,在居民户中利用 简单随机法抽取成年居民。,第二步:确定样本量及各阶样本量的配置。,按简单随机抽样时,在,95,置信度下,绝对误差为,5,,取使方差达到最大时的消费奶制品的居民比例为,50,,则全国样本量应为:,33,根据以往调查的经验,估计回答率,b=80,,因此调整样,本量为:,多阶抽样的效率比简单随机抽样的效率低,这里取设计,效应,deff=3.2,,则在全国范围内应调查的样本居民为:,各阶的样本量配置为:,初级单元:,20,个样本城市;,二级单元:,每个样本市内抽,4,个街道,共,80,个街道;,三级单元:,每个样本街道内抽,2,个居委会,共,160,个居委会;,四级单元:,每个样本居委会内抽,10,个居民户,,1600,个居民户。,在样本居民户内,利用随机表抽,1,名成年居民。,34,第三步:确定抽样方法。,第,1,阶,,在全国城市中按与人口数成比例的放回的不等,概抽样,即,PPS,抽样,(probability propotional to size),。,第,2,阶和第,3,阶分别按与人口数成比例的不等概等距抽,样。,以第,2,阶为例,,在某个被抽中的样本城市中,将其所属,的街道编号,搜集各街道的人口数,赋予每个街道与其人口,相同的代码数,;,根据该市总人口数除以样本量,4,,确定抽样间,距;然后对代码进行随机起点的等距抽样,则被抽中代码所,在的街道为样本街道。,第,4,阶,分别在每个样本居委会中,按等距抽样抽出,10,个,民户。,即根据居委会拥有的居民户数除以样本量,10,得到抽样距,,然后随机起点等距抽样。,在每个样本居民户中,调查员按 随机表抽取,1,名成年居民,35,第四步:推算方法。,记各样本城市的,80,位样本居民中,每天至少喝一杯奶的人数为,a,i,,全国,1600,名居民组成的样本中,每天至少喝一杯鲜奶的人数为,样本是自加权的,故成年居民每天至少喝一杯鲜奶所占比例为,:,的方差的估计为,:,其中,p,i,是各样本城市每天至少喝一杯鲜奶的人数所占比例,:,36,2,不放回的不等概率抽样,1,、有放回不等概率抽样,无论从实施上还是从估计计算以及精度估计都显得十分方便。但是,一个单元被抽中两次以上总会使样本的代表性打折扣,从而引起抽样误差的增加。,2,、不放回不等概率抽样,是指在抽样的过程中被抽到的单元不能再被抽中,这种抽样要求 总体中第,i,个单元的,入样概率为,i,,这就是所谓的 抽样。,3,、,因为在抽取了第一个单元后,余下的,( N-1 ),个单元以什么样的概率参与第二次抽样就很复杂;再在抽第三个样本时又面临新问题,如此下去,,一是抽样实施的复杂,二是估计量及其方差计算的复杂,。,因此,在本节仅讨论,n,固定,尤其是,n=2,时的情形,。,37,不放回不等概率抽样,一、,PS,抽样与包含概率,包含概率:,在不放回抽样中,每个单元被包含到样本的概率也即入样概率,i,及任意两个单元都被包含到样本中的概率,ij,38,特别的,如果每个单元入样概率与单元大小成比例的概率抽样,称这种情形为严格的 抽样,实施起来复杂, 也不易求得,方差的估算很困难,只有在,n=2,时有简单的算法;当,n,2,时可以通过分层,每层中进行严格的,n=2,抽样,39,不放回不等概率抽样,2,、,Horvitz,Thompson,(霍维茨,汤普森)估计量,H,T,估计量与,H,H,估计量是 极其相似的。因为 ,,它们在形式上似乎完全一样,但是,H,H,估计量中的,y,i,可以互相重复,,而,H,T,中的,y,i,却是绝对地互不相同。,40,当,n,固定时,,H,T,估计量的方差为:,例,5.3,假设有,5,个居委会,每个居委会的住户数,X,已知但常住居民未知,我们从,5,个居委会抽出,2,个来估计常住居民的总人数。如下表:,41,10,种不同的样本分别利用,霍维茨,汤普森估计量和简单随机抽样简单估计,计算对总量的估计如下表:,42,1,、从均值上来看,它们都是无偏估计,均值都是,2520.,2,、,为比较估计量的优劣,需计算估计量的方差,,这用到每个样本被抽出的概率。,3,、不放回不等概率样本,每个样本被抽出的概率计算很复杂。,不过从直观上来看,例子用,霍维茨,汤普森估计量比,简单随机抽样,简单估计要精确,结果分析:,43,(,1,),Brewer,(布鲁尔)方法(,1963,),假设对所有 ,均有 ,现抽取,两个,单元,,最通常的,方法是逐个选取。,几种严格的不放回不等概抽样,44,其中,第一次第,i,个单元被抽中的概率为:,取出第一个不放回,假设第一次抽取了第,i,个单元,第二次单元,j,被抽中的概率为:,45,这种抽样方法可以保证每个单元入样概率为:,而,其中,46,对总值和方差的估计如下:,采用霍维茨,汤普森估计量,47,例,5.4,对于例,5.3,,如果抽样是按布鲁尔法的,则其所有可能样本的 如下表:,48,Brewer,抽样方法举例:,乡,种植面积(千亩),总产量(单位:千公斤),1,10,100,2,20,220,3,30,285,4,40,360,合计,100,965,例:某县有四个乡,粮食总产量和种植面积如下表:,用布鲁尔方法抽取两个乡作样本估计本县的总产量,验证抽选结果符合,PS,的要求,并计算估计量方差。,49,Brewer,法第一个单元的被抽中概率,本题计算过程:,50,Brewer,法,2,个单元的抽选办法:,51,第二次抽中第,j,个单元(第一次抽中第,i,个单元)的概率为,第一次抽中第,i,个单元,第二次抽中第,j,个单元的联合概率为,假定第一次抽中第,1,个单元,第二次抽中第,2,个单元,,其联合概率为:,52,第一次抽中第,1,个单元,第二次抽中第,4,个单元的联合概率为,第一次抽中第,1,个单元,第二次抽中第,3,个单元的联合概率为,第一次抽中第,2,个单元,第二次抽中第,1,个单元的联合概率为,第一次抽中第,2,个单元,第二次抽中第,3,个单元的联合概率为,53,依次可得各种可能被抽中的概率如下表,单元,第二次抽中,1 2 3 4,合计,1,2,3,4,第一次抽中,0,0.01188,0.01782,0.02376,0.05364,0.01564,0,0.04753,0.06338,0.12675,0.03564,0.07129,0,0.14257,0.24950,0.09506,0.19009,0.28515,0,0.57030,合计,0.14654,0.27326,0.3505,0.22971,1,54,1,0.05346,0.14654,0.2,2Z,1,同理可验证,2,0.12675,0.27326,0.4,2Z,2,3,0.2495,0.3505,0.6,2Z3,4,0.5703,0.22971,0.8,2Z,4,所以抽选结果符合,ps,要求,55,56,说明:,本题是总体信息已知,对书中的结果做了验证。,我们在实际工作中只抽到了一个,PS,样本,比如说,抽到了第,3,、,4,个单元,,只用计算,p,34,p,43,算出,34,,其余不用计算。,然后代入公式进行计算即可,57,(,2,),Durbin,(德宾)方法(,1967,),的概率抽取第二个样本。此时,以概率 在总体中进行一次不等概率抽样,,设第 个单元以概率 入样,在剩余的,N,1,个单元中,以,正比于,于是可以计算出,(7.19),(7.18),58,Durbin,方法中的 与,Brewer,方法中的 完全一样,这表明两种不等概率抽样方法其实是等价的。,(7.20),59,总体差异不要太大,逐个抽取:,关键:第一个单元与 成比例的概率抽取,剩余的,N-1,个单位不放回等概抽取,n 2,条件下严格的,PS,抽样,水野方法,60,非严格的,ps,抽样,在实际工作中,有时采用非严格的,ps,抽样:,耶茨,-,格伦迪逐个抽取法:,包含概率与单元大小并非严格成比例,即下式不严格成立,操作简单,想法自然较常用,以概率,z,i,抽取第一个样本单元,不妨记为第一个;以概率,z,i,/,(,1-z,1,),在剩下的,N-1,个单元中抽第二个,不妨记抽中的为第二个;再以概率,z,i,/,(,1-z,1,-z,2,),在剩下的,N-2,个单元中抽取第三个,以此类推,直到抽出,n,个单元。,i,与单元大小并非严格成比例。,61,耶茨,-,格伦迪方法的入样概率不容易计算,因而不能用,霍维茨,汤普森估计量,采用,Raj,估计量,62,例:,总体,N=10,个单元组成,,M,0,=30,,要在总体中按不等概逐个抽取法抽出个样本单元,调查后请对总体进行推算:,63,1.,如果在,1,30,范围里产生随机数,则代码所在的号单元被抽中;,2.,如果在,1,26,范围里产生的随机数是,则则代码所在的号单元被抽中;,3.,如果在,1,24,范围里产生的随机数是, 则代码所在的号单元被抽中;,如果调查知:,y,4,=150, y,8,=100,y,3,=200,,,具体抽样过程:,64,放回不等概率抽样(,PPS,)(,重点掌握,),不放回不等概率抽样(,PS,),利用软件进行抽样和计算,本章小结:,65,
展开阅读全文