资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,Statistics,第六章 不等概率抽样,本章要点,前面各章介绍的抽样方法都是等概率抽样,本章则对不等概率抽样方法进行介绍,具体要求:,熟练掌握不等概率抽样的概念和分类,了解不等概率抽样的应用意义;,了解放回与不放回不等概率抽样的各种估计量构造及其方差估计;,能够在实际抽样中运用不等概率方法,尤其是,PPS,等常用的方法。,2,第一节,问题的提出,3,简单随机抽样,总体中的每一个单位都有相等,的入样概率,所以属于等概率抽样,在分层随机抽,样中,如果各层的样本单位也是按简单随机抽样抽,取,那么层内也是等概率抽样。等概率抽样的基本,出发点是将总体中的每一个单位看成是平等的。如,果所研究的指标在各个总体单位之间差异不大,简,单随机抽样是简便有效的;如果所研究的指标在各,个总体单位之间的差异较大,简单随机抽样的效果,并不一定好。,一、不等概率抽样的必要性,4,如果这些为数不多,但指标值在总体总值中占较,大份额的大、特大城市,大、特大商场,大型农场,,万吨巨轮,大额账单,在调查中与为数众多,但指标,值在总体总值中只占微小份额的中小城市、中小商场、,中小农场、小船舶、小额账单一样对待,仍然采取等,概率抽样,显然是不合理的。这些调查指标值占较大,份额的大单位理应在调查中具有较重要的地位,给予,较多的关注,而那些调查指标值占较小份额的中,小单位则处于次要的地位,给予较少的关注。,5,二、不等概率抽样的主要分类,(一)放回不等概率抽样,(二)不放回不等概率抽样,6,(一)放回不等概率抽样,所谓放回不等概率抽样是指,在抽样之前就给总体中每个,单位赋予一个确定的抽取概率,在放回抽样的每一次抽取中,,每个单位被抽中的概率都不变,直到抽够 个样本单位为止。,对于放回不等概率抽样,由于每次抽取总体的分布都不变,所,以各,次,抽取是相互独立的,因此,无论抽样的实施,还是目标,量的估计及其方差的估计,都特别简单,这是这种抽样方法的,最大优点,从某种意义上讲,抽样调查中的放回抽样主要应用,于不等概率抽样这种特殊的形式;然而由于这种抽样方式是有,放回抽样,而且是不等概率抽样,因此赋予较大抽取概率的单,位不仅入样的机会大,而且被重复抽中的机会也大,这样就会,造成信息的重复浪费,降低抽样的精度和效率。放回不等概率,抽样方法中,最重要也是最常用的是总体中每个单位每次被抽,到的概率与单位的规模大小成比例的抽样。,7,(二)不放回不等概率抽样,不放回不等概率抽样是指,在抽样之前就给总体,中每一个单位赋予一个确定的入样概率,并对每一次,抽取的概率进行精心的设计,以保证在,n,次不放回抽样,中总体中的每一个单位被抽取的概率之和等于预先赋,予的入样概率。由于每次抽取采用不放回的形式,样,本中不会出现重复的单位,抽样效率比放回形式的高,,但同时也由于各次抽取相互不独立,所以无论抽样的,实施还是目标量及其方差的估计都比放回形式复杂。,不放回不等概率抽样方法中,最重要最常用的是样本,量固定,总体中每个单位的入样概率与单位的规模大,小严格成比例的抽样。,8,第二节,放回不等概率抽样,9,一、多项抽样与,PPS,抽样,设总体包含 个单位,在放回抽样的每一次抽取,中,抽到第 个单位的概率为 且,,按此规定有放回地独立抽取 次,共抽到,个单位(有可能重复),称这样的抽样为多项抽样。,10,在现实中,总体单位规模 大小往往可以是以低成本得,到的单位的粗略度量,或是研究变量的目测值,他们不仅容易,获得而且与研究变量往往有很高的相关性,这些优点可以极大,地提高抽样估计的精度,所以在抽样实践中,与单位规模大小,成比例的概率抽样受到青睐。记这种度量单位规模大小的指标,为 ,并记 ,则可取:,这时,每个单位在每次抽样中入样的概率与其单位的规模,大小成比例,称这种特殊的多项抽样为放回的与单位规模大小,成比例的概率抽样(,sampling with probability proportional to,size,),,简称 抽样。,11,二、实施方法,多项抽样是最简单的不等概率抽样,其实,施方法通常有两种,:,(一)代码法,(二)希里(,lahiri,),法,12,(一)代码法,在 抽样中,赋予每个单位与相应 相等的代码数,将代码数累加得到 ,每次抽取都产生一个,之间的随机数,设为,,,若代码 属于第 个单位拥有的代码数,则第个 单位入样。重复 次这样的过程,就可得到由 个单位(存在重复的可能)组成的 样本。如果在实际中存在 不是整数的情况,则可以乘以一个倍数,使所有的 都成为整数。对于一般的多项抽样,总可以找到某个 ,使所有的 成为整数。每个单位赋予与相应 相等的代码数,然后进行抽样。,13,(二)希里(,lahiri,),法,令 ,即 为所有 中的最大值,每,次从,1,,,范围内抽取一个随机整数 ,从,1,,,范围内抽取一个随机整数,m,,,若 ,则第 个单位入样;若 ,则按前面的步骤重抽( , )。,14,三、汉森赫维茨估计量,设 是按 抽样得到的样本观测值,与它们相对应 的值和 的取值也自然地记为小写的 和 。对于总体总值 ,汉森(,Hansen,),赫维茨(,Hurwitz,),给出如下估计量:,(,6.4,),15,对于 这种特殊形式的不等概率抽样, 的,直观意义是明显的。由于 ,代入(,6.4,)式,,有,16,汉森赫维茨估计量 具有如下性质:它是总,体总值 的无偏估计,即有,其方差为,若 ,则,是 的无偏估计。,17,【例6.2】某县农业局要调查全县养猪专业户全年牲猪的出栏头数,并有全县365个养猪专业户上年末的牲猪存栏头数,各养猪专业户的饲养规模相差较大,决定以放回方式按与各养猪专业户上年末牲猪存栏头数成正比的概率从中抽取30户进行调查,调查结果见下表,已知全县养猪专业户上年末牲猪存栏头数为9542头,试估计该县养猪专业户牲猪年出栏总头数和估计量抽样标准误差。,18,1,2,3,4,5,6,7,8,9,10,15,23,9,29,8,31,24,29,13,19,75,134,37,152,45,185,133,173,74,87,11,12,13,14,15,16,17,18,19,20,40,32,17,26,11,36,25,5,38,42,258,186,69,156,49,221,145,33,288,304,21,22,23,24,25,26,27,28,29,30,19,26,37,21,7,43,18,30,124,160,215,104,49,336,96,177,注: 表示养猪专业户样本编号, 表示各专业户牲猪上年末存栏头数, 表示各专业户调查年牲猪出栏头数;其中第2、第19编号的专业户被抽中两次。,某县养猪专业户年牲猪出栏头数调查样本资料,19,解:据题中所给资料 , ,,(头),20,第三节,不放回不等概率抽样,21,一、包含概率与 抽样,在不放回不等概率抽样中,不仅总体中每,个单位被包含到样本的概率,即入样概率,起着关键的作用,而且总体中任意,两个单位被包含到样本中的概率 ,,即两个单位同时入样的概率也起着重要的作用,,它们必须是已知的或者说是可以求得的,我们,把前者称为一阶包含概率,后者称为二阶包含,概率。,22,如果抽样设计有固定的样本量,则包含概率,有如下性质,:,1、,2、,3、,23,如果我们事先对总体中的每一个单位都有一个度量其规模大小的指标值 ,记,对于固定的样本量 ,若总体中每个单位的入样概率即一阶包含概率与其规模大小 严格成比例,即若有,成立,我们称这种不放回的与单位规模大小成比例的概率抽样为严格的 抽样。,24,二、霍维茨,汤普森估计量和耶茨,格伦 迪,森估计量,(,一,),霍维茨,汤普森估计量,对于不放回不等概率抽样,霍维茨(,Horvitz,),和汤普森(,Thompson,),(1952),提出如下关于总体总值 的估计量:,25,霍维茨,汤普森估计量有如下性质:,1,、若 则 是 的无偏估计量,且它的方差为,2,、若 ,则,是 的无偏估计。,26,(二)耶茨,格伦迪,森估计量,如果 固定, 估计量的方差可以写成下,面的形式:,若 ,则,也是 的无偏估计。(,6.22,)是由耶茨(,Yates,),格伦迪,(,Grundy),森,(,Sen,)(1953),提出来的。,(6.22),27,需要注意的是,只有当,成立,才能保证,估 计量取非负值;而且相比较来说,,当 固定时,估计量 比估计量,要稳定一些。,28,三、严格 抽样的实施方法,(一),=2,的情形,1,、布鲁尔(,Brewer),方法(,1963,),2,、德宾,(,Durbin),方法(,1967,),29,1,、布鲁尔(,Brewer,),方法,该方法要求对总体中的每一个 ,都满足 ,,即总体(或层)中的最大单位必须小于全部单位大小,总和的,1/2,,否则可将此特大单位作为必调查的单位处,理。两个样本单位的抽取方法是:第一个单位按与,成比例的概率抽取,记第一个被抽出的单位,为 ;第二个单位按与 成比例的概率在剩下的,个单位中抽取。,30,布鲁尔方法的包含概率为:,31,2,、德宾,(,Durbin),方法,两个样本单位仍然用逐个抽取法抽取。第一个样本单位以 概率抽取,设入样的单位是 ,第二个样本单位在余下的 个单位中,以正比于 的概率抽取。令,32,于是可以计算 和 :,33,(,二,) 2,的情形,1,、水野方法,2,、布鲁尔方法,3,、拉奥,桑福特方法,34,1,、水野方法,水野法也是一种逐个抽取方法,关键是第,一个样本单位的设置和抽取,它以概率,抽取第一个样本单位;第一个单位抽取之,后,在余下 的单位中,再采用无放回等概,率的方法抽取剩下 个单位。这种方法要求,总体中的单位大小差异不能太大,如果相差过,大,可以通过适当的分层加以解决。,35,总体中,只要对每个 ,有,就可保证这种方法是严格的 抽样。,对于水野方法,它的一阶和二阶包含概率,分别为:,36,2,、布鲁尔方法,它依然采取逐个抽取方式,是 布鲁尔,方法在 情形下的推广。令所有的 ,,设定第一个样本单位以与,成比例的概率抽取。余下的 单位按与,成比例的概率从当时尚未入样的单位中每次抽取一个,,。这种方法也是严格的 抽样,37,3,、拉奥,桑福特方法,这种方法是,设所有的 ,先以概率,在总体中进行一次不等概率抽样,,抽出第一个样本单位,然后以与,成比例的概率有放回地抽取余下的 个单位。,一旦有单位被重复抽中,则放弃所有已抽到的单,位进行重抽,直到抽中的 个单位不相同为止。,38,四、非严格的 抽样的实施方法,非严格的 抽样,具体说就是指:样本量 可以不固定,允许为随机变量;可以不是严格不放回的;允许一阶包含概率 与总体单位的规模大小近似成比例。,(,一,),耶茨,格伦迪方法,(,二,),拉奥,哈特利,柯克伦方法(,1962,),(,三,),泊松(,Poisson,),抽样,39,(,一,),耶茨,格伦迪方法,耶茨,格伦迪方法是逐个抽取法,这种方法能保证每次都以未入样的单位的规模大小成比例的概率抽取,即第一个样本单位按 的概率抽取,设第 个单位入样;第二个样本单位按 的概率在余下的,个单位中抽取,设第 个单位入样;第三个样本单位按 的概率在剩下的 个单位中抽取;以此类推,直到抽够 个单位为止。,40,设 为按抽中顺序排列的样本单位的指,标值,相应的 值为 ,令,则拉奇估计量为:,它是总体总值 的无偏估计量。,41,其方差 的无偏估计量为,42,(,二,),拉奥,哈特利,柯克伦方法,拉奥,哈特利,柯克伦方法又称为随机组,抽选法。,抽取一个样本量为 的样本,总体 被随机地分成 个两两不相交的子组 即是 用不放回简单随机抽样方法从中 抽取, 是用不放回简单随机抽样方法从 中抽取,以此类推。各组中的单位数 可以事先选定,而且最好等于 或 ,其中 为 的整数部分, 为总体单位总数。,43,设 为第 个组的相对规模大小的总的度量,,则该组中的第 个单位被抽中的概率为 。,每个组只抽一个样本单位。记第 个组抽得的,单位指标值为 ,相应的 值为 。拉奥、,哈特利和柯克伦,(1962年),在戴伦纽斯(,1953,年),的基础上作了推广,给出总体总值的估,计量及其方差和方差估计量。,44,估计量:,是总体总值 的无偏估计量,其中 为第,组的总值 的无偏估计。,估计量 的方差为:,它的无偏估计为:,45,(,三,),泊松(,Poisson,),抽样,泊松抽样是一种事先不能确定样本量,但,是能满足 要求的严格不放回,抽样方法。泊松抽样设计的实施方法是,对总,体中的每一个单位赋予一个入样概率 ,即设,定一个常数 ,有,且有 ,若 ,则取 。,, 为总体第 个单位大小的度量,。,46,令 为从均匀分布,0,1,抽取的独立,随机数,如果 ,则总体的第 个单位入样,,否则,不入样。,泊松抽样的总体总值 的一个无偏估计为,47,的方差为,它的一个无偏估计为,在泊松抽样中,样本量 是随机变量,其均值为,其方差为,48,泊松抽样每次的样本量 事先不能确定,极端的情,形是可能总体中没有一个单位被抽中,也可能所有的,单位都被抽中,这种由于样本量的不确定会增大估计,量的方差。一个可替代的估计量为,其中,其近似方差为,49,0.223,9,0.251,4,0.154,8,0.057,3,0.048,7,0.102,2,0.067,6,0.098,1,编号为奇数的习题答案,6.1,假设对某个总体,事先给定每个单位的与规模成比例的比值 ,如下表,试用代码法抽出一个,n=3,的 样本。,表,1,总体单位规模比值,50,6.1,解:令,则可以得到下表,从,11000,中产生,n=3,个随机数,设为,108,597,754,,则第二、第六和第七个单位入样。,累计,代码,1,2,3,4,5,6,7,8,98,102,57,251,67,48,154,223,98,200,257,508,575,623,777,1 000,198,99200,201257,258508,509575,576623,627777,7781 000,51,281,954,1 085,1 629,215,798,920,1 834,5,6,7,8,1 353,639,650,608,1 238,746,512,594,1,2,3,4,子公司序号,子公司,序号,6.3,欲估计某大型企业年度总利润,已知该企业有,8,个子公司,下表是各子公司上年利润,和当年利润 的数据,以 作为单位大小 的度量,对子公司进行 抽样,设,n=3,试与简单随机抽样作精度比较。,表2,某企业各子公司上年与当年利润(单位:万元),52,对子公司进行抽样,根据教材(,6.7,)式:,53,显然对 抽样,估计量的精度有显著的提高,。,如果对子公司进行简单随机抽样,同样样本量时 的简单估计方差为:,抽样的设计效应是:,54,6.5,设总体,N=3, ,,采取的,n=2,的 抽样,求 。,解:(1)所有可能样本为:(10,8),(10,5),(8,10),(8,5),(5,10),(5,8),其概率分别为:,55,所以:,56,
展开阅读全文