资源描述
調查分析預測調查分析預測MRAF第第10章章 抽样估计与样本量确定抽样估计与样本量确定 1調查分析預測調查分析預測MRAF开篇案例开篇案例“百脑汇”调研中的样本计划问题“百脑汇”在中国华北几个省市经营连锁电脑超市,它希望获得更多关于其现有客户特点方面的信息。接受调研委托的李文博士指派班上的王洪同学为样本计划小组的负责人。通过与“百脑汇”的市场部经理乔兰的初次会谈,王洪了解到调研的一个主要目的是分别按人口和心理因素来估计“百脑汇”的客户构成和比例。此外,确认总体估计值不超过实际值的50,可靠度为95。为了达到这些要求,王洪和他的小组正努力寻找计算所需样本容量的方法。2調查分析預測調查分析預測MRAF101 引言估计估计就是根据从样本中收集的信息对总体未知量进行推断的过程。抽样估计涉及的重要问题:一个样本单元的设计权数设计权数设计权数设计权数问题。抽样估计抽样估计抽样估计抽样估计,包括总体总量、均值和比例以及抽样误差的估计。样本量的确定样本量的确定样本量的确定样本量的确定构成抽样设计程序的重要步骤和内容。同时,样本量的确定与样本估计值的精度密不可分。3調查分析預測調查分析預測MRAF102 加权及权数调整 设计权数设计权数设计权数设计权数设计权数是指每个样本单元所代表的调查总体的单元数,它是由抽样设计所决定的,通常以wd表示。确定设计权数是估计的第一步。加权估计加权估计加权估计加权估计设计权数其实就是样本单元的入样概率的倒数。假如入样概率是1/10,那么每个入选样本代表总体中的10个单元,此时设计权数即为10。不同样本单元的设计权数可能不同,这取决于抽样设计。因此,加权估计应区分等概率抽样的加权和不等概率抽样的加权。4調查分析預測調查分析預測MRAF等概率抽样的加权 当每个单元都有相同的入样概率时,所有样本单元的设计权数都相同,这种抽样就是自自自自加权设计加权设计加权设计加权设计。SRS抽样和SYS抽样都属于自加权设计,比例分层抽样也是自加权设计。另外,PPS等也可以设计为一个自加权抽样。对于自加权抽样设计,如果无需对权数调整,则在计算比例、均值等估计量时可将其忽略,对总值估计也仅需将样本总值乘上某个倍数。5調查分析預測調查分析預測MRAF不等概率抽样的加权 自加权设计并不总是可行的。如,在使用分层抽样进行一个全国调查时,可能需要采用纽曼分层。当所采用的抽样设计不是等概率时,正确地使用设计权数就显得尤为重要。例例101022 有关各层总体数和样本数资料见表10-1。对于这项调查,被调查者的设计权数是多少呢?收入层次各层单位数样本数量设计权数高收入层200033.3wd,1N1/n1=2000/33.3=60.1 中收入层12000133.3wd,2N2/n2=12000/133.3=90.0 低收入层600033.3wd,3N3/n3=6000/33.3=180.2 6調查分析預測調查分析預測MRAF设计权数的调整 上述等概率抽样的加权和不等概率抽样的加权都是加权的基本形式。权数估计常会遇到更真实和复杂的情况:考虑无回答的情况,然后对权数做出调整;考虑来自其他渠道的、更具权威性的某些辅助信息,将它们合并到权数中。7調查分析預測調查分析預測MRAF对无回答的权数调整对无回答的权数调整 单元无回答单元无回答单元无回答单元无回答是指一个样本单元几乎所有的数据都缺失。简单的处理办法是忽略它。然而,如果发现忽略单元无回答是不适当的,则应该对权数进行调整。即,设计权数无回答调整因子=无回答的调整权数 无回答调整因子无回答调整因子无回答调整因子无回答调整因子是原样本单元的权数和与给出回答的单元的权数和的比值。对于自加权设计,该比值可用原样本的单元数与给出回答的单元数的比值来表示。无回答权数调整应区分两种不同情况:等概率抽样不等概率抽样8調查分析預測調查分析預測MRAF对无回答的权数调整对无回答的权数调整(SRS)例例101033 从一个N=100人的总体中抽取一个n25人的简单随机样本。记回答单元的数量为nr,结果显示只有20个人提供了所需的信息。那么,此时无回答的调整权数是多少?步骤步骤1:计算设计权数。:计算设计权数。入样概率p为:P=n/N=25/100=1/4 故,每个样本单元的设计权数为4。步骤步骤2:计算无回答调整因子。:计算无回答调整因子。由于在n25人中只有nr=20人提供了所需的信息,最终样本量应为20。假定回答单元不仅能代表回答单元且能代表无回答单元,计算无回答调整因子为:n/nr=25/20=1.25步骤步骤3:计算无回答的调整权数。:计算无回答的调整权数。无回答的调整权数wnr等于设计权数与无回答调整因子的乘积:9調查分析預測調查分析預測MRAF对无回答的权数调整对无回答的权数调整(STR)例例10104 4 对于一项公共交通系统调查,总体由1100人组成,并按城乡分为两个层。分层及样本数据如表10-2所示。那么,回答者的权数是多少?表10-2 公交系统调查的分层数据层总体大小样本量回答者数量城市N11000n1200nr,1150农村N2100n250nr,240步骤步骤1:各层的设计权数为:各层的设计权数为:城市层城市层 wd,1N1/n1=5 农村层农村层 wd,2N2/n2=2步骤步骤2:调整以弥补无回答。各层的无回答调整因子计算如下:调整以弥补无回答。各层的无回答调整因子计算如下:城市层城市层:n1/nr,1=200/150=1.33 农村层农村层:n2/nr,2=50/40=1.25步骤步骤3:无回答的调整权数等于设计权数与无回答调整因子的乘积:无回答的调整权数等于设计权数与无回答调整因子的乘积:城市层城市层:农村层农村层:10調查分析預測調查分析預測MRAF使用辅助信息调整权数使用辅助信息调整权数 为什么要使用辅助信息来调整权数呢?首先,使调查的估计值与已知总体总值相匹配。例如,使用最新的人口普查数据来调整估计值,以确保这些估计值(如年龄、性别分布等)的一致性。二是为了提高估计值的精度。将辅助信息与抽样设计相结合,将有助于提高估计的精度。要想在调查设计阶段使用辅助信息,抽样框中的所有单元都必须具备这个辅助信息。否则,就只能在数据收集上来后,在估计阶段利用辅助信息提高估计值的精度。11調查分析預測調查分析預測MRAF使用辅助信息调整权数使用辅助信息调整权数 例例101055 为得到某公司职员是否有吸烟习惯的信息,进行了一项调查。从N=780人的名录中抽出了一个n=100人的简单随机样本。在收集有关吸烟习惯信息时,收集了每个回答者的年龄和性别情况,且100人都做出了回答,由此得到样本数据的分布如表10-3所示:事后分层估计值 男性 女性 总计 吸烟人数 164 47 211 总人数 360 420 780 吸烟者比例 0.455 0.111 0.271回答者数量男性女性总计吸烟人数25530总人数5545100(nr)调查的估计值男性女性总计吸烟人数19539234总人数429351780吸烟者的比例0.4550.1110.30表10-5 利用辅助信息对抽样调查估计值的调整 表10-3 某公司吸烟习惯抽样调查数据表10-4 根据某公司吸烟习惯抽样计算的估计值12調查分析預測調查分析預測MRAF103 抽样分布与抽样误差抽样分布与抽样误差 抽样调查的目的是要对总体做出推断。了解统计推断的理论基础,首先注意区分三种不同性质的分布:总体分布样本分布抽样分布 同时,特别注意总体分布与抽样分布的关系。13調查分析預測調查分析預測MRAF三种不同性质的分布 总体分布总体分布总体分布总体分布:总体各单位的观察值所形成的频数分布,总体分布通常是未知的。样本分布样本分布样本分布样本分布:一个样本中各个观察值所形成的频数分布就叫做。当样本容量n逐渐增大时,样本分布逐渐接近总体的分布。抽样分布抽样分布抽样分布抽样分布:样本统计量的抽样分布,是指在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布。抽样分布是一种理论分布。抽样分布提供了样本统计量长远而稳定的信息,是进行推断的理论基础。分布类型均值比例标准差总体分布样本分布抽样分布 X P S表10-6 各种分布的均值、比例和标准差的符号表示 14調查分析預測調查分析預測MRAF样本均值的抽样分布样本均值的抽样分布,是指在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布。例例101066设一个总体,含有4个元素,即总体单位数N=4。4个个体分别为x1=1,x2=2,x3=3,x4=4。则总体分布如图10-1。现在从总体中有放回地抽取n2的简单随机样本,则样本均值的抽样分布如图10-2。15調查分析預測調查分析預測MRAF均值抽样分布的规律比较样本均值的分布与总体分布比较样本均值的分布与总体分布,得出如下结论:(1)样本均值的数学期望 等于总体均值,即E()=。(2)在重复抽样条件下,样本均值的方差等于总体方差的1/n,或者说,样本均值的标准误 。(3)如果总体服从正态分布,即xN(,2),那么样本均值也服从正态分布,即 N(,2/n)。(4)如果总体不服从正态分布,那么当样本量足够大时,样本均值 也服从正态分布。中心极限定理中心极限定理,概括为:设从均值为、方差为 2的一个任意总体中随机抽取容量为n的样本,当n足够大(n 30)时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布。16調查分析預測調查分析預測MRAF样本比例的抽样分布 样本比例的抽样分布样本比例的抽样分布样本比例的抽样分布样本比例的抽样分布,是在重复抽取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布。比较样本比例的分布与总体分布,得出如下结论:当样本容量足够大时,样本比例的抽样分布近似地服从正态分布,样本比例的数学期望等于总体比例,即E(p)=;在重复抽样条件下,样本比例的方差为总体方差的1/n,即 样本比例的中心极限定理样本比例的中心极限定理样本比例的中心极限定理样本比例的中心极限定理设从比例为、方差为 2的一个任意总体中随机抽取容量为n的样本,当n足够大(n 30)时,样本比例的抽样分布近似服从比例为、方差为(1-)/n的正态分布。样本比例样本比例的方差的方差:样本比例样本比例的标准误:的标准误:17調查分析預測調查分析預測MRAF正态分布及标准值Z正态分布有以下几个重要特征:正态曲线呈钟形,曲线下的面积等于1,表明它包括了所有的调查结果。在正态曲线下任意两个变量值之间的面积,等于在这一范围内随机抽取一个观察对象的概率。例如,任意抽取一个样本单元,IQ分数落在55-145之间的概率是99.72%,即图10-3中正态曲线下55-145之间的面积。所有的正态分布在平均数1个标准差之间的面积相同,都占曲线下方面积的6826。这是正态分布的比例性,为统计推断提供了基础。一个正态分布的特殊性由其平均数和标准差决定。18調查分析預測調查分析預測MRAF标准正态分布标准正态分布是一种平均值等于0、标准差等于1的正态分布(如图10-4)。研究者可以将任何正态变量X转换为标准正态变量值(标准值)Z。计算方法就是,用将要进行转换的值中减去均值,然后再除以标准差。即求出标准值Z之后,就可以查阅正态分布表(附录B-2),得到Z值的标准正态分布曲线下的面积(概率)。式中,x 变量值;平均数的假设或预期值;变量的标准差。19調查分析預測調查分析預測MRAF104 参数估计参数估计 参数估计就是根据从样本中收集的信息对总体参数进行推断的过程。样本估计量(如样本均值、比例等)都是随机变量,在具有特定概率(抽样)分布的样本之间有所变化。参数估计就是根据推断理论所阐明的抽样分布与总体分布之间的关系,由样本统计量的具体值估计总体参数(如总体均值、比例和方差等)。参数估计有两种估计方法:点估计区间估计20調查分析預測調查分析預測MRAF总体参数的点估计总体参数的点估计点估计就是用样本的估计量直接作为总体参数的估计值。例如,用样本均值直接作为总体均值的估计,或者用两个样本均值之差直接作为总体均值之差的估计。点估计是容易做到的,但是,点估计没有给出估计值接近总体参数程度的信息。当样本均值与总体均值不完全相同时,样本均值与实际总体均值就存在着差距,形成抽样误差。21調查分析預測調查分析預測MRAF总体参数的区间估计总体参数的区间估计区间估计:在点估计的基础上,对总体参数的区间或范围进行估计。区间估计不仅要说明区间大小,还要说明点估计值在区间内的概率,即置信度。置信度是一个百分比,用来说明结果正确的长期概率。被估计的区间则被称为置信区间。根据样本统计量的抽样分布理论,总体参数的区间范围是在一定的概率度下,由样本统计量加减抽样误差而得到。22調查分析預測調查分析預測MRAF总体均值的区间估计在SRS抽样情况下,样本统计量的抽样分布均服从正态分布。可使用正态分布统计量Z来描述总体均值的区间估计,将总体均值区间估计表达为:=在上式中,在上式中,代表一定置信度下的代表一定置信度下的Z值。值。注意,注意,应除以应除以2,以便确定均值的每一边所包含曲线下区域的百分比。以便确定均值的每一边所包含曲线下区域的百分比。代表样本均值的标准误,代表样本均值的标准误,当当未知,用未知,用S来估计来估计,样本均值的标准误:,样本均值的标准误:当当已知,样本均值的标准误的估计公式已知,样本均值的标准误的估计公式:23調查分析預測調查分析預測MRAF总体均值的区间估计t-t-分布分布分布分布若调查从总体中随机抽取一个很小样本(n 30),则样本均值的抽样分布服从自由度为(n-1)的t-分布(较正态分布平坦和分散)。随着自由度增大,t分布也逐渐趋于正态分布。在上述假设条件下,使用 t 分布统计量(附录B-3)来估计总体均值的置信区间。t分布条件下总体均值置信区间的估计方法与正态分布条件分布条件下总体均值置信区间的估计方法与正态分布条件下非常类似,只是查下非常类似,只是查t分布表需要考虑自由度为分布表需要考虑自由度为(n-1)。统计量统计量 t(n-1)总体置信区体置信区间=24調查分析預測調查分析預測MRAF总体均值的区间估计例题例题 例例10107 7 某某银行收集到由36信用卡用户组成的随机样本,得到各用户年龄(周岁)数据如下23,35,39,27,36,44;36,42,46,43,31,33,42,53,45,54,47,24,34,28,39,36,44,40,39,49,38,34,48,50,34,39,45,48,45,32。试建立信用卡用户年龄90%的置信区间。已知n=36,1-=90%,Z/2=1.64。根据样本数据计算得:=39.5,s=7.77 则,信用卡用户总体平均年龄在90%置信水平下的置信区间为:=39.51.64 =39.52.12 =(37.38,41.62)结论是:在90%的置信度下,信用卡用户的平均年龄为37.3841.62岁。=25調查分析預測調查分析預測MRAF总体比例的区间估计总体比例的区间估计假定总体服从二项分布。二项分布是指重复进行 n 次试验,出现“成功”的次数的概率分布。总体比例的抽样分布仍然可以由正态分布来近似,即适用中心极限定理。使用正态分布统计量Z来描述总体比例的区间估计,将总体比例区间估计表达如下:=p 在上式中,在上式中,代表一定置信度下的代表一定置信度下的Z值。值。注意,注意,应除以应除以2,以便确定比例的每一边所包含曲线下区域的百分比。以便确定比例的每一边所包含曲线下区域的百分比。代表样本比例的标准误,代表样本比例的标准误,当当未知,样本比例的标准误未知,样本比例的标准误的估计式的估计式:当当已知,样本比例的标准误的估计式:已知,样本比例的标准误的估计式:26調查分析預測調查分析預測MRAF总体比例的区间估计例题 例例101088 某商业公司想要估计经常光顾其大型购物中心中女性所占的比例,随机地抽取了400名经常性顾客,发现其中260名为女性。试以95%的置信水平估计经常光顾该大型购物中心中女性比例的置信区间。解:已知 n=400,p65%=0.65,1-=95%,Z/2=1.96 则,总体比例在95%置信水平下的置信区间为:=0.651.96 =0.650.047 =(0.603,0.697)结论:在95%的置信度下,经常光顾该大型购物中心中女性比例的置信区间为60.3%69.7%。=p 27調查分析預測調查分析預測MRAF总体方差的区间估计 在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布,构成样本方差的抽样分布。对于来自正态总体的简单随机样本,则(n-1)倍的样本方差与总体方差的比值的抽样分布服从自由度为(n-1)的2分布,即2(n-1)2分布的特性分布的特性总体方差的区间估计提供了理论依据。当总体服从正态总体方差的区间估计提供了理论依据。当总体服从正态分布时,总体方差分布时,总体方差 2 的点估计量为的点估计量为s2。借助。借助 2分布表分布表(附录附录B-4)可可以查得以查得21-/2和和2/2分布曲线下的面积分布曲线下的面积(概率概率)。然后,可以给出总体。然后,可以给出总体方差在方差在1-置信水平下的区间估计置信水平下的区间估计:28調查分析預測調查分析預測MRAF105 样本量的确定 样本量的确定问题,首先涉及对总体参数估计值的精度要求,同时也涉及与各种运作限制(如可获得的预算、资源和时间)之间的平衡问题。理论上,总体参数估计的精度取决于抽样误差和非抽样误差两类误差的大小。但是,确定样本量是为控制抽样误差,而不是对非抽样误差进行控制,进而提高对总体估计的精度。29調查分析預測調查分析預測MRAF估计精度与样本量的关系估计精度与样本量的关系 总体参数的置信区间可以描述为:总体参数=总体参数的估计值抽样误差的范围显然,估计精度取决于抽样误差大小。假设用E来定义抽样误差范围,则当简单随机选择一个容量足够大(n 30)的样本时,样本均值的抽样误差范围可以表示为:抽样误差的范围是估计量标准误的倍数,乘数因子取决于在调查估计中所希望达到的置信水平。在放回(重复)的SRS抽样条件下,假设回答率为100%,则样本均值的标准误公式可用来解释估计精度与样本量之间的基本关系:E30調查分析預測調查分析預測MRAF估计精度与样本量无论是重复抽样还是不重复抽样,抽样误差的大小(即估计精度)与样本量紧密相关:随着样本量的增加,对应估计量的抽样标准差就会不断减小,调查估计的精度则会不断提高。同理,当要求不断提高调查估计值的精度要求时,所需样本量也会不断增加。样本量要根据估计所要求的精度来计算和确定。下面的讨论分为两部分:对初始样本量的确定及考虑复杂情况的考虑及对初始样本量的调整31調查分析預測調查分析預測MRAF初始样本量的确定初始样本量的确定1 1给定总体均值估计精度下确定初始样本量给定总体均值估计精度下确定初始样本量给定总体均值估计精度下确定初始样本量给定总体均值估计精度下确定初始样本量初始样本量基于以下假定:抽样采用放回的SRS抽样,并且调查回答率为100%。样本均值的标准误表示为样本均值的标准误表示为:抽样误差范围表示为抽样误差范围表示为:E 从上式中解得样本量从上式中解得样本量n:从公式看出,样本容量从公式看出,样本容量n与置信系数和总体方差成正比,与边际误差成反比。与置信系数和总体方差成正比,与边际误差成反比。为确定样本量为确定样本量n,需要知道允许的抽样误差范围,需要知道允许的抽样误差范围E、与给定置信水平相对应的、与给定置信水平相对应的标准值标准值Z、总体方差估计、总体方差估计2。32調查分析預測調查分析預測MRAF初始样本量的确定2 2给定比例估计精度下确定初始样本量给定比例估计精度下确定初始样本量给定比例估计精度下确定初始样本量给定比例估计精度下确定初始样本量初始样本量基于以下假定:抽样采用放回的SRS抽样,并且调查回答率为100%。样本比例的标准误表示为样本比例的标准误表示为:抽样误差范围表示为抽样误差范围表示为:E 从上式中解得样本量从上式中解得样本量n:从公式看出,样本容量从公式看出,样本容量n与置信系数和总体方差成正比,与边际误差成反比。与置信系数和总体方差成正比,与边际误差成反比。为确定样本量为确定样本量n,需要知道允许的抽样误差范围,需要知道允许的抽样误差范围E、与给定置信水平相对应的、与给定置信水平相对应的标准值标准值Z、总体比例、总体比例。33調查分析預測調查分析預測MRAF对样本量基本公式的应用考虑对样本量基本公式的应用考虑 在确定初始样本量的公式中,抽样误差范围假定已知。但在实践中,如何确定调查估计的精度水平(抽样误差范围),却是一个值得思考的问题。1多大的抽样误差对调研目标而言可以接受常用95的置信度、6的抽样误差范围对客户的调查目标是否适宜,估计值是否需要更高或者更低的精度?2是否需要对调查总体中的子总体(域)进行估计例如,对一项全国性抽样调查而言,主办者可能要求对全国估计的抽样误差范围为3;但是对于省级估计值,抽样误差范围可能确定为5;而对于地市的估计值,10的抽样误差范围就足够了。34調查分析預測調查分析預測MRAF对样本量基本公式的应用考虑对样本量基本公式的应用考虑3相对于调查估计值的抽样误差应该多大为宜例如,政府要决定是否执行为某种使用人数较少的语种提供服务的新政策,假定做出决定的前提,是至少有5%的人群对这一语种存在需求。在这里,p005就是要确定的最小估计值。相对于该估计值,必须规定更小的抽样误差范围,如001(即,置信区间为005001)。4精度要求的实际含义是什么随着样本量的增加,估计值的精度也将提高。然而,精度的得益并不与样本量的增加成正比。如表10-10中描述的例子。样本量抽样误差范围50100500100001386009800043800310表10-10 简单随机抽样估计比例P的样本量与抽样误差范围(当P=05)35調查分析預測調查分析預測MRAF关于确定样本量的现实复杂考虑在确定样本量基本公式之外,又有一些现实因素影响调查估计量的精度,进而影响样本量。这些因素主要包括总体指标的变异程度总体大小,样本设计和所用的估计量以及回答率 36調查分析預測調查分析預測MRAF关于确定样本量的现实复杂考虑关于确定样本量的现实复杂考虑1 1总体的变异程度总体的变异程度总体的变异程度总体的变异程度随着调查总体中所研究指标的实际变异程度的增加,样本量也必须随之增大,以满足估计的精度要求。为确保达到调查要求的精度,在计算样本量时,建议对某一指标的总体变异程度采取保守估计,即假定研究指标具有最大的变异程度。例如,对于二元变量,应该假定总体中该变量的变异程度为50-50对半平分,即假定p=05。为确保样本量对所有的研究指标都足够大,应该根据最大变异程度或被认为最重要的指标来确定样本量。37調查分析預測調查分析預測MRAF关于确定样本量的现实复杂考虑关于确定样本量的现实复杂考虑 2 2总体大小总体大小总体大小总体大小在基本公式中,样本量的确定似乎与总体大小没有关系。因为当时假定在大总体中进行有放回的重复抽样,抽样总体的影响被忽略掉了。然而,在调研实践中,总体单元数量可能是有限的,而且可能采取非重复抽样,这时总体大小对样本容量的影响就应该被考虑进来了。在样本不放回的非重复抽样条件下在样本不放回的非重复抽样条件下 样本均值的标准误表示为样本均值的标准误表示为:抽样误差范围表示为抽样误差范围表示为:E 从上式中解得样本量从上式中解得样本量:在样本不放回的非重复抽样条件下在样本不放回的非重复抽样条件下 样本比例的标准误样本比例的标准误:抽样误差范围表示为抽样误差范围表示为:E 从上式中解得样本量从上式中解得样本量:38調查分析預測調查分析預測MRAF关于确定样本量的现实复杂考虑关于确定样本量的现实复杂考虑 3 3样本设计和估计量样本设计和估计量样本设计和估计量样本设计和估计量当使用复杂的样本设计时,估计值可能比SRS精确。当估计值更精确时,称所采用的样本设计更为有效。因此,实际抽样时必须考虑实际所用抽样设计的效率,并对初始样本量做出调整。即,在SRS抽样的样本量计算公式基础上乘以一个设计效应因子设计效应因子。设计效应设计效应(Deff)是指在给定抽样设计下估计值的抽样方差,与相等样本量下的简单随机抽样的估计值的抽样方差之比。设某一抽样设计样本估计值的方差为设某一抽样设计样本估计值的方差为 ,同等样本量的,同等样本量的SRS设计的设计的样本估计值的方差为样本估计值的方差为 ,则抽样设计效应:,则抽样设计效应:Deff=显然,对于简单随机抽样设计,显然,对于简单随机抽样设计,Deff=1;若;若Deff1,表明实际使用的,表明实际使用的抽样设计的效率高于简单随机抽样;若抽样设计的效率高于简单随机抽样;若Deff1,表明实际使用的抽样,表明实际使用的抽样设计的效率低于简单随机抽样。设计的效率低于简单随机抽样。特定抽样设计所需的样本量(特定抽样设计所需的样本量(n1)调整为:)调整为:n1=n0Deff 39調查分析預測調查分析預測MRAF关于确定样本量的现实复杂考虑关于确定样本量的现实复杂考虑4 4调查的回答率调查的回答率调查的回答率调查的回答率调查回答率调查回答率是指调查回收的有效问卷数占计划访问的样本数量的百分比。在执行抽样过程中,会出现无效问卷,这意味着计划样本量中的一部分无法产生有效数据,并导致估计精度的降低。为达到估计精度的要求,调研机构需要根据预计的回答率调整样本量的大小,根据预计的回答率确定一个较大的样本。预计的回答率是依据对同一总体的小范围的试点调查或者过去类似的调查得到的。假设理论上确定的样本量为nt,预计回答率为r,则调整后的样本量n1就表示为:n1nt/r40調查分析預測調查分析預測MRAF基于现实考虑的基于现实考虑的样本量的计算样本量的计算 以比例估计为例说明计算样本量的详细步骤如下:以比例估计为例说明计算样本量的详细步骤如下:以比例估计为例说明计算样本量的详细步骤如下:以比例估计为例说明计算样本量的详细步骤如下:第第1步:计算初始样本量步:计算初始样本量设允许的抽样误差范围为设允许的抽样误差范围为E,与给定置信水平相对应的标准值为,与给定置信水平相对应的标准值为Z,总体比例为,总体比例为。则初始样本量。则初始样本量n0计算为:计算为:第第2步:根据总体大小对初始样本量进行调整步:根据总体大小对初始样本量进行调整(两种方法两种方法)一是在方差估计中直接考虑总体大小的调整因子:一是在方差估计中直接考虑总体大小的调整因子:二是在初始样本量基础上乘上一个调整因子:二是在初始样本量基础上乘上一个调整因子:第第3步:对样本量进行设计效应调整步:对样本量进行设计效应调整在第在第2步基础上,根据实际使用的抽样设计步基础上,根据实际使用的抽样设计(SRS以外的其他方法以外的其他方法)效应对样本量效应对样本量进行调整:进行调整:其中,对分层抽样设计,其中,对分层抽样设计,Deff1;对整群或多阶抽样设计,;对整群或多阶抽样设计,Deff1。第第4步:根据预计回答率步:根据预计回答率r再次进行调整,以确定最终样本量再次进行调整,以确定最终样本量n3:41調查分析預測調查分析預測MRAF样本量计算的综合例题样本量计算的综合例题例例109 某杂志社准备启动一项调研活动,某杂志社准备启动一项调研活动,以得到读者对该杂志综合满意度的估计值。订以得到读者对该杂志综合满意度的估计值。订阅该杂志的读者总体主要由城市读者、乡村读阅该杂志的读者总体主要由城市读者、乡村读者和海外读者三部分构成者和海外读者三部分构成(分层数据见表分层数据见表10-12)。通过从三部分读者中各抽取一个通过从三部分读者中各抽取一个SRS样本,得样本,得到一个分层随机样本。到一个分层随机样本。假定该杂志社希望真实的总体比例落在样本估假定该杂志社希望真实的总体比例落在样本估计值的计值的005范围内,并且调查估计值的置信范围内,并且调查估计值的置信度为度为95。同时,预计回答率为。同时,预计回答率为65。请问每。请问每一层应确定访问多少个订户?一层应确定访问多少个订户?再假定对每一层都要求样本估计值在再假定对每一层都要求样本估计值在95的置的置信度下抽样误差范围为信度下抽样误差范围为005的估计结果,城的估计结果,城市、乡村和海外三层读者的预计回答率分别为市、乡村和海外三层读者的预计回答率分别为65%、65%和和50%。则所需样本量为多少?。则所需样本量为多少?层数i层次名读者数(Ni)1城市5000002乡村2000003海外60000合 计76000042調查分析預測調查分析預測MRAF各种运作限制各种运作限制对样本量影响的考虑对样本量影响的考虑 上述讨论仅涉及确定样本量问题中最重要的指标估计值的精度要求。然而实际上,不考虑时间和费用个因素是不可思议的。最终确定的样本量必须与可获得的经费预算和允许的时限保持一致。其它一些现场操作因素,如数据收集的方法,有否合适的现场调查人员、数据编码和审核人员,以及处理数据的设备等等,都会对样本量的确定产生一定的影响,甚至有时可能是决定性的。最终样本量的确定需要在精度、费用、时限和操作的可行性等相互冲突的限制条件之间进行协调。43 结束语当你尽了自己的最大努力时,失败也是伟大的,所以不要放弃,坚持就是正确的。When You Do Your Best,Failure Is Great,So DonT Give Up,Stick To The End谢谢大家荣幸这一路,与你同行ItS An Honor To Walk With You All The Way演讲人:XXXXXX 时 间:XX年XX月XX日
展开阅读全文