抽样估计与样本量确定ppt课件

资源描述

开篇案例百脑汇调研中的样本计划问题百脑汇在中国华北几个省市经营连锁电脑超市它希望获得更多关于其现有客户特点方面的信息接受调研委托的李文博士指派班上的王洪同学为样本计划小组的负责人通过与百脑汇的市场部经理乔兰的初次会谈王洪了解到调研的一个主要目的是分别按人口和心理因素来估计百脑汇的客户构成和比例此外确认总体估计值不超过实际值的 5 0 可靠度为95 为了达到这些要求王洪和他的小组正努力寻找计算所需样本容量的方法 1 10 1引言估计就是根据从样本中收集的信息对总体未知量进行推断的过程抽样估计涉及的重要问题一个样本单元的设计权数问题抽样估计包括总体总量均值和比例以及抽样误差的估计样本量的确定构成抽样设计程序的重要步骤和内容同时样本量的确定与样本估计值的精度密不可分 2 10 2加权及权数调整设计权数设计权数是指每个样本单元所代表的调查总体的单元数它是由抽样设计所决定的通常以wd表示确定设计权数是估计的第一步加权估计设计权数其实就是样本单元的入样概率的倒数假如入样概率是1 10 那么每个入选样本代表总体中的10个单元此时设计权数即为10 不同样本单元的设计权数可能不同这取决于抽样设计因此加权估计应区分等概率抽样的加权和不等概率抽样的加权 3 等概率抽样的加权当每个单元都有相同的入样概率时所有样本单元的设计权数都相同这种抽样就是自加权设计 SRS抽样和SYS抽样都属于自加权设计比例分层抽样也是自加权设计另外 PPS等也可以设计为一个自加权抽样对于自加权抽样设计如果无需对权数调整则在计算比例均值等估计量时可将其忽略对总值估计也仅需将样本总值乘上某个倍数例P215 4 不等概率抽样的加权自加权设计并不总是可行的如在使用分层抽样进行一个全国调查时可能需要采用纽曼分层当所采用的抽样设计不是等概率时正确地使用设计权数就显得尤为重要例10 2 有关各层总体数和样本数资料见表10 1 对于这项调查被调查者的设计权数是多少呢 5 设计权数的调整上述等概率抽样的加权和不等概率抽样的加权都是加权的基本形式权数估计常会遇到更真实和复杂的情况考虑无回答的情况然后对权数做出调整考虑来自其他渠道的更具权威性的某些辅助信息将它们合并到权数中 6 对无回答的权数调整单元无回答是指一个样本单元几乎所有的数据都缺失简单的处理办法是忽略它然而如果发现忽略单元无回答是不适当的则应该对权数进行调整即设计权数无回答调整因子无回答的调整权数无回答调整因子是原样本单元的权数和与给出回答的单元的权数和的比值对于自加权设计该比值可用原样本的单元数与给出回答的单元数的比值来表示无回答权数调整应区分两种不同情况等概率抽样不等概率抽样 7 对无回答的权数调整 SRS 例10 3 从一个N 100人的总体中抽取一个n 25人的简单随机样本记回答单元的数量为nr 结果显示只有20个人提供了所需的信息那么此时无回答的调整权数是多少步骤1 计算设计权数入样概率p为 P n N 25 100 1 4故每个样本单元的设计权数为4 步骤2 计算无回答调整因子由于在n 25人中只有nr 20人提供了所需的信息最终样本量应为20 假定回答单元不仅能代表回答单元且能代表无回答单元计算无回答调整因子为 n nr 25 20 1 25步骤3 计算无回答的调整权数无回答的调整权数wnr等于设计权数与无回答调整因子的乘积 8 对无回答的权数调整 STR 例10 4 对于一项公共交通系统调查总体由1100人组成并按城乡分为两个层分层及样本数据如表10 2所示那么回答者的权数是多少表10 2公交系统调查的分层数据步骤1 各层的设计权数为城市层wd 1 N1 n1 5农村层wd 2 N2 n2 2步骤2 调整以弥补无回答各层的无回答调整因子计算如下城市层 n1 nr 1 200 150 1 33农村层 n2 nr 2 50 40 1 25步骤3 无回答的调整权数等于设计权数与无回答调整因子的乘积城市层农村层 9 使用辅助信息调整权数为什么要使用辅助信息来调整权数呢首先使调查的估计值与已知总体总值相匹配例如使用最新的人口普查数据来调整估计值以确保这些估计值如年龄性别分布等的一致性二是为了提高估计值的精度将辅助信息与抽样设计相结合将有助于提高估计的精度要想在调查设计阶段使用辅助信息抽样框中的所有单元都必须具备这个辅助信息否则就只能在数据收集上来后在估计阶段利用辅助信息提高估计值的精度 10 使用辅助信息调整权数例10 5 为得到某公司职员是否有吸烟习惯的信息进行了一项调查从N 780人的名录中抽出了一个n 100人的简单随机样本在收集有关吸烟习惯信息时收集了每个回答者的年龄和性别情况且100人都做出了回答由此得到样本数据的分布如表10 3所示表10 5利用辅助信息对抽样调查估计值的调整表10 3某公司吸烟习惯抽样调查数据表10 4根据某公司吸烟习惯抽样计算的估计值 11 10 3抽样分布与抽样误差抽样调查的目的是要对总体做出推断了解统计推断的理论基础首先注意区分三种不同性质的分布总体分布样本分布抽样分布同时特别注意总体分布与抽样分布的关系 12 三种不同性质的分布总体分布总体各单位的观察值所形成的频数分布总体分布通常是未知的样本分布一个样本中各个观察值所形成的频数分布就叫做样本分布当样本容量n逐渐增大时样本分布逐渐接近总体的分布抽样分布样本统计量的抽样分布是指在重复选取容量为n的样本时由该统计量的所有可能取值形成的相对频数分布抽样分布是一种理论分布抽样分布提供了样本统计量长远而稳定的信息是进行推断的理论基础表10 6各种分布的均值比例和标准差的符号表示 13 样本均值的抽样分布样本均值的抽样分布是指在重复选取容量为n的样本时由样本均值的所有可能取值形成的相对频数分布例10 6 设一个总体含有4个元素即总体单位数N 4 4个个体分别为x1 1 x2 2 x3 3 x4 4 则总体分布如图10 1 现在从总体中有放回地抽取n 2的简单随机样本则样本均值的抽样分布如图10 2 14 均值抽样分布的规律 15 样本比例的抽样分布样本比例的抽样分布是在重复抽取容量为n的样本时由样本比例的所有可能取值形成的相对频数分布比较样本比例的分布与总体分布得出如下结论当样本容量足够大时样本比例的抽样分布近似地服从正态分布样本比例的数学期望等于总体比例即E p 在重复抽样条件下样本比例的方差为总体方差的1 n 即样本比例的中心极限定理设从比例为方差为 2的一个任意总体中随机抽取容量为n的样本当n足够大 n 30 时样本比例的抽样分布近似服从比例为方差为 1 n的正态分布 16 正态分布及标准值Z 正态分布有以下几个重要特征正态曲线呈钟形曲线下的面积等于1 表明它包括了所有的调查结果在正态曲线下任意两个变量值之间的面积等于在这一范围内随机抽取一个观察对象的概率例如任意抽取一个样本单元 IQ分数落在55 145之间的概率是99 72 即图10 3中正态曲线下55 145之间的面积所有的正态分布在平均数 1个标准差之间的面积相同都占曲线下方面积的68 26 这是正态分布的比例性为统计推断提供了基础一个正态分布的特殊性由其平均数和标准差决定 17 标准正态分布标准正态分布是一种平均值等于0 标准差等于1的正态分布如图10 4 研究者可以将任何正态变量X转换为标准正态变量值标准值 Z 计算方法就是用将要进行转换的值中减去均值然后再除以标准差即求出标准值Z之后就可以查阅正态分布表附录B 2 得到Z值的标准正态分布曲线下的面积概率式中 x 变量值平均数的假设或预期值变量的标准差 18 10 4参数估计参数估计就是根据从样本中收集的信息对总体参数进行推断的过程样本估计量如样本均值比例等都是随机变量在具有特定概率抽样分布的样本之间有所变化参数估计就是根据推断理论所阐明的抽样分布与总体分布之间的关系由样本统计量的具体值估计总体参数如总体均值比例和方差等参数估计有两种估计方法点估计区间估计 19 总体参数的点估计点估计就是用样本的估计量直接作为总体参数的估计值例如用样本均值直接作为总体均值的估计或者用两个样本均值之差直接作为总体均值之差的估计点估计是容易做到的但是点估计没有给出估计值接近总体参数程度的信息当样本均值与总体均值不完全相同时样本均值与实际总体均值就存在着差距形成抽样误差 20 总体参数的区间估计区间估计在点估计的基础上对总体参数的区间或范围进行估计区间估计不仅要说明区间大小还要说明点估计值在区间内的概率即置信度置信度是一个百分比用来说明结果正确的长期概率被估计的区间则被称为置信区间根据样本统计量的抽样分布理论总体参数的区间范围是在一定的概率度下由样本统计量加减抽样误差而得到 21 总体均值的区间估计在SRS抽样情况下样本统计量的抽样分布均服从正态分布可使用正态分布统计量Z来描述总体均值的区间估计将总体均值区间估计表达为在上式中代表一定置信度下的Z值注意应除以2 以便确定均值的每一边所包含曲线下区域的百分比代表样本均值的标准误当未知用S来估计样本均值的标准误当已知样本均值的标准误的估计公式 22 总体均值的区间估计 t 分布若调查从总体中随机抽取一个很小样本 n 30 则样本均值的抽样分布服从自由度为 n 1 的t 分布较正态分布平坦和分散随着自由度增大 t分布也逐渐趋于正态分布在上述假设条件下使用t分布统计量附录B 3 来估计总体均值的置信区间 t分布条件下总体均值置信区间的估计方法与正态分布条件下非常类似只是查t分布表需要考虑自由度为 n 1 统计量 t n 1 总体置信区间 23 总体均值的区间估计例题例10 7 某银行收集到由36信用卡用户组成的随机样本得到各用户年龄周岁数据如下23 35 39 27 36 44 36 42 46 43 31 33 42 53 45 54 47 24 34 28 39 36 44 40 39 49 38 34 48 50 34 39 45 48 45 32 试建立信用卡用户年龄90 的置信区间 24 总体比例的区间估计总体比例的区间估计假定总体服从二项分布二项分布是指重复进行n次试验出现成功的次数的概率分布总体比例的抽样分布仍然可以由正态分布来近似即适用中心极限定理使用正态分布统计量Z来描述总体比例的区间估计将总体比例区间估计表达如下 p 在上式中代表一定置信度下的Z值注意应除以2 以便确定比例的每一边所包含曲线下区域的百分比代表样本比例的标准误当未知样本比例的标准误的估计式当已知样本比例的标准误的估计式 25 总体比例的区间估计例题例10 8 某商业公司想要估计经常光顾其大型购物中心中女性所占的比例随机地抽取了400名经常性顾客发现其中260名为女性试以95 的置信水平估计经常光顾该大型购物中心中女性比例的置信区间 26 总体方差的区间估计在重复选取容量为n的样本时由样本方差的所有可能取值形成的相对频数分布构成样本方差的抽样分布对于来自正态总体的简单随机样本则 n 1 倍的样本方差与总体方差的比值的抽样分布服从自由度为 n 1 的 2分布即 2 n 1 2分布的特性总体方差的区间估计提供了理论依据当总体服从正态分布时总体方差 2的点估计量为s2 借助 2分布表附录B 4 可以查得 21 2和 2 2分布曲线下的面积概率然后可以给出总体方差在1 置信水平下的区间估计 27 10 5样本量的确定样本量的确定问题首先涉及对总体参数估计值的精度要求同时也涉及与各种运作限制如可获得的预算资源和时间之间的平衡问题理论上总体参数估计的精度取决于抽样误差和非抽样误差两类误差的大小但是确定样本量是为控制抽样误差而不是对非抽样误差进行控制进而提高对总体估计的精度 28 估计精度与样本量的关系总体参数的置信区间可以描述为总体参数总体参数的估计值抽样误差的范围显然估计精度取决于抽样误差大小假设用E来定义抽样误差范围则当简单随机选择一个容量足够大 n 30 的样本时样本均值的抽样误差范围可以表示为抽样误差的范围是估计量标准误的倍数乘数因子取决于在调查估计中所希望达到的置信水平在放回重复的SRS抽样条件下假设回答率为100 则样本均值的标准误公式可用来解释估计精度与样本量之间的基本关系 E 29 估计精度与样本量无论是重复抽样还是不重复抽样抽样误差的大小即估计精度与样本量紧密相关随着样本量的增加对应估计量的抽样标准差就会不断减小调查估计的精度则会不断提高同理当要求不断提高调查估计值的精度要求时所需样本量也会不断增加样本量要根据估计所要求的精度来计算和确定下面的讨论分为两部分对初始样本量的确定及考虑复杂情况的考虑及对初始样本量的调整 30 初始样本量的确定 1 给定总体均值估计精度下确定初始样本量初始样本量基于以下假定抽样采用放回的SRS抽样并且调查回答率为100 样本均值的标准误表示为抽样误差范围表示为 E 从上式中解得样本量n 从公式看出样本容量n与置信系数和总体方差成正比与边际误差成反比为确定样本量n 需要知道允许的抽样误差范围E 与给定置信水平相对应的标准值Z 总体方差估计 2 31 初始样本量的确定 2 给定比例估计精度下确定初始样本量初始样本量基于以下假定抽样采用放回的SRS抽样并且调查回答率为100 样本比例的标准误表示为抽样误差范围表示为 E 从上式中解得样本量n 从公式看出样本容量n与置信系数和总体方差成正比与边际误差成反比为确定样本量n 需要知道允许的抽样误差范围E 与给定置信水平相对应的标准值Z 总体比例 32 对样本量基本公式的应用考虑在确定初始样本量的公式中抽样误差范围假定已知但在实践中如何确定调查估计的精度水平抽样误差范围却是一个值得思考的问题 1 多大的抽样误差对调研目标而言可以接受常用95 的置信度 6 的抽样误差范围对客户的调查目标是否适宜估计值是否需要更高或者更低的精度 2 是否需要对调查总体中的子总体域进行估计例如对一项全国性抽样调查而言主办者可能要求对全国估计的抽样误差范围为 3 但是对于省级估计值抽样误差范围可能确定为 5 而对于地市的估计值 10 的抽样误差范围就足够了 33 对样本量基本公式的应用考虑 3 相对于调查估计值的抽样误差应该多大为宜例如政府要决定是否执行为某种使用人数较少的语种提供服务的新政策假定做出决定的前提是至少有5 的人群对这一语种存在需求在这里 p 0 05就是要确定的最小估计值相对于该估计值必须规定更小的抽样误差范围如 0 01 即置信区间为0 05 0 01 4 精度要求的实际含义是什么随着样本量的增加估计值的精度也将提高然而精度的得益并不与样本量的增加成正比如表10 10中描述的例子表10 10简单随机抽样估计比例P的样本量与抽样误差范围当P 0 5 34 关于确定样本量的现实复杂考虑在确定样本量基本公式之外又有一些现实因素影响调查估计量的精度进而影响样本量这些因素主要包括总体指标的变异程度总体大小样本设计和所用的估计量以及回答率 35 关于确定样本量的现实复杂考虑 1 总体的变异程度随着调查总体中所研究指标的实际变异程度的增加样本量也必须随之增大以满足估计的精度要求为确保达到调查要求的精度在计算样本量时建议对某一指标的总体变异程度采取保守估计即假定研究指标具有最大的变异程度例如对于二元变量应该假定总体中该变量的变异程度为50 50 对半平分即假定p 0 5 为确保样本量对所有的研究指标都足够大应该根据最大变异程度或被认为最重要的指标来确定样本量 36 关于确定样本量的现实复杂考虑 2 总体大小在基本公式中样本量的确定似乎与总体大小没有关系因为当时假定在大总体中进行有放回的重复抽样抽样总体的影响被忽略掉了然而在调研实践中总体单元数量可能是有限的而且可能采取非重复抽样这时总体大小对样本容量的影响就应该被考虑进来了在样本不放回的非重复抽样条件下样本均值的标准误表示为抽样误差范围表示为 E 从上式中解得样本量在样本不放回的非重复抽样条件下样本比例的标准误抽样误差范围表示为 E 从上式中解得样本量 37 关于确定样本量的现实复杂考虑 3 样本设计和估计量当使用复杂的样本设计时估计值可能比SRS精确当估计值更精确时称所采用的样本设计更为有效因此实际抽样时必须考虑实际所用抽样设计的效率并对初始样本量做出调整即在SRS抽样的样本量计算公式基础上乘以一个设计效应因子设计效应 Deff 是指在给定抽样设计下估计值的抽样方差与相等样本量下的简单随机抽样的估计值的抽样方差之比设某一抽样设计样本估计值的方差为同等样本量的SRS设计的样本估计值的方差为则抽样设计效应 Deff 显然对于简单随机抽样设计 Deff 1 若Deff 1 表明实际使用的抽样设计的效率高于简单随机抽样若Deff 1 表明实际使用的抽样设计的效率低于简单随机抽样特定抽样设计所需的样本量 n1 调整为 n1 n0 Deff 38 关于确定样本量的现实复杂考虑 4 调查的回答率调查回答率是指调查回收的有效问卷数占计划访问的样本数量的百分比在执行抽样过程中会出现无效问卷这意味着计划样本量中的一部分无法产生有效数据并导致估计精度的降低为达到估计精度的要求调研机构需要根据预计的回答率调整样本量的大小根据预计的回答率确定一个较大的样本预计的回答率是依据对同一总体的小范围的试点调查或者过去类似的调查得到的假设理论上确定的样本量为nt 预计回答率为r 则调整后的样本量n1就表示为 n1 nt r 39 基于现实考虑的样本量的计算以比例估计为例说明计算样本量的详细步骤如下第1步计算初始样本量设允许的抽样误差范围为E 与给定置信水平相对应的标准值为Z 总体比例为则初始样本量n0计算为第2步根据总体大小对初始样本量进行调整两种方法一是在方差估计中直接考虑总体大小的调整因子二是在初始样本量基础上乘上一个调整因子第3步对样本量进行设计效应调整在第2步基础上根据实际使用的抽样设计 SRS以外的其他方法效应对样本量进行调整其中对分层抽样设计 Deff 1 对整群或多阶抽样设计 Deff 1 第4步根据预计回答率r再次进行调整以确定最终样本量n3 40 样本量计算的综合例题例10 9 某杂志社准备启动一项调研活动以得到读者对该杂志综合满意度的估计值订阅该杂志的读者总体主要由城市读者乡村读者和海外读者三部分构成分层数据见表10 12 通过从三部分读者中各抽取一个SRS样本得到一个分层随机样本假定该杂志社希望真实的总体比例落在样本估计值的 0 05范围内并且调查估计值的置信度为95 同时预计回答率为65 请问每一层应确定访问多少个订户再假定对每一层都要求样本估计值在95 的置信度下抽样误差范围为 0 05的估计结果城市乡村和海外三层读者的预计回答率分别为65 65 和50 则所需样本量为多少 41 各种运作限制对样本量影响的考虑上述讨论仅涉及确定样本量问题中最重要的指标估计值的精度要求然而实际上不考虑时间和费用个因素是不可思议的最终确定的样本量必须与可获得的经费预算和允许的时限保持一致其它一些现场操作因素如数据收集的方法有否合适的现场调查人员数据编码和审核人员以及处理数据的设备等等都会对样本量的确定产生一定的影响甚至有时可能是决定性的最终样本量的确定需要在精度费用时限和操作的可行性等相互冲突的限制条件之间进行协调 42 本章小结 1 加权的含义和加权的基本形式2 熟悉加权调整的方法3 理解平均数的抽样分布与抽样误差4 理解样本比例的抽样分布与抽样误差5 了解正态分布及标准值的含义6 均值和比例问题参数估计的思想和方法7 了解估计精度与样本量的关系8 初始样本量的计算及应用考虑9 现实复杂情况下样本量的考虑和计算 43

展开阅读全文

抽样估计与样本量确定ppt课件

最新文档