资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,一、抽样的必要性,调查,的客体是由许许多多的个人、群体和组织所构成的最复杂的总体。其通常既无法象工程测量或科学实验那样要求进行次数很多的重复性测量或调查,也无法象工程测量或科学实验那样要求进行全面的测量或调查。,另外,调查的主体人财物资源有限,根本无法进行全面调查。,优点,:,费用少,速度快,准确性高,二、抽样的程序,1,、定义总体,2,、建立或选择抽样框,3,、定义样本数目,4,、确定抽样方法,5,、抽选样本,三、抽样中基本的程序,抽样程序,1,、确定目标人群或总体,内容:,1,、构成分析的单位是什么?,2,、抽样的单位是什么?,3,、什么东西指定包括在内?,4,、时限怎么样,即要获取的信息属于哪一段时间?,5,、空间限制如何,是那些地区,是否限于城市,或城市的繁华街区?,抽样,程序,2,、,建立或选择抽样框,抽样框,-,是构成总体的全部单元的,“,家庭聚会,”,街道居委名录、企业名录、电话本、选民花名册、俱乐部名录,抽样程序,3,、,定义样本数目,确定样本容量要考虑的因素,(1)总体变异程度,(2)调查精度要求,(3)总体规模,(4)抽样方式,(5)回答率,(6)分组需要,(7)调查经费,(,8,)时间限制,(9)人力资源限制,(,10,)其他设施、工具等限制,影响样本规模的因素可分为两个方面,与满足数据的可靠性要求有关的因素(如调查经费、时间限制、人力资源),与实际操作上的限制有关的因素(如总体变异、调查精度、总体规模、抽样方式、回答率),基本样本含量的估计,估算公式,连续型变量资料:,离散型变量资料:,估计样本含量的依据,总体中个体的变异程度,精度即相对误差,置信程度(,1,),确定,样本量的程序,(1)根据估计参数性质、总体变异大小和调查精度要求计算基本样本量。,(2)根据总体规模对基本样本量进行调整。,(3)根据抽样方式的设计效应调整样本量。,(4)根据预期回答率调整样本量。,(5)根据客户以及调查计划确定是否需要分组进行样本量计算。,(,6,)根据时间经费等各种限制调整样本量。,按照确定样本量的程序来介绍如何确定样本容量步骤,具体如下,:,第一步,根据估计参数性质、总体变异大小和调查精度要 求计算基本样本量,其计算公式为:,总体变异程度和调查精度要求是确定样本容量要考虑的两个基本因素。,通常总体的标准差未知的,一般用下面五种方法来解决:,利用以前的调查结果和经验,利用试调查或预调查的结果,利用同类或相似或有关的二手资料,利用某些理论上的结论,利用专家的判断。,第二步,根据总体规模对基本样本量进行调整,其计算公式为:,这是通过有限总体修正系数(,fpc=(N,n)/N,)对样本容量产生影响的,推导过程:由,推出,2,2,2,0,/,d,S,Z,n,=,0,0,1,n,N,N,n,n,+,=,-,N,n,N,n,fpc,n,n,1,0,0,1,=,=,第三步,根据抽样方式的设计效应调整样本量,其计算公式为:,抽样方式对样本量的影响表现为与简单随机抽样相比的情况,设计效应,deff,是指任意抽样方式下的抽样方差除以简单随机抽样方式下抽样方差的商,简单随机抽样的,deff,=,1,分层随机抽样的,deff,1,整群随机抽样的,deff,1,机械随机抽样的,deff,1,第四步,根据预期回答率调整样本量,其计算公式为:,调查回答率,r,是指实际回收的有效问卷数与计划回收的有效问卷数之比,第五步,根据客户以及调查计划确定是否需要分组进行样本量计算,第六步,根据时间、经费等各种限制调整样本量,抽样程序,4,、,明确抽样方法,见“抽样基本方法”,抽样程序,5,、抽选样本,是指按指定方法抽取受访者是指在某一特定地区或任何地区,按照一系列标准直接指定受访者的抽样方法。,【,抽样程序,4】,抽样基本方法,掌握几种抽样的概念,熟悉常用抽样方法的实施,了解多阶段分层随机抽样方法,解决用什么方法抽,(抽样方法)、,抽多少(,样本含量,)、,怎么抽(,实施步骤,)、,如何分析(,参数估计),等几个问题?,基本调查方法:,普查(全面调查),典型调查,抽样调查,总体与样本,抽样,基本抽样方法,非概率抽样,概率抽样,PPS,抽样,基本抽样方法,(,一,),非概率抽样,偶遇抽样或自然抽样:,街头随访,邮寄调查等,判断式抽样:,销售需求调查,配额抽样:,居民家庭情况调查,滚雪球抽样:,SARS,流调,调查老年人的生活状况,空间抽样:,广告公司调查,基本抽样方法(二),概率抽样,单纯,【,简单,】,随机抽样,系统抽样,整群抽样,分层抽样,多阶段抽样,概率抽样(一),单纯随机抽样,:,定义:,又称简单随机抽样,简单任意抽样等,指从总体,N,个抽样单元中,每次抽取一个单元时,使每个单元都有相同的概率被抽中,连续抽取,n,次,组成简单随机样本样本。,优点:,方法简单,易于操作,是其它抽样方法的基础,缺点:,要求总体同质性好,未充分利用总体的其他信息,大样本不使用,抽样方法:,抽签法、随机数字法、随机数骰子法,抽签法,随机数法,使用统计软件直接抽取,准备,2000,张卡片,写上所有学生的编号,摇匀后抽出,300,名学生,利用随机数表,从,0,9,的第一个个位数,以及两位数,三位数,符合某个规律。,SPSS,,,EXCEL,,,S-PLUS,等,概率抽样(二),系统抽样:,定义:,或称等距抽样、机械抽样。将总体的观察单位按照顺序排列或标志后,每隔一定的距离抽取一个单位作为样本。,优点:,更具代表性,方法简单,易操作,应用广泛,缺点:,周期性影响,概率抽样(三),整群抽样:,定义:,将总体各观察单位划分为若干群,随机抽取一部分群,对改该群内所有单位进行调查的方法。,分群原则:,尽量扩大群内变异,概率抽样(四),分层抽样:,定义:,也叫类型抽样,指在抽样之前,先将总体划分称若干层次,然后在每个层中独立抽样。,分层原则:,尽量减小层内变异,步骤:,获得总体相关信息,确定分层标准和层数,确定各层样本含量,各层独立抽样,概率抽样(五),多阶段抽样:,定义:,根据实际情况将整个抽样程序分成若干个阶段,一个阶段一个阶段地进行抽样,以完成整个抽样过程,这种抽样就叫多阶抽样。,特点:,便于组织抽样,;,抽样方式灵活,有利于提高抽样的估计效率;便于组织实施;应用广泛。,例:全国职工收入调查抽样方案,#,配额抽样,是一种抽选一群特定数目的满足特定条件的受访者的抽样方法,和概率抽样中的分层抽样有些类似,各种概率抽样方法比较,单纯随机抽样,系统抽样,整群抽样,分层抽样,优点,简单直观,其它抽样基础,计算简便,易理解,简便易行;易得到按照比率分配的样本;,便于组织,节省经费,容易控制调查质量,可独立分析层参数;灵活,信息利用好,缺点,大样本不使用,变异大时代表性差,周期性影响大,抽样误差大,层变量选择,适用范围,总体不大的情况,按抽样顺序个体随机分布情况,群间差异小,层间差异大,抽样误差,大,较小,最大,小,五、抽样设计注意的事项,抽样设计通常需要取得客户的认可,在精度与预算之间求得平衡,必须与问卷甄别部分相呼应,必须与数据处理方案相呼应,六、抽样原理,一、抽样科学性依据,部分来自于全体,必带有反映全体的信息;,构成(同质)总体的一些个体之间在性质上必定相似或相近,所以彼此有相当代表性;,不管原始分布如何,样本平均数的分布总可视为正态分布,而且由此得到总体参数准确估计的概率值极大。,二、样本均值的抽样分布,大样本均值的抽样分布及其特征,根据单个样本推断,点估计和区间估计,样本比例的抽样分布与总体比例估计,三、样本容量的确定,样本均值,的抽样分布,1.,大样本均值的抽样分布特征,是正态分布,分布的均值等于总体均值,分布的标准差称为均值的标准差,等于总体标准差除以样本容量的平方根,具体公式如下:,2.,根据单个样本推断,3.,点估计和区间估计,点估计是把样本均值作为总体均值的估计值,是一个数值点的估计。,区间估计是用一个区间去估计总体均值,即把总体均值估计在某两界限之间。,总体均值的区间估计步骤及置信区间,4.,样本比例的抽样分布与总体比例估计,样本比例的抽样分布类似于样本均值的抽样分布,其特征这里不再赘述。,简单随机抽样公式,不放回抽样方法的参数计算公式:,放回抽样方法的参数计算公式:,七、估计,点估计是把样本平均值作为总体平均数的估计值。,区间估计就是对变量值如总体平均值的区间或范围进行估计。,实际总体平均值在该区间范围之内的概率通常被称为置信系数或是置信度,,区间则被称为置信区间。,抽样误差,是指样本平均值与真实总体平均值的差距。由于只是根据一次简单随机抽样得到的一个样本的样本平均数来估计总体平均值,这种误差几乎不可避免。,
展开阅读全文