资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,抽样方法,第三讲:抽样,问题,1,江西省今年高考考生达,3,5.5,万,为了调查了解这些考生数学试题的得分情况,将他们所有的考试卷加以统计,那将是十分麻烦的,怎样才能既科学又客观地了解这些考生数学试题的得分情况呢?,问题,2,现有某灯泡厂生产的灯泡,10000,只,怎样才能了解这批灯泡的使用寿命呢,?,题,问,数理统计的核心问题:,如何根据样本的情况对总体的情况作出一种推断。,(一)概率抽样,简单随机抽样,系统抽样,分层抽样,整群抽样,多段抽样,简单随机抽样,01,又称纯随机抽样,它是按,等概率原则,直接从,含有,N,个元素 的总体,中抽取,n,个元素,组成,样本,(,Nn,)。最基本形式。,1.,定义:,不放回抽样;,逐个进行抽取;,个体数有限;,等概率抽样:,每次,抽取一个个体时任一个体被抽到的概率为,1/N,;,在,整个,抽样,过程,中各个个体被抽到的概率为,n/N,2.,特点:,一,.,简单随机抽样,1,)抽签法;,2,)随机数表法。,3.,常用方法:,确定样本,抽签,均匀,搅拌,制签,编号,1,)抽签法,例:,某系共有学生,300,人,系学生会打算采用简单随机抽样的方法,从中抽取出,60,人进行调查。为了保证抽样的科学性,他们先从系办公室得到一份全系学生的名单,然后给名单中的每个学生都编上号(从,001,到,300,)。抽样框编好后,他们又用,300,张小纸条分别写上,001,002,,,,,300,。他们把这,300,张写好不同号码的小纸条放在一个盒子里,搅乱后,随便摸出,60,张小纸条。然后,他们按这,60,张小纸条上的号码找到总体名单上所对应的,60,位同学。这,60,位同学就构成了他们本次的样本。,一、简单随机抽样,3.,常用方法:,优点:,简单易学,.,适用范围:,总体,元素,不多时,.,步骤,抽取,取数,选数,编号,2,)随机数表法,利用随机数表抽样的具体步骤:,(,1,)先取得一份总体所有元素的名单(抽样框);,(,2,)将总体中所有元素一一按顺序编号;,(,3,)根据总体规模是几位数来确定从随机量表中选几位数;,(,4,)以总体规模为标准,对随机数表中的数码逐一进行衡量并决定取舍;,(,5,)根据总体规模的要求选择出足够的数码个数;,(,6,)依据从随机数表中选出的数码,到抽样框中找出它所对应的元素。,一、简单随机抽样,3.,常用方法:,适用范围:,总体,元素很,多时,.,编号,2,)随机数表法,一、简单随机抽样,3.,常用方法:,使用举例,一、简单随机抽样,3.,常用方法:,2,)随机数表法,随机数表中的数码,选用的数码,不选原因,843,2990,906,1053,873020,9427410041,0139,022507,936,1404,310,1359,866042,632,1912,683,942,0582,507,2725,651176,0906,0041,2507,2683,1176,后,4,位大于,3000,后,4,位大于,3000,后,4,位大于,3000,与所选第,3,个数重,从,3000,总体中抽取,100,人作为样本,1,取得总体名单;,2,从,1,到,3000,编号;,3,从随机数表中选择,4,位数;,具体选法是从随机数表中的任意一行和任意一列的某一个四位数开始,按照从左到右,或者从上到下的顺序,以,3000,为标准,对随机数表中依次出现的每个,4,位数进行取舍:选出,3000,以内的,直至选够,100,个。,1.,是概率抽样的理想类型,简便易学,2.,抽样框不需要其他信息就能直接抽样。,1.,在总体多的情况下,工作量大,费时多且费用太高。,2,.,样本都有相同机会被抽到,因此抽出来的样本有可能不能很好代表总体。,优点,:,缺点:,一、简单随机抽样,4.,优缺点:,系统抽样,02,系统抽样又称等距抽样或机械抽样。它是把总体的单位进行编号排序后,再计算出某种间隔,然后按这一固定的间隔抽取个体的号码来组成样本的方法。,1.,定义:,基本和简单随机抽样一样,计算公式也一样,需要完整的样本框,直接从总体中抽取个体,二、系统抽样,给总体中的每一个个体按顺序编号,即制定出抽样框。,1,计算出抽样间距。计算方法是用总体的规模除以样本的规模。假设总体规模为,N,,样本规模为,n,,那么抽样间距,K,就由下列公式导出:,K=N/n,(,2,在最前面的,K,个个体中,采用简单随机抽样的方法抽取一个个体,记下这个个体的编号,A,,称为随机起点。,3,在抽样框中,自,A,开始,每隔,K,个个体抽取一个个体,即所抽取个个体编号分别为,A,,,A+K,,,A+2K,,,,,A+(n-1)K,。,4,将这,n,个个体合起来,就构成了该总体的一个样本。,5,2.,具体步骤,:,二、系统抽样,3.,举例:,为了了解参加某种知识竞赛的,1000,名学生的成绩,应采用什么样的抽样方法恰当?,1,3,2,4,随机将这,1000,名学生编号为,1,,,2,,,3,,,,,1000,(比如可以利用准考证号)。,将总体按编号顺序平均分成,50,部分,可得抽样间距为:,K=1000/50=20,每部分包含,20,个个体,。,在第一部分的个体编号,1,,,2,,,,,20,中,利用简单随机抽样抽取一个号码,比如是,18.,以,18,为起始号,每间隔,20,抽取一个号码,这样就得到一个容量为,50,的样本:,18,38,58,,,978,998.,二、系统抽样,4.,优缺点:,2,)缺点:,系统抽样有一个十分重要的前提条件,就是总体中个体的排列,相对于研究的变量来说,应是随机的,即,不存在某种与研究变量相关的规则分布,。否则,系统抽样的结果将会产生极大的偏差。,1,)优点:,操作简便,实施时不容易出差错。,二、系统抽样,例:在一项有关二战士兵的经典研究中,研究人员从名册中每隔,10,个士兵抽出一个来进行研究。然而士兵的名册是以下列组织方式来编排的:首先是中士,接着是下士,其后才是二等兵;用一班一班的方式进行编排,每班,10,个人。因此名册中每隔,10,个就是中士。如此系统抽样可能会得到一个完全是中士的样本,也可能会得到一个完全不含中士的样本。,分层抽样,03,分层抽样又称类型抽样,它是先将总体中的所有单位按某种特征或标志(如性别、年龄、职业或地域等)划分成若干类型或层次;然后再在各个类型或层次中采用简单随机抽样或系统抽样的方法抽取一个子样本;最后,将这些子样本合起来构成总体的样本。,1.,定义:,例如:从一个企业抽取职工样本。,先将职工划分成工人、干部、技术人员三种类型,分别用简单随机抽样或系统抽样方法在各类型中抽取子样本,将三个子样本合在一起,就构成了该企业的全体职工的样本。,三,.,分层抽样,2.,优点,三,.,分层抽样,1,)在不增加样本规模的情况下降低抽样误差,即提高抽样信度。注意前提是,所分的类有意义,即每个类内部数据的变异程度小,而类与类之间变异程度大。,2,),非常便于了解总体内不同层次的情况。,比如:在中国妇女社会地位调查中,将城市和乡镇分为两个类,以便于了解各自情况,并可以比较。,以所要分析和研究的主要变量或相关变量作为分层的标准。,以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为分层变量。,以那些已有明显层次区分的变量作为分层变量。,三,.,分层抽样,3.,运用:,考虑两个问题:,1)分层的标准问题。,通常采用的原则有:,按比例分层抽样指按各种类型或层次中的单位数目同总体单位数目间的比例来抽样,以确保得到一个与总体结构相同的样本。,比如:某厂有工人,600,名,男工,500,人,女工,100,人。两类工人占总人数的比率分别为,5/6,和,1/6,。因此若要按比例抽取,60,人,应该分别从男工中抽取,5/6*60=50,人,从女工中抽取,1/6*60=10,人。这样样本就有非常好的代表性。,有些情况又不宜采用比例抽样。在总体类型或层次的单位数目太少时,往往采取不按比例抽样的方法,以便于对不同层次的子总体进行专门研究或进行比较。,比如:从,500,男工中抽取,30,人,从,100,女工中抽取,30,人,则可以对两类进行比较,不会影响推论统计时的条件。,但用样本资料来推断总体时,需要先对各层数据资料加权处理,通过调整样本中各层的比例,使数据资料恢复到总体中各层实际的比例结构。,三,.,分层抽样,3.,运用:,考虑两个问题:,2,)分层的比例问题。,适用于总体由差异明显的几部分组成的情况;,按比例确定每层抽取的个数;,抽取时采用系统抽样或简单随机抽样;,等概率抽样;,样本具有良好的代表性,4.,特点:,1,)分层,;,2),定抽样比,;,3),确定各层抽样的数目,;,4),抽取个体,5.,步骤:,三,.,分层抽样,类别,各自特点,相互联系,适用范围,简单随机,抽样,系统,抽样,分层,抽样,共同点,从总体中,逐个抽取,将总体均分成几部分,按事先确定的规则在各部分抽取,将总体分成几层,分层进行抽取,在起始部分抽样时采用简单随机抽样,各层抽样时采用简单随机抽样或系统抽样,总体中的个体数较少,总体中的个体数较多,总体由差异明显的几部分组成,等可能抽取;,不放回抽样;,三,种抽样方法的比较,整群抽样,04,整群抽样是从总体中随机抽取一些小的群体,,然后由所抽中的若干个小群体内的所有元素,构成调查的样本。即只要该群被选中,该,群中的所用成员都进入随后的子样本。,对小群体的抽样可以采用简单随机抽样、,系统抽样或分层抽样。,举例:,某大学共有,100,个班,每班都是,30,名同学,总共,3000,名学生,现在要抽取,300,名。先从,100,个班中抽取,10,个班,则这,10,个班的全部学生就构成了样本。,抽样单位,不是单个的个体,而是成群的个体。,2.,特点:,1.,定义:,四、整群抽样,3.,优缺点:,2,)缺点:,样本分布不广、样本对总体的代表性差,1,)优点:,简便易行、节省费用。,四、整群抽样,例:研究某市,10,万户家庭生活状况,抽取,1000,户。若要获得全市家庭的抽样框几乎是不可能的,因此无法进行简单随机抽样和系统抽样。但整群抽样则轻而易举。假设全市有,200,个居委会,每个居委会有,500,户左右家庭。我们只要有这,200,个居委会的名单,按上述两种方法之一,抽取两个居委会,然后该两个居委会的所有家庭构成样本。,1,若子群内部差异较大,子群间差异较小,-,整群抽样,2,若子群内部差异较小,子群间差异较大,-,分层抽样。,四、整群抽样,4.,运用:,要与分层抽样的方法相区别。,当总体由若干个自然界限或区分的子群(或类别、层次)所组成时,多段抽样,05,多段抽样又称多级抽样、分段抽样。它是按抽样元素的隶属关系或层次关系,把抽样过程分为几个阶段进行。,。,1.,定义:,在社会研究中,当总体规模特别大时,或者总体范围分布非常广时,一般都要采用多段抽样。,具体做法:先从总体中抽几个大组,再在抽中的几个大组中抽取几个小组,这样一层层抽下来,直到抽到基本的抽样元素为止。,五,.,多段抽样,研究某市青年工人情况。,先以全市的企业名单为抽样框,抽取一部分企业;,然后在抽中的企业里,以车间为抽样单位,抽取若干个车间;,最后再在抽中的车间里抽取青年工人。,在每个阶段都要采用简单随机抽样或系统抽样或分层抽样的方法进行。,注意:运用多段抽样方法时要注意在类别和个体之间保持合适的比例。,2.,举例:,五,.,多段抽样,研究总体是全国城市的独生子女。为了在有限的财力、人力及时间的情况下保证样本的代表性,研究者选择了以湖北省为代表。因为无论是在地理条件、社会经济文化发展水平,还是人口规模、家庭结构方面,湖北省都处于全国中等水平。,在湖北省的范围内采取,多段分层整群抽样,的方式抽取样本,。,首先抽取城市。按城市的规模,分别选取了武汉市、黄石市、沙市市、仙桃市、云梦县城关镇这五个市镇作为调查点。,第二步抽取学校。在各个
展开阅读全文