资源描述
2024/6/231第第6 6章章 抽样推断抽样推断抽样推断的基本概念抽样推断的基本概念 抽样误差抽样误差 抽样推断的方法抽样推断的方法抽样的组织形式抽样的组织形式2024/6/2326.1 6.1 抽样推断的基本概念抽样推断的基本概念 抽样推断,从其内涵来说,包括抽样抽样推断,从其内涵来说,包括抽样调查和抽样推断两部分,前者着重调调查和抽样推断两部分,前者着重调查,后者着重推断。查,后者着重推断。抽样推断是在抽样调查的基础上利用样抽样推断是在抽样调查的基础上利用样本的实际资料计算出的样本数据,并运本的实际资料计算出的样本数据,并运用概率估计方法,推算总体相应的数量用概率估计方法,推算总体相应的数量指标的一种统计分析方法。指标的一种统计分析方法。2024/6/233抽样推断具有如下几个特点抽样推断具有如下几个特点抽样推断是由部分推算整体的一种认识方法。抽样推断是由部分推算整体的一种认识方法。抽样推断是建立在随机取样的基础上。抽样推断是建立在随机取样的基础上。抽样推断是运用概率估计的方法,利用样抽样推断是运用概率估计的方法,利用样本指标来估计总体参数。本指标来估计总体参数。抽样推断的误差是可以事先控制的,用样本抽样推断的误差是可以事先控制的,用样本指标值推断总体指标值是存在一定误差的。指标值推断总体指标值是存在一定误差的。2024/6/234抽样推断的作用抽样推断的作用应用于某些不可能作全面调查或很难应用于某些不可能作全面调查或很难作全面调查的场合。作全面调查的场合。在可以使用全面调查的场合,抽样调在可以使用全面调查的场合,抽样调查仍有其独特的作用。查仍有其独特的作用。用于假设检验。用于假设检验。2024/6/2356.1.1 6.1.1 总体和样本总体和样本 1 1总体(总体(populationpopulation)也称全及总体,是指所研)也称全及总体,是指所研究现象的整体,即包括所要调查的所有单位。究现象的整体,即包括所要调查的所有单位。例如,例如,从从10001000名学生中,抽取名学生中,抽取5050名学生进行抽样调名学生进行抽样调查,以计算学生的平均体重。查,以计算学生的平均体重。这这10001000名学生是全及名学生是全及总体,一般用英文大写字母总体,一般用英文大写字母N N来表示总体的单位数,来表示总体的单位数,取取N=1000N=1000人。全及总体按其各单位性质的不同,可人。全及总体按其各单位性质的不同,可以分为变量总体和属性总体两类。对于一个总体来以分为变量总体和属性总体两类。对于一个总体来说,若被研究的单位标志属于品质标志,则该总体说,若被研究的单位标志属于品质标志,则该总体为属性总体,若被研究的单位标志属于数量标志,为属性总体,若被研究的单位标志属于数量标志,则该总体为变量总体。则该总体为变量总体。2024/6/2362 2样本(样本(samplesample)又称子样,它是从全及总体中随)又称子样,它是从全及总体中随机抽取出来,作为代表这一总体的那部分单位组成的机抽取出来,作为代表这一总体的那部分单位组成的集合体。集合体。样本的单位数是有限的,相对来说,它的数目比较样本的单位数是有限的,相对来说,它的数目比较小,一般用英文小写字字母小,一般用英文小写字字母n n来表示样本的单位数。来表示样本的单位数。如上例如上例n=50n=50人。人。作为推断对象的总体是确定的,而且是作为推断对象的总体是确定的,而且是唯一的。但作为观察对象的样本就不是唯一的。但作为观察对象的样本就不是这样。从一个总体可以抽取很多个样本,这样。从一个总体可以抽取很多个样本,每次可能抽到哪个样本不是确定的。也每次可能抽到哪个样本不是确定的。也不是唯一的,而是可变的。不是唯一的,而是可变的。2024/6/2376.1.2 6.1.2 参数和统计量参数和统计量1 1参数参数(parameter)(parameter)。根据总体各单位的标。根据总体各单位的标志值或标志属性计算的,反映总体数量特征志值或标志属性计算的,反映总体数量特征的综合指标称为全及指标。的综合指标称为全及指标。全及指标是总体变量的函数,其数值是由总全及指标是总体变量的函数,其数值是由总体各单位的标志值决定的。由于总体是唯一体各单位的标志值决定的。由于总体是唯一确定的,因此,全及指标也是唯一确定的,确定的,因此,全及指标也是唯一确定的,所以也称参数。常用的参数有总体平均数,所以也称参数。常用的参数有总体平均数,总体成数、总体方差和总体标准差。总体成数、总体方差和总体标准差。2024/6/238(1 1)总体平均数)总体平均数 Population meanPopulation mean对于变量总体,由于各单位的标志可以用数量表对于变量总体,由于各单位的标志可以用数量表示,因此可以计算总体平均数,通常用示,因此可以计算总体平均数,通常用 表示。表示。设设X X为总体的某一变量,其为总体的某一变量,其N N项变量值为项变量值为X X1 1、X X2 2、X Xn n,则总体平均数为:,则总体平均数为:2024/6/239(2 2)总体成数)总体成数Proportion对于属性总体,由于各单位标志不能用数量表示,对于属性总体,由于各单位标志不能用数量表示,因此总体参数常以成数或比重来表示。通常以因此总体参数常以成数或比重来表示。通常以P P表表示总体中具有某种标志表现即示总体中具有某种标志表现即“是是”的单位数在的单位数在总体单位数中所占的比重;以总体单位数中所占的比重;以Q Q表示不具有某种标表示不具有某种标志表现即志表现即“非非”的单位数所占的比重。的单位数所占的比重。设总体设总体N N个单位中,有个单位中,有N N1 1个单位具有某种标志表现,个单位具有某种标志表现,N N0 0个单位不具有某种标志表现,且个单位不具有某种标志表现,且N=NN=N1 1+N+N0 0,则总体,则总体成数为:成数为:2024/6/2310【实例【实例6 61 1】红光灯泡厂生产的】红光灯泡厂生产的1000010000只灯泡中,有只灯泡中,有95509550只是合格品,有只是合格品,有450450只是不合格产品,则总体成只是不合格产品,则总体成数即灯泡的合格率和不合格率分别为:数即灯泡的合格率和不合格率分别为:需要指出,统计上把只表现为需要指出,统计上把只表现为“是是”与与“非非”的的标志称为是非标志,也称交替标志,如性别标志标志称为是非标志,也称交替标志,如性别标志等。等。2024/6/2311(3 3)总体方差和总体标准差)总体方差和总体标准差Variance&Variance&standard deviationstandard deviation就变量总体而言,其总体方差和标准差计算公式分别为:就变量总体而言,其总体方差和标准差计算公式分别为:在属性总体条件下,则可以把在属性总体条件下,则可以把“是是”与与“非非”两种两种标志表现进行量化处理,用标志表现进行量化处理,用“1 1”表示表示“是是”,即,即具有某种标志表现,用具有某种标志表现,用“0 0”表示表示“非非”,即不具,即不具有某种标志表现,那么有某种标志表现,那么“是是”的成数就可视为是非的成数就可视为是非标志的平均数,从而计算出属性总体的方差和标准标志的平均数,从而计算出属性总体的方差和标准差,即差,即 =(1-1-P P)2 2P+P+(0-P0-P)2 2Q=QQ=Q2 2P+PP+P2 2Q=PQQ=PQ(P+QP+Q)=PQ=P=PQ=P(1-P1-P)2024/6/23122 2统计量统计量(statistic)。根据样本各单位标志值计算的。根据样本各单位标志值计算的反映样本特征的指标称为统计量,也称作样本指标反映样本特征的指标称为统计量,也称作样本指标sample statistic 。它是用来估计总体参数的。它是用来估计总体参数的。与总体参数相对应,统计量主要有与总体参数相对应,统计量主要有样本平均数样本平均数 表示样本内各单位某一标志值的一般水平表示样本内各单位某一标志值的一般水平样本方差,反映样本中各单位标志值的离散程度,从样本方差,反映样本中各单位标志值的离散程度,从而可说明样本平均数的代表性大小而可说明样本平均数的代表性大小,记作记作S S2 2,称,称S S为样本为样本标准差或均方差标准差或均方差样本成数,指具有某种性质的单位在样本中所占比重样本成数,指具有某种性质的单位在样本中所占比重(如抽样产品的合格率如抽样产品的合格率),记作,记作p p;样本成数的方差是;样本成数的方差是p p(1-(1-p p)2024/6/2313(1 1)样本平均数)样本平均数Sample mean(2 2)样本成数)样本成数 (3 3)样本方差和样本标准差)样本方差和样本标准差Sample variance2024/6/2314样本是非标志的方差样本是非标志的方差S S2 2和标准差和标准差S S的计算公式分别为的计算公式分别为 2024/6/23156.1.3 6.1.3 样本容量和样本个数样本容量和样本个数 是两个有联系但又完全不同的概念。是两个有联系但又完全不同的概念。样本容量样本容量是指一个样本所包含位数是指一个样本所包含位数 样本个数样本个数又称样本可能数目。又称样本可能数目。是指从一个总体上可能抽取的样本个数。是指从一个总体上可能抽取的样本个数。2024/6/23166.1.4 6.1.4 重复抽样和不重复抽样重复抽样和不重复抽样重复抽样又叫重置重复抽样又叫重置sampling with replacement 抽抽样,也叫做有放回的抽样或重置抽样样,也叫做有放回的抽样或重置抽样不重复抽样又叫不重置不重复抽样又叫不重置sampling without replacement 也叫做无放回抽样或非重置抽样也叫做无放回抽样或非重置抽样样本可能数目样本可能数目样本可能数目样本可能数目2024/6/23176.2 6.2 抽样误差抽样误差6.2.1 6.2.1 抽样误差的概念抽样误差的概念 抽样误差(抽样误差(sampling errorsampling error)是指由于随机抽样的偶)是指由于随机抽样的偶然因素使各单位的结构不足以代表总体各单位的结构,然因素使各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全及指标之间的绝对离差。而引起抽样指标和全及指标之间的绝对离差。Sampling error is the difference between a sample statistic and its corresponding population parameter and is due purely to chance.是一种由于随机抽样引起的偶然的代表性误差,或是一种由于随机抽样引起的偶然的代表性误差,或随机误差随机误差random error chance errorrandom error chance error。抽样误差。抽样误差不可消除,但可以计算和控制。不可消除,但可以计算和控制。2024/6/2318抽样调查中误差有以下两个来源抽样调查中误差有以下两个来源一个是登记性误差。也叫调查误差一个是登记性误差。也叫调查误差data recording data recording errorerror,是指在调查登记过程中发生的误差,这类,是指在调查登记过程中发生的误差,这类误差是可以避免的。误差是可以避免的。二是代表性误差二是代表性误差representative errorrepresentative error,在抽样,在抽样调查中,是指由于用抽样指标去代替总体指标时调查中,是指由于用抽样指标去代替总体指标时所产生的误差。所产生的误差。代表性误差的发生的两种情况:代表性误差的发生的两种情况:第一,非随机的代表性误差;第一,非随机的代表性误差;第二,随机性误差。第二,随机性误差。2024/6/2319DubiousSampling:TheLiteraryDigestCaseA classic case of both selection bias andnonresponsebiasoccurredin1936.TheLiteraryDigestmagazine,whichhadcorrectlypredictedthe winner in every U.S.presidential electionsince1916,predictedconfidentlyacomfortablevictory for Alfred M.Landon,the Republicancandidate,over Franklin D.Roosevelt,theDemocraticcandidate,byamarginof57to43.YetRooseveltwonbyalandslideneverbeforeseeninU.S.history,receiving62percentofthevotescast.Whathadgonewrong?2024/6/2320First,there was selection bias.The Digestmailed questionnaires to 10 million peoplewhosenameshadbeentakenfromvariouslistssuch as its own subscribers,telephonedirectories,and automobile-registration rolls.During the Great Depression,higher-incomepeople typically voted Republican,and thesepeople were well represented in the Digestssample.On the other hand,lower-incomepeople,who heavily favored the Democrats,wereunderrepresentedbecausealowerpercentagecouldaffordmagazinesubscriptions,telephones,andautomobiles.2024/6/2321Second,therewasnonresponsebias.Only2.4millionofthel0millionquestionnairesweremailed back.Although this made the surveythelargestsampleevertaken,moreeducatedpeople are more likely to respond to mailquestionnaires than less educated ones.Theformer,again,tendedtofavorRepublicans;thelatter,the Democrats.Thus,a much largerpercentageofthenonrespondentsthanoftherespondents were for Roosevelt.This biasreinforcedtheselectionbias.2024/6/2322Note:TheDigestneversurvivedthedebacleandfoldedshortlythereafter.Atthesametime,George Gallup was setting up his surveyorganization,and he correctly forecast theRoosevelt Victory from a mere sample of50,000 people.Yet in 1948,using anotherdubious procedure(a form of judgmentsampling,called quota sampling),Gallupsorganization(along with Crossleys andRopers)incorrectly predicted the victory ofThomasDeweyoverHarrySTruman.2024/6/23236.2.2 6.2.2 抽样平均误差抽样平均误差standard error是根据随机原则抽样时,所有可能出现的是根据随机原则抽样时,所有可能出现的样本平均数的标准差。样本平均数的标准差。它反映样本平均数它反映样本平均数(样本成数样本成数)与总体平均数与总体平均数(总总体成数体成数)的平均误差程度,常用的平均误差程度,常用表示。表示。The standard error of the sample mean is the standard deviation of the sampling distribution of sample means.2024/6/23241 1抽样平均数的平均误差抽样平均数的平均误差 (1 1)重复抽样的抽样平均误差计算公式)重复抽样的抽样平均误差计算公式但是,但是,是全及总体标准差,这是不知道的。如是全及总体标准差,这是不知道的。如果知道,就无需进行抽样调查了。在这种情况下果知道,就无需进行抽样调查了。在这种情况下可用样本的方差可用样本的方差s s2 2来代替。其计算公式如下来代替。其计算公式如下 2024/6/2325(2 2)不重复抽样的抽样平均误差计算公式)不重复抽样的抽样平均误差计算公式 当全及总体单位数当全及总体单位数N N很大时,很大时,N-1N-1接近于接近于N N,即可用,即可用N N代替,则上列公式可简化如下代替,则上列公式可简化如下2024/6/2326【实例【实例6 65 5】从某学院】从某学院20112011级的级的20002000名学生中,按名学生中,按简单随机抽样方式抽取简单随机抽样方式抽取4040名学生,对公共理论课的名学生,对公共理论课的考试成绩进行检查,得知其平均成绩为考试成绩进行检查,得知其平均成绩为78.7578.75分,分,标准差为标准差为12.1312.13分,试根据重复抽样和不重复抽样分,试根据重复抽样和不重复抽样的方法分别计算抽样平均误差。的方法分别计算抽样平均误差。(1 1)按重复抽样计算抽样平均误差)按重复抽样计算抽样平均误差(2 2)按不重复抽样计算抽样平均误差)按不重复抽样计算抽样平均误差 2024/6/23272 2抽样成数的抽样平均误差抽样成数的抽样平均误差(1 1)重复抽样的抽样平均误差计算公式)重复抽样的抽样平均误差计算公式 (2 2)不重复抽样的抽样平均误差计算公式)不重复抽样的抽样平均误差计算公式 以以上上两两个个公公式式中中的的P P,是是总总体体成成数数,这这是是不不知知道道的的。而而P P(1-P1-P)是是总总体体方方差差,它它等等于于 ,即即也也是是不不知知道道的的。在在这这种种情情况况下下,可可用用样样本本的的成成数数P P和和样样本本方方差差P P(1-P1-P)来来代代替替,或或者者用用过过去去类类似似调调查查的的成成数数和和成成数方差来代替。成数方差的最大值为数方差来代替。成数方差的最大值为2024/6/2328【实例【实例6 66 6】从】从4000040000件产品中,随机抽取件产品中,随机抽取200200件进行检件进行检验,结果有验,结果有1010件不合格,求合格率的抽样平均误差。件不合格,求合格率的抽样平均误差。(1 1)按重复抽样计算抽样平均误差)按重复抽样计算抽样平均误差(2 2)按不重复抽样计算抽样平均误差)按不重复抽样计算抽样平均误差2024/6/23296.2.3 6.2.3 抽样极限误差抽样极限误差 1 1抽样极限误差的概念抽样极限误差的概念 抽样极限误差又称抽样允许误差,是指样本指标与总体抽样极限误差又称抽样允许误差,是指样本指标与总体指标之间产生抽样误差被允许的最大可能范围,它是根指标之间产生抽样误差被允许的最大可能范围,它是根据所研究对象的变异程度和分析任务的要求来确定的可据所研究对象的变异程度和分析任务的要求来确定的可允许的误差范围,凡是在这个范围内的数字都算有效,允许的误差范围,凡是在这个范围内的数字都算有效,统计上把这种可允许的误差范围称为抽样极限误差。统计上把这种可允许的误差范围称为抽样极限误差。根据样本指标估计总体指标必会产生误差,但误差不根据样本指标估计总体指标必会产生误差,但误差不能太大,以免使抽样估计失去意义;但误差也不是愈能太大,以免使抽样估计失去意义;但误差也不是愈小愈好,因为这样就要增加样本单位数,必然提高很小愈好,因为这样就要增加样本单位数,必然提高很多费用,所以要确定一个误差范围。多费用,所以要确定一个误差范围。2024/6/2330抽样极限误差通常用样本指标可允许变动的上限或下限抽样极限误差通常用样本指标可允许变动的上限或下限与总体指标的绝对离差表示。设和分别表示抽样平均数与总体指标的绝对离差表示。设和分别表示抽样平均数和抽样成数的抽样极限误差,则有和抽样成数的抽样极限误差,则有 上式可变换为下列不等式上式可变换为下列不等式上式表明总体平均数上式表明总体平均数 是以抽样平均数是以抽样平均数 为中心,为中心,在在 的范围内变动。总体成数的范围内变动。总体成数P P也是如此,这也是如此,这个变动范围被称为估计区间。个变动范围被称为估计区间。2024/6/23312 2抽样误差的概率度抽样误差的概率度基于概率估计的要求,抽样极限误差通常需要以基于概率估计的要求,抽样极限误差通常需要以抽样平均误差或为标准单位来衡量。把极限误差抽样平均误差或为标准单位来衡量。把极限误差或分别除以或,得相对数或分别除以或,得相对数t,它表示误差范围为抽,它表示误差范围为抽样平均误差的若干倍,样平均误差的若干倍,t是测量估计可靠程度的一是测量估计可靠程度的一个参数,称为抽样平均误差的概率度。个参数,称为抽样平均误差的概率度。2024/6/23326 63 3 抽样推断的方法抽样推断的方法 抽样估计是指利用实际调查计算的样本指标值来估计抽样估计是指利用实际调查计算的样本指标值来估计相应的总体指标的数值。由于总体指标是表明总体数相应的总体指标的数值。由于总体指标是表明总体数量特征的参数,所以也称为参数估计。量特征的参数,所以也称为参数估计。总体参数估计有点估计和区间估计两种总体参数估计有点估计和区间估计两种 1 1点估计。点估计(点估计。点估计(point estimationpoint estimation)的基)的基本特点是,根据总体指标的结构形式设计样本指本特点是,根据总体指标的结构形式设计样本指标作为总体参数的估计量,并以样本指标的实际标作为总体参数的估计量,并以样本指标的实际值作为相应总体参数的估计值(例如以样本平均值作为相应总体参数的估计值(例如以样本平均数的实际值作为相应总体平均数的估计值,以样数的实际值作为相应总体平均数的估计值,以样本成数的实际值作为相应总体成数的估计值等)。本成数的实际值作为相应总体成数的估计值等)。2024/6/2333When the estimation of a population is expressed as a single numerical value,it is referred to as a point estimation.2024/6/2334常用概率度与概率保证度表常用概率度与概率保证度表概率度概率度t t 概率概率F(t)F(t)(%)(%)1.001.002.002.003.003.001.641.641.961.962.58 2.58 68.2768.2795.4595.4599.7399.7390.0090.0095.0095.0099.00 99.00 2024/6/2335抽样估计的优劣标准抽样估计的优劣标准无偏性无偏性 unbiasednessunbiasedness有效性有效性 efficiencyefficiency一致性一致性 consistencyconsistency2024/6/2336无偏性无偏性 unbiasednessunbiasedness抽样指标抽样指标的平均数的平均数等于全及等于全及指标。即:指标。即:抽样指标抽样指标的估计,的估计,平均说来平均说来是没有误是没有误差的。差的。2024/6/2337有效性有效性 efficiencyefficiency作为优良作为优良估计量的估计量的方差应比方差应比其它估计其它估计量的方差量的方差小。即:小。即:方差最小方差最小原则。原则。2024/6/2338一致性一致性 consistencyconsistency当样本容量当样本容量充分大时,充分大时,抽样指标也抽样指标也充分地靠近充分地靠近全及指标。全及指标。即:即:时,时,2024/6/23392 2区间估计区间估计 区间估计区间估计(interval estimation)(interval estimation)是在一定的概是在一定的概率把握程度下,根据样本指标和抽样极限误差率把握程度下,根据样本指标和抽样极限误差去估计总体指标所在可能范围的方法。去估计总体指标所在可能范围的方法。在总体指标的区间估计公式中,有两个要素,在总体指标的区间估计公式中,有两个要素,一个是置信区间,另一个是置信概率。一个是置信区间,另一个是置信概率。2024/6/2340置信区间置信区间(confidence interval)(confidence interval)又称为估计区间,又称为估计区间,是指由低限到高限两个数值所构成的可能范围,是指由低限到高限两个数值所构成的可能范围,由样本指标和极限误差组成。由样本指标和极限误差组成。置信概率置信概率(confidence probability)(confidence probability)是指区间估计是指区间估计的概率保证程度,也称为置信度。它是表明样本指的概率保证程度,也称为置信度。它是表明样本指标与总体指标的误差不超过一定范围的概率有多大标与总体指标的误差不超过一定范围的概率有多大估计的准估计的准确性问题确性问题估计的可估计的可靠性问题靠性问题 2024/6/2341置置信信区区间间2024/6/2342总体平均数的估计就是用抽样平均数来估计总体平均数总体平均数的估计就是用抽样平均数来估计总体平均数【实例】某学校进行一次英语测验,为了解学生的考试情况,随机【实例】某学校进行一次英语测验,为了解学生的考试情况,随机抽选部分学生进行调查,所得资料如下抽选部分学生进行调查,所得资料如下:考试成绩(分)考试成绩(分)学生人数(人)学生人数(人)6060以下以下101060-7060-70202070-8070-80222280-9080-9040409090以上以上8 8按重复抽样方法以按重复抽样方法以95.45%95.45%概率估计该校学生英语平均成绩的范围。概率估计该校学生英语平均成绩的范围。下限下限=74.32=74.32分分 上限上限=78.88=78.88分分所以,在所以,在95.45%95.45%的概率保证程度下,该校学生英语的概率保证程度下,该校学生英语考试的平均成绩的范围在考试的平均成绩的范围在74.32-78.8874.32-78.88分之间。分之间。2024/6/2343总体成数的估计就是用抽样成数来估计总体成数总体成数的估计就是用抽样成数来估计总体成数仍按上例资料,以同样的概率估计该校学生成绩在仍按上例资料,以同样的概率估计该校学生成绩在8080分以上分以上的学生所占的比重的范围。的学生所占的比重的范围。解:样本合格率为解:样本合格率为 抽样平均误差为:抽样平均误差为:抽样极限误差为:抽样极限误差为:所以,在所以,在95.45%95.45%的概率保证程度下,该校学生成绩在的概率保证程度下,该校学生成绩在8080分分以上的学生所占的比重的范围在以上的学生所占的比重的范围在38.01%-57.99%38.01%-57.99%之间。之间。2024/6/23446.3.2 6.3.2 样本容量的确定样本容量的确定1 1确定必要样本容量的意义确定必要样本容量的意义 样本单位数越多,样本的代表性越大,抽样误样本单位数越多,样本的代表性越大,抽样误差越小,抽样估计就越可靠。但样本容量过多差越小,抽样估计就越可靠。但样本容量过多会增加不必要的人力、物力和费用开支,造成会增加不必要的人力、物力和费用开支,造成浪费。样本容量减少,又会使抽样误差增大,浪费。样本容量减少,又会使抽样误差增大,达不到所需要的准确程度。达不到所需要的准确程度。基本原则是,在保证预期的抽样估计可靠程度基本原则是,在保证预期的抽样估计可靠程度的要求下,抽取的样本单位数不宜过多。的要求下,抽取的样本单位数不宜过多。2024/6/23452 2影响样本容量的因素影响样本容量的因素(1 1)总体各单位标志变异程度。总体标志变异程度大,)总体各单位标志变异程度。总体标志变异程度大,要求样本容量大些;反之,总体标志变异程度小,样本要求样本容量大些;反之,总体标志变异程度小,样本容量可以小些。容量可以小些。(2 2)抽样方法。在其他条件相同的情况下,重复抽样要)抽样方法。在其他条件相同的情况下,重复抽样要比不重复抽样多抽取一些样本单位。比不重复抽样多抽取一些样本单位。(3 3)抽样组织形式)抽样组织形式 。一般来说,类型抽样和等距抽样。一般来说,类型抽样和等距抽样的样本容量要小于简单随机抽样的样本容量。的样本容量要小于简单随机抽样的样本容量。(4 4)极限误差的大小。如果允许误差大,样本容量就)极限误差的大小。如果允许误差大,样本容量就小;反之,如果允许误差小,样本容量就大。小;反之,如果允许误差小,样本容量就大。(5 5)抽样估计的可靠程度即概率)抽样估计的可靠程度即概率F F(t t)的大小。如果)的大小。如果估计的可靠程度要求越高即估计的可靠程度要求越高即F F(t t)越大,样本容量就越)越大,样本容量就越多;反之,如果估计的可靠程度要求越低,即多;反之,如果估计的可靠程度要求越低,即F F(t t)越)越小,样本容量就越少。小,样本容量就越少。2024/6/23463 3必要样本容量的计算公式必要样本容量的计算公式 (1 1)平均数的必要样本容量的计算公式)平均数的必要样本容量的计算公式在重复抽样的条件下为:在重复抽样的条件下为:在不重复抽样的条件下为:在不重复抽样的条件下为:2024/6/2347(2 2)成数的必要样本容量的计算公式)成数的必要样本容量的计算公式在重复抽样的条件下为:在重复抽样的条件下为:在不重复抽样的条件下为:在不重复抽样的条件下为:2024/6/2348【实例】对某罐头厂生产的罐头质量进行抽样【实例】对某罐头厂生产的罐头质量进行抽样调查,抽样极限误差为调查,抽样极限误差为5%5%,概率为,概率为0.95450.9545,并,并知过去进行同样抽样调查,其不合格率为知过去进行同样抽样调查,其不合格率为10%10%,试求必要的样本容量。试求必要的样本容量。根据题意可知:根据题意可知:t=2t=2、P=90%P=90%、=5%=5%在重复抽样的条件下:在重复抽样的条件下:(盒盒)2024/6/23494 4计算必要样本容量应注意的问题计算必要样本容量应注意的问题 第第一一,在在实实际际中中采采用用不不重重复复抽抽样样。但但常常用用重重复复抽抽样下的公式近似代替。样下的公式近似代替。第第二二,若若2 2,P P未未知知,其其处处理理方方式式是是:用用过过去去(近近期期)的的数数据据代代替替;用用样样本本数数据据代代替替;取取P=0.5P=0.5或最接近或最接近0.50.5的的P P值。值。第第三三,对对同同一一总总体体,若若求求出出的的n nx x、n np p不不等等,这这时时取取较较大大的的一一个个作作为为必必要要抽抽样样数数目目,以以同同时时满满足足作作两两种调查的需要。种调查的需要。第四,在实际工作中,常使用重复抽样下的简单第四,在实际工作中,常使用重复抽样下的简单随机抽样公式。随机抽样公式。2024/6/23506.3.3 抽样的组织形式抽样的组织形式抽样的基本组织形式可分为抽样的基本组织形式可分为简单随机抽样简单随机抽样(纯随机抽样纯随机抽样)、类型抽样、类型抽样、机械抽样、机械抽样、整群抽样等几种。整群抽样等几种。2024/6/23511 1 简单随机抽样简单随机抽样 simple random sampling又称纯随机抽样。它是按随机原则直接从总体又称纯随机抽样。它是按随机原则直接从总体N N个单位中抽取个单位中抽取n n个单位作为样本。不论是重复个单位作为样本。不论是重复抽样或不重复抽样,都要保证每个单位在抽选抽样或不重复抽样,都要保证每个单位在抽选 中都有相等的中选机会。中都有相等的中选机会。是一种最简单而又最基本的抽样组织形式,是一种最简单而又最基本的抽样组织形式,它往往带有盲目性它往往带有盲目性 ,因此多用于对总体的,因此多用于对总体的初期研究。初期研究。2024/6/2352简单随机抽样中抽选样本的常用方法有三种简单随机抽样中抽选样本的常用方法有三种 第一种是直接抽取法第一种是直接抽取法第二种是抽签摸球法第二种是抽签摸球法第三种是利用随机数表法第三种是利用随机数表法2024/6/2353The1970DraftLotteryFiascoDuring both World Wars I and II,it becamenecessary to establish an order in which menwere to be drafted into the U.S.military,In1917,accordingly,10,500blackcapsules,containing numbers previously assigned toeligiblemen,weredrawnfromaglassfish-bowl.Inl940,asimilarprocedurewasadoptedtodraw9,000 numbers,but there were criticisms:Thesmall,woodenpaddle(WhichwasmadefromapieceofraftertraceabletoIndependenceHallinPhiladelphia)used to stir the capsules in thebowlwouldnotreachdeepenoughintothebow.2024/6/2354Italsobrokeopensomeofthecapsules,impedingthemixingprocessfurther.Intheend,thenumbersdrawnlookedlikeanythingbutrandomones;theywereconcentratedincertainclustersofhundreds,apparentlyreflectingthefactthatthenumbershadbeenpouredintothebowlinlotsof100each.Thelessonwasclear:thoroughphysicalmixingofcapsulesinabowlisdifficult.2024/6/2355Apparentlythelessonhadbeenforgottenwhenthel970draftlotterywasinstituted.Some366capsules,containingallthepossiblebirthdatesinayear,werepouredintoabowlbutnotstirred.(Therehadbeensomemixingduringtheprocessofinsertingdatedslipsofpaperintothecapsules).Thencapsulesweredrawnout,theorderoftheirwithdrawaldeterminingtheprioritiesforthedraft.2024/6/2356Theobservedsequencestronglyreflectedtheorderinwhichthecapsuleswerecreated(onemonthatatime),withlate-in-the-yearbirthdays(thatwereencapsulatedlast)beingdrawnfirstandearly-in-the-yearbirthdays(thatwereencapsulatedfirst)beingdrawnlastand,therefore,lesssubjecttothedraft.Severalyoungmenfiledsuitinfederalcourtseekingtohavethe1970lotteryvoidedonthebasisoftheapparentlackofrandomization.Note:A1971draftlottery,inresponsetowidespreadcriticismofthe1970lottery,madeuseofrandom-numberstables.2024/6/23572 2 分层抽样分层抽样又称类型抽样。它是先对总体各单位按主要又称类型抽样。它是先对总体各单位按主要标志加以分组,然后再从各组中按随机原则标志加以分组,然后再从各组中按随机原则抽选一定单位构成样本。抽选一定单位构成样本。stratified random sampling类型抽样的方法又分两种:类型抽样的方法又分两种:等比例抽样和不等比例抽样。等比例抽样和不等比例抽样。2024/6/2358如果按比例分配样本单位,可以得到类型抽样误差公式如果按比例分配样本单位,可以得到类型抽样误差公式1在重复抽样条件下在重复抽样条件下 变量总体:变量总体:其中其中 是各组方差的加权平均数,习惯是各组方差的加权平均数,习惯上称为平均组内方差。上称为平均组内方差。属性总体属性总体 其中其中 是各组比率的方差加权是各组比率的方差加权平均数,是属性总体的平均组内方差。平均数,是属性总体的平均组内方差。2024/6/23592 2在不重复抽样条件下在不重复抽样条件下以上总体以上总体 参数、是未知的,习惯用样本值参数、是未知的,习惯用样本值 、代替代替 2024/6/23603 3 等距抽样等距抽样 systematic sampling也称机械抽样或系统抽样。它先按某一标志也称机械抽样或系统抽样。它先按某一标志对总体各单位进行排队,然后依一定顺序和对总体各单位进行排队,然后依一定顺序和间隔来抽取样本单位的一种抽样组织间隔来抽取样本单位的一种抽样组织 可分为按无关标志排队和按有关标志排队两种可分为按无关标志排队和按有关标志排队两种按无关标志排队按无关标志排队指采用的排队标志与所研究的指采用的排队标志与所研究的问题没有直接关系或联系较少问题没有直接关系或联系较少按有关标志排队按有关标志排队指采用的排队标志与所研究的指采用的排队标志与所研究的问题有直接关系。问题有直接关系。2024/6/23614 4 整群抽样整群抽样 cluster sampling又称聚点抽样或群体抽样,它是先将总体划分又称聚点抽样或群体抽样,它是先将总体划分为若干群为若干群(R(R群群),再从中任意抽取几群,再从中任意抽取几群(r(r群群),然后对抽中的群作全面调查,并据此结论对总然后对抽中的群作全面调查,并据此结论对总体加以推断。体加以推断。整群抽样尤其适用于存在自然群的场合整群抽样尤其适用于存在自然群的场合因为整群抽样是成群地抽选样本,故整群抽样因为整群抽样是成群地抽选样本,故整群抽样的误差较大。的误差较大。由于整群抽样是成群地抽样,从而使样本对总体由于整群抽样是成群地抽样,从而使样本对总体的代表性会降低。的代表性会降低。2024/6/2362由于对抽中的群作全面调查,因此整群抽样的误差主要受各群间的差异即群间方差的影响,而群内却不存在抽样误差问题。整群抽样下的平均误差公式如下:其中其中 ,称为群间方差称为群间方差2024/6/2363必要抽样群数必要抽样群数r r的确定公式类同简单随机抽样中有的确定公式类同简单随机抽样中有关公式。只不过现在确定的是关公式。只不过现在确定的是r r,并用组内方差,并用组内方差 取代取代 。【实例】某产品合计生产【实例】某产品合计生产30003000批,每批产量大致相同,批,每批产量大致相同,抽样检查产品合格品率。要求其允许误差不超过抽样检查产品合格品率。要求其允许误差不超过2%2%,若根据过去该产品质量资料,其各批群间方差为若根据过去该产品质量资料,其各批群间方差为3%3%,问在问在95.45%95.45%(t=2t=2)可靠程度下需抽多少批产品为宜)可靠程度下需抽多少批产品为宜?即要在全部产品中抽即要在全部产品中抽273273批产品检查批产品检查2024/6/23645 5 多阶段抽样多阶段抽样 multi-stage sampling是在组织抽样时,不是从总体中一次直接抽取样本单是在组织抽样时,不是从总体中一次直接抽取样本单位,而是把抽样过程分成几个过渡阶段进行。到最后位,而是把抽样过程分成几个过渡阶段进行。到最后才具体抽取样本单位。它是先抽大单位,再在大单位才具体抽取样本单位。它是先抽大单位,再在大单位中抽小单位,在小单位中抽更小单位,直到抽出最终中抽小单位,在小单位中抽更小单位,直到抽出最终能取得推断总体的基本单位为止。能取得推断总体的基本单位为止。一般在总体很大,单位分布面积广时,如从总体中一般在总体很大,单位分布面积广时,如从总体中采取一次直接抽取足够多的样本很困难时,可采用采取一次直接抽取足够多的样本很困难时,可采用多阶段抽样。多阶段抽样。2024/6/23656.4 6.4 参数假设检验参数假设检验6.4.1 6.4.1 假设检验的基本概念假设检验的基本概念假设检验(假设检验(Hypothesis testingHypothesis testing)是利用样本的实际资料来检验事先对是利用样本的实际资料来检验事先对总体某些数量特征所作的假设是否可总体某些数量特征所作的假设是否可信的一种统计分析方法。信的一种统计分析方法。2024/6/2366它和参数估计一样,都是利用样本资料对总体特征进行某种推断。但二者推断角度不同。参数估计参数估计是根据样本指标以一定的把握程度估计总体参数取值范围,更准确地说,是对总体参数进行了区间估计;假设检验假设检验则先对总体参数值提出一个假设,然后利用样本信息,以一定的概率水平去判断这个假设是否成立。2024/6/23676.4.2 6.4.2 假设检验的步骤假设检验的步骤一个完整的假设检验过程,通常包括以下四步骤:第一,提出原假设和备择假设;第二,选取和计算检验统计量;第三,根据显著性水平查临界值;第四,进行比较并做出决策。2024/6/23686.4.3 6.4.3 假设检验中的两类错误假设检验中的两类错误假设检验可能犯两种类型的错误。第一类错误第一类错误(Type I error)指的是H0客观上真实但被检验所拒绝,这种错误也称为弃真错误。犯这种错误的概率就是显著水平;第二类错误第二类错误(Type II error)指的是H0客观上不真实但被检验所接受,这种错误也称为纳伪错误。犯这种错误的概率我们用(读作“贝塔”)来表示。2024/6/23696.4.4 6.4.4 总体均值和总体成数检验总体均值和总体成数检验1 1大样本情况下总体均值检验大样本情况下总体均值检验在大样本(n30)情况下,总体均值的假设检验可以应用正态分布检验法。2 2小样本情况下总体均值检验小样本情况下总体均值检验在小样本(n30)情况下,总体均值的假设检验可以应用t分布检验法。此时,检验统计量为t统计量,它服从自由度为n-1的t分布。2024/6/2370【实例6.13】某食品公司生产一种罐头,按标准每罐净重为227克,根据以往生产经验罐头重量的标准差为5克。现随机抽查该公司产品100罐,测得平均净重为228克,判断这批罐头是否符合标准?解:第一步第一步提出原假设和备择假设。H0:227 H1:227 第二步第二步选取和计算检验统计量。,代入数值,计算得 Z=3.33 第三步第三步根据显著性水平查临界值。由=0.05,得临界值-Z0.025=-1.96,Z0.025=1.96 第四步第四步进行比较并做出决策。Z=3.33Z0.025=1.96 拒绝H0 即这批罐头不符合标准。2024/6/2371【实例【实例6.146.14】某轮胎制造商在广告中声称,该公司生产的汽某轮胎制造商在广告中声称,该公司生产的汽车轮胎在正常行使条件下平均寿命高于车轮胎在正常行使条件下平均寿命高于2800028000公里。检测部门随公里。检测部门随机挑选了机挑选了4040个轮胎进行测试,结果显示平均行使里程个轮胎进行测试,结果显示平均行使里程2820028200公里,公里,样本标准差为样本标准差为10001000公里,问该制造商广告是否属实?公里,问该制造商广告是否属实?解:第一步第一步提出假设。这需要确定检验的方向。题中制造商称轮胎寿命高于28000公里,表述为28000,其余集为28000,由于等号在原假设上,故28000为原假设H0,28000为备择假设H1,此为右单侧检验。第二步第二步计算统计量。由于总体标准差s未知,用样本标准差S替 代。Z 统计量为 代入数值,得Z=1.26第三步第三步查临界值。因为是右单侧检验,=0.05时其临界值Z0.05=1.645第四步第四步比较做决策。Z=1.26Z0.05=1.645 接受H0 轮胎平均使用寿命不高于28000公里 制造商广告不属实。2024/6/2372【实例【实例6.156.15】某批发商欲从厂家购进一批灯泡,根据合同规定,某批发商欲从厂家购进一批灯泡,根据合同规定,灯泡的平均使用寿命不能低于灯泡的平均使用寿命不能低于10001000小时。从产品中随机抽取小时。从产品中随机抽取100100只灯泡,测得平均寿命为只灯泡,测得平均寿命为960960小时,标准差为小时,标准差为200200小时,请问批发小时,请问批发商是否应该购买这批灯泡?商是否应该购买这批灯泡?解:第一步第一步提假设。H0:1000H1:1000第二步第二步计算检验统计量。采用Z统计量,代入数值,计算得Z=-2第三步第三步查临界值。由=0.05,左单侧检验得临界值-Z0.05=-1.645第四步第四步比较做决策。Z=-2-Z0.05=-1.645拒绝H0即批发商不应当购买这批灯泡。2024/6/2373【实例【实例6.166.16】某食品公司生产袋装食品,采用自动打包机打包。】某食品公司生产袋装食品,采用自动打包机打包。每包标准净重应为每包标准净重应为10001000克,每天开工后需要检验一次打包机工作克,每天开工后需要检验一次打包机工作是否正常。现从产品中随机抽取是否正常。现从产品中随机抽取9 9包,实测每包净重如下:包,实测每包净重如下:987987,993993,10121012,10051005,997997,983983,10211021,995995,10051005,给定显著性水,给定显著性水平平=0.05=0.05,问该日打包机工作是否正常?,问该日打包机工作是否正常?解:由于本题关心的是每包净重是否为1000克,因此是双侧检验问题。又因为是小样本资料,故采用t分布检验法。第一步提假设。H0:1000H1:1000第二步计算检验统计量。,样本平均数=999.8样本标准差S=1.212代入数值,计算得t=-0.495第三步查临界值。
展开阅读全文