资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,抽样推断,第一节 抽样推断概述,第二节 抽样误差,第三节 点估计和区间估计,第四节 必要样本容量的确定,第一节 抽样推断概述,一、抽样推断的概念,抽样推断是按照随机原则从被研究的总体中选取一部分单位进行调查,并利用这一部分单位的数据去估计和推断总体的指标数值的一种统计分析方法。,二、抽样推断的特点,1.,抽样推断遵守随机原则。,2.,以部分单位的指标值,去,推断总体的指标值。,3.,抽样推断的误差可以事先计算和控制。,三、抽样推断的作用,1.,可以用于大规模总体或无限总体的调查,2.,对于具有破坏性的试验或检验,必须进行抽样推断,3.,可以对全面调查资料的质量进行检验与修正,补充全面调查资料,4.,可以用于工业生产过程中的质量控制,5.,可以进行假设检验,判断真伪,决定行为取舍,四、几个基本概念,(一)全及总体和样本总体,1.,全及总体:,也叫母体,是我们进行抽样推断所要认识到研究对象的全体,简称总体。全及总体的单位数通常用,N,表示。,2.,样本总体:,也叫,子,体,是指从总体中随机抽取出来用以代表全及总体的那部分单位所形成的总体,简称样本。,样本总体的单位数称为样本容量,通常用,n,表示。,n30,,样本称为大样本。,n30,,样本称为小样本。,随机样本(随机的)与观测样本(确定的),(二)全及指标和样本指标,1.,全及指标:,又叫参数,是根据全及总体计算的统计指标,如:总体平均数、方差、成数等。,2.,样本指标:,又叫统计量,是根据样本总体计算的统计指标,如样本平均数、方差、成数等。,(三)重复抽样和不重复抽样,1.,重复抽样,:,就是从,N,个总体单位中,抽取一个单位进行观察记录后,把这个元素放回到总体中再抽取第二个单位,直到抽取,n,个单位为止,这样的抽样方法称为重复抽样。,2.,不重复抽样,:,就是指从,N,个总体单位中,抽取一个单位进行观察记录后,不再放回去,再抽取下一个单位,这样连续抽取,n,个单位组成样本的方法,。,(四)样本容量和样本个数,1.,样本容量:,是指一个样本包含单位数。,2.,样本个数:,又称为样本可能数目,是指一个总体中可能抽取的样本个数。它与样本容量、抽样方式等因素有关。一个总体有多少个样本, 样本统计量就有多少种取值,从而可以形成该统计量的分布。(抽样分布),五、抽样推断的组织形式,1.,简单随机抽样,它是不对总体做任何分组或分类,直接按照随机原则从含有,N,个单位的总体中,抽取,n,个单位作为样本,这样的抽样方式称为简单随机抽样,也,称,为纯随机抽样。,2.,分层抽样,在抽样之前先将总体的单位划分为若干层(类),然后从各层中抽取一定数量的单位组成一个样本,这样的抽样方式称为分层抽样,也称为分类抽样,。,3.,系统抽样,先将总体中的各单位按某种顺序排列,并按某种规则确定一个随机起点;然后,每隔一定的间隔抽取一个单位,直至抽取,n,个单位形成一个样本。这样的抽样方式称为系统抽样,也称为等距抽样或机械抽样。,4.,整群抽样,将全部总体单位分为若干部分,每一部分称为一个群,把每一个群作为一个抽样单位,从中抽取部分群,然后对被抽中的群做全面调查,这样的抽样方式称为整群抽样。,六、抽样推断的理论依据,1.,大数定律,随着抽样单位数,n,的增加,抽样平均数有接近总体平均数的趋势,几乎具有实际的必然性。,2.,中心极限定律,不论总体变量的分布如何(只要均值和方差存在),当抽样单位数,n,很大时,抽样平均数近似地服从正态分布。,七、抽样分布,某个样本统计量的抽样分布,从理论上说就是在重复选取容量为,n,的样本时,由每一个样本算出的该统计量数值的相对数频数分布或概率分布。,由于现实中我们不可能将所有的样本都抽出来,因此,统计的抽样分布实际上是一种理论分布。,(一)样本均值的抽样分布,对于无限总体进行不重复抽样时,可以按重复抽样进行处理。对于有限总体,当,N,很大而抽样比,n/N,很小时,不重复抽样样本均值的方差也可以按照重复抽样的公式计算。,(二)样本成数的抽样分布,设总体有,N,个单位,成数为,P,,方差为,P,(,1-P,),从中抽取样本容量为,n,的样本,则:,对于无限总体进行不重复抽样时,可以按重复抽样进行处理。对于有限总体,当,N,很大而抽样比,n/N,5%,时,不重复抽样样本均值的方差也可以按照重复抽样的公式计算。,对于一个具体的样本比例,p,若,np,5,和,n,(,1-p,),5,,就可以认为样本量足够大。,第二节 抽样误差,一、抽样误差的概念,抽样误差:是指由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标与总体指标之间的绝对离差。因此,又称为随机误差,它不包括登记误差,也不包括系统性误差。,二、,抽样平均误差,(一)概念:,抽样平均误差:是反映抽样误差一般水平的指标。,通常用抽样平均数的标准差或抽样成数的标准差来作为衡量其抽样误差一般水平的尺度。,设以 表示抽样平均数的平均误差, 表示抽样成数的平均误差,,M,表示全部可能的样本数目,则:,抽样平均误差,(公式),注:以上公式中的关键是无法得到总体平均数和总体成数,所以按上述公式来计算抽样平均误差实际上是不可能的。,抽样平均数的平均误差,1,、在重复抽样的条件下,抽样平均数的平均误差与总体的变异程度以及样本容量大小两个因素有关:,2,、在不重复抽样的条件下,抽样平均数的平均误差不但和总体变异程度、样本容量有关,而且还与总体单位数有关:其中, 为修正因子。,抽样成数的平均误差:表明各样本成数和总体成数绝对离差的一般水平。,1,、在重复抽样的条件下:,抽样成数的平均误差,2,、在不重复抽样的条件下:,如何确定总体标准差?,(,1,)以抽样调查的历史资料中的方差代替,若有若干同类调查的资料,应选最大的方差。,(,2,)用样本标准差,s,代替总体标准差,用样本是非标志的标准差代替总体是非标志的标准差。,(,3,)组织试验调查,以试验调查的样本方差代替,如有几个试验则取最大的样本方差。,(,4,)成数方差,在资料缺乏时,可以用成数方差的最大值,0.25,代替。,(二)影响抽样误差大小的因素:,1)总体各单位标志值的差异程度。,2)样本的单位数。,3)抽样方法,。,4,)抽样调查的组织形式。,三、抽样极限误差,在抽样估计时,应根据所研究对象的变异程度和分析目的要求确定可允许的误差范围,我们把这种可允许的最大误差范围称为抽样极限误差。,设,x、p,分别表示抽样平均数极限误差和抽样成数极限误差。则有,:,区间 称为平均数的估计区间或称平均数的置信区间。区间 称为成数的估计区间或称成数的置信区间。,四、抽样极限误差的概率度,基于概率估计的要求,抽样极限误差通常需要以抽样平均误差 或 为标准单位来衡量。把极限误差 或 分别除以 或 的得相对数,t,,表示误差范围为抽样平均误差的,t,倍。,t,是测量估计可靠程度的一个参数称为抽样误差的概率度。,第三节 点估计和区间估计,一、点估计,点估计就是通过计算一个统计量,(,样本元素的函数,),,将它作为未知参数的估计。,用来估计参数的统计量叫估计量,估计量的优良性准则,1.,无偏性:,如果一个估计量的数学期望值等于被估计参数,则这个估计量称为被估参数的无偏估计量。,2.,一致性:,若随着样本容量,n,的增大,估计量的值越来越接近于被估计的参数,则该估计量称为一致估计量。,A,B,中位数的抽样分布,均值的抽样分布,X,P,(,X,),3.,有效性:,一个方差较小的无偏估计量称为一个更 有效的估计量。如,与其他估计量相比 ,样本均值是一个更有效的估计量,二、区间估计,1.,置信区间与置信度(置信水平),在确定允许的抽样误差范围后,从主观愿望说,希望抽样调查的结果,样本指标的估计值都能够落在允许的误差范围内,但这并非都能实现的事情。,由于抽样指标值随着样本的变动而变动,它本身是个随机变量,因而抽样指标和总体指标的误差仍然是个随机变量,不能保证误差不超过一定范围的这件事是必然的,而只能给以一定程度的概率保证。,抽样估计置信度(置信水平,把握程度,)就是表明样本均值落在总体均值的两侧各为t(t为正数)个抽样平均误差范围内的概率。,2.,区间估计计算,总体参数区间估计是根据给定的概率保证程度的要求,利用实际抽样资料,指出总体被估计值的上限和下限,即指出总体参数可能存在的区间范围。,已知给定的置信度要求,推算极限误差的可能范围,计算,步骤是:,首先抽取样本,计算样本均值(或成数),作为相应总体均值(或成数)的估计值,并计算样本标准差以推算抽样平均误差。,其次,根据给定的置信度,F(t,),要求,查表求得概率度,t,值。,最后,根据概率度,t,和抽样平均误差来推算抽样极限误差的可能范围,再根据抽样极差求出被估计总体,指,标的上下限,对总体参数作区间估计。,例:某纱厂某时期内生产了,10,万个单位的纱,按纯随机,抽样方式抽取,2000,个单位检验,检验结果合格率为,95%,,废品率为,5%,,试以,95%,的把握程度,估计全部,纱合格品率的区间范围?,已知:,区间下限:,区间上限:,第四节 必要样本容量的确定,当给定置信水平时,样本容量越大,误差越小,估计的精确度就越高。反之,则估计的精确度越低。但是当样本容量一定时,所要求的把握程度越大,即,t,越大时,则误差越大,估计的精确度越低,反之,估计的精确度就越高。,一、概念,在抽样推断中,要想同时提高估计的精确度和把握程度,只有增大样本容量。但是样本容量过大,就会造成不必要的浪费。因此在抽样调查前,就要根据预先确定的精确度和把握程度要求,确定所要抽取的最少样本单位数,即必要样本容量。,二、必要样本容量的确定,推断总体平均数、成数的必要样本容量,(一)重复抽样,(二)不重复抽样,例如:一批产品共有,10000,件,为估计产品的使用寿命,根据试验样本计算得知样本标准差为,4000,小时,如果使可靠程度在,95%,以上,极限误差不超过,600,小时,问至少应抽取多少件产品作为样本?(,t=1.96,,,F,(,t,),=0.95,),三、计算必要样本容量应注意的问题,1.,计算样本容量时,若方差未知,则,(,1,)以抽样调查的历史资料中的方差代替,若有若干同类调查的资料,应选最大的方差。,(,2,)组织试验调查,以试验调查的样本方差代替,如有几个试验则取最大的样本方差。,(,3,)成数方差,在资料缺乏时,可以用成数方差的最大值,0.25,代替。,2.,若在同一次调查中,同时推断总体成数和平均数,根据已知条件计算得到两个样本容量,则取较大的那个。,3.,样本容量应取整数,逢小数就入。,4.,在实际工作中,由于修正系数(,1-n/N,)很接近,1,,有时就用重复抽样的公式计算样本容量。,四、影响样本容量的因素,1.,总体方差(总体的变异程度)。,2.,极限误差。,3.,概率度,t,。,4.,抽样方法。,5.,抽样组织形式。一般,在其他条件不变的情况下,整群抽样所需的样本容量最大,分类、系统抽样较小,简单随机抽样的最小。,本章要求,1.,掌握抽样推断的概念和特点,2.,掌握抽样误差的概念和影响因素,3.,掌握估计量的优良性准则,4.,掌握区间估计的计算方法,5.,掌握必要样本容量的确定方法,影响样本容量的因素,
展开阅读全文