统计学抽样推断

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第八章抽样推断,第八章抽样推断,本章主要内容,第一节抽样推断的基本问题,第二节抽样误差,第三节抽样估计,第三节抽样组织实施,返回,第一节抽样推断的基本问题,一、抽样推断的概念,二、抽样推断的特点,三、抽样推断的适用范围,四、抽样推断的有关概念,五、抽样方法,返回,第一节抽样推断的基本问题,一、抽样推断的概念,抽样推断是指从被研究现象的总体中按照随机原则抽取一部分单位进行调查，并依据调查结果对全部研究对象的数量特征作出具有一定可靠程度的估计，以达到对全部研究对象认识的一种统计方法。,抽样包括抽样调查和抽样推断两部分。,抽样推断包括两个有联系但又具有一定差别的方面，即估计和检验,二、抽样推断的特点,（一）按照随机原则从总体中抽取样本单位。,（二）用样本单位的指标数值推断总体的指标数值。,（三）抽样误差可以事先计算并加以控制。,第一节抽样推断的基本问题,三、抽样推断的适用范围（需要掌握总体的具体数据）,（一）不能进行全面调查,（二）理论上可以进行全面调查实际上办不到,（三）没有必要进行全面调查,（四）可以验证和补充全面调查资料,四、抽样调查的理论基础,（一）大数定律,大数定理是关于大量的随机先行的均值具有稳定性的定理。,1、贝奴里大数定理,2、契比雪夫大数定理,（二）中心极限定理,证明某一分布的极限分布为正态分布的定理为中心极限定理。,第一节抽样推断的基本问题,大数定理,只论述了抽样平均效趋近于总体平均数的趋势。但是抽样平均致与总体平均数的离差有多少？离差不超过一定范围的概率有多大？这个离差的分布如何？这些问题则要应用,中心极限定理,来答。俄国数学家李亚普诺夫(Liapounov)给出了这个中心极限定理：如果总体存在有限的平均数和方差，那么不管总体是否属于正态分布，只要当抽样单位数不断增加，抽样平均数的分布也就趋近于正态分布。这个定理就为抽样误差的估计提供了理论依据，使抽样估计有了科学基础。后面阐述的抽样误差范围估计的可靠程度就是根据这个原理出发的。,第一节抽样推断的基本问题,五、抽样推断的有关概念,（一）全及总体和抽样总体,1、全及总体（总体 N）：所要认识对象的全体。,（1）有限总体（2）无限总体,2、抽样总体（样本 n）：所抽取的一部分单位。,（1）大样本（n30）（2）小样本（n30）,（二）全及指标和抽样指标,1、全及指标：用来描述全及总体的指标,2、抽样指标：根据样本单位计算的指标,X,(三）反映总体特征的主要指标,对于变量总体，反映总体集中分布趋势的算术平均数,反映总体离中分布趋势的方差或标准差,X,X,第一节抽样推断的基本问题,五、抽样方法,(一)按抽取样本单位的方法不同,1、重复抽样 2、不重复抽样,（二）根据对样本的要求不同,1、考虑顺序的抽样 ABBA,2、不考虑顺序的抽样 AB=BA,第一节抽样推断的基本问题,（三）两种分类交叉,1、考虑顺序的不重复抽样,2、考虑顺序的重复抽样,3、不考虑顺序的不重复抽样,4、不考虑顺序的重复抽样,第二节抽样误差,一、抽样平均误差,（一）概念,（二）计算,1、简单随机抽样,2、类型抽样,3、等距抽样,4、整群抽样,5、阶段抽样,（三）影响抽样平均误差的因素,二、抽样极限误差,三、抽样极限误差与抽样平均误差的关系,返回,一、抽样平均误差,（一）抽样平均误差的概念,1、登记汇总性误差,2、代表性误差,（1）偏差,（2）随机误差,实际误差,平均误差,（二）抽样平均误差的计算,1、简单随机抽样,（1）概念：是对总体单位不作任何分类或排队，完全按随机原则逐个地抽取样本单位。,（2）抽样平均误差的计算公式,平均数的抽样平均误差,成数的抽样平均误差,假设某村种植的甜菜按不同的收获量分成五个地块，资料如下表：,在重复抽样下，样本变量是独立的。则,（3）例题,某冷库冻鸡平均每只重1200克，标准差70克，如果重复随机抽取100只和200只，分别计算,抽样平均误差。,该,冷库冻鸡合格率为97%，如果重复随机抽取100只和200只，分别计算,抽样平均误差。,2、类型抽样,（1）概念：,类型抽样是将总体全部单位按某个标志分成若干个类型组，然后从各类型组中采用简单随机抽样方式或其它方式抽取样本单位。,（2）样本单位数在各类型组中的分配方式,等额分配：在各类型组中分配同等单位数。,等比例分配：按各类型组在总体中所占比例分配样本单位数。即：,最优分配：按各类型组的规模大小和差异程度，确定各类型组的样本单位数。,（3）抽样平均误差的计算公式,平均数的抽样平均误差,重复,不重复且等比例,成数的抽样平均误差,重复,不重复且等比例,（4）例题,有12块小麦地，每块1亩。6块处于丘陵地带，亩产量（斤）分别为：300 330 330 340 370 370 。 6块处于平原地带，亩产量（斤）分别为：420 420 450 460 490 520。抽查4块，测定12块地的平均亩产量，计算其抽样误差。,设亩产在350以上的为高产田，抽查4块，测定12块地高产田的比重，计算其抽样误差。,用类型抽样，每类抽2块,计算各组方差平均组内方差抽样误差,亩产量,300,1600,330,100,330,100,340,0,370,900,370,900,合计,3600,亩产量,420,1600,420,1600,450,100,460,0,490,900,520,3600,合计,7800,丘陵,平原,地块数,高产田数,高产田比重%,丘陵,6,2,33.3,66.67,22.2,平原,6,6,100,0,0,3、等距抽样,（1）概念：将总体各单位标志值按某一标志顺序排队，然后按一定的间隔抽取样本单位。,（2）排对的方法,无关标志排队有关标志排队,（3）抽取样本单位的方法,按相等的距离取样,对称等距取样,（4）抽取第一个样本单位的方法,随机抽取居中抽取,（5）抽样平均误差的计算公式,按无关标志排队：同不重复简单随机抽样,按有关标志排队, 亩产量（）：300 330 330, 亩产量（）：340 370 370, 亩产量（）：420 420 450, 亩产量（）：460 490 520,上例，抽选间隔为,（6）例题,4、整群抽样,(1)概念：把总体分为若干群，从总体群中抽取若干样本群，对抽中的群进行全数登记调查。,（2）抽样平均误差的计算公式,某水泥厂一昼夜的产量为14400袋，现每隔144分钟抽取1分钟的水泥（10袋）检查平均每袋重量和一级品率，样本资料如下：,计算抽样平均误差,（3）例题,样本群,平均每袋重量,一级品比重,1,49,2.25,0.80,0,2,51,0.25,0.75,0.0025,3,52,2.25,0.83,0.0009,4,53,6.25,0.82,0.0004,5,50,0.25,0.80,0,6,49,2.25,0.79,0.0001,7,50,0.25,0.78,0.0004,8,48,6.25,0.80,0,9,50,0.25,0.81,0.0001,10,53,6.25,0.82,0.0004,合计,505,26.25,8.00,0.0048,一昼夜有1440分钟，即把总体分为1440群，R=1440,每隔144分钟抽取1分钟的水泥（10袋），r= 10,5、阶段抽样,（1）概念：抽样时，先抽总体中较大范围的单位，再从中选的较大范围的单位中抽取较小范围的单位，依此类推，最后得到样本的基本单位。,（2）抽样平均误差的计算公式（以两阶段为例）,同理可以得出成数抽样平均误差的计算公式,（3）例题：某地区有300户居民，分成10群，现从10群中抽6群，再从抽中的群中每群抽2户调查其平均收入，计算抽样平均误差。资料如下：,群1：300 330（户收入）,n=rm,群2：户收入330 340,群3：户收入370 390,群4：户收入418 434,群5：户收入462 484,群6；户收入507 525,（三）影响抽样平均误差的因素,1、总体标准差的大小,2、样本单位数的多少,3、抽样方法的不同,4、抽样组织方式的差别,二、抽样极限误差,1、在做抽样估计时，应根据所研究现象的变异程度和分析任务的要求,确定可允许的误差范围，在这个范围内的数字都算有效,，,这种可允许的误差范围称为抽样极限误差。,2、抽样极限误差等于样本指标可允许变动的上限或下限与总体指标之差的绝对值。,4、,三、抽样误差的概率度,用抽样误差概率度 t表示误差范围为抽样平均误差的 t倍。,当t=1时，F,(t),=68.27%,当t=2时, F,(t),=95.45%,当t=3时, F,(t),=99.73%,三、抽样极限误差与抽样平均误差的关系,（一）抽样分布,据中心极限定理，当总体为正态或总体非正态但n30时，样本均值的分布趋近于正态分布；当n足够大时，样本成数的分布近似为正态分布。,（二）关系,令,返回,第三节抽样估计的方法,一、总体参数的点估计,1、,参数点估计,的特点：根据总体指标的结构形式设计样本指标（称统计量）作为总体参数的估计量，并,以样本指标的实际值直接作为相应总体参数的估计值,。,2、公式：,以样本的平均数作为总体平均数的估计值。,以样本的成数p作为总体成数P的估计值。,3、成为优良估计的标准,无偏性,：即以抽样指标估计总体指标要求抽样指标值的平均数等于被估计的总体指标值本身。,抽样平均数的平均数等于总体平均数。,抽样成数的平均数等于总体成数。,一致性,：要求当样本的单位数充分大时，抽样指标也充分地靠近总体指标。,有效性,：以抽样指标估计总体指标要求作为优良估计量的方差比其他估计量的方差小。,4、总体参数点估计的特点：,优点,：简便、易行、原理直观,缺点,：这中估计没有表明抽样估计的误差，更没有指出误差在一定范围内的概率保证程度有多大。,二、抽样估计的置信度：,1、,抽样估计置信度,就是表明抽样指标和总体指标的误差，不超过一定范围的概率保证程度。,2、,概率,是指在随机事件进行大量实验中，某种时间出现的可能性大小，它可以用某种事件出现的频率表示。,3、,抽样估计的概率保证程度,就是指抽样误差不超过一定范围的概率大小，用字母F,(t),表示。下面是常用的几个数据：,当t=1时，F,(t),=68.27% 当F,(t),=80%, t=1.28,当t=2时, F,(t),=95.45% 当F,(t),=90%, t=1.64,当t=3时, F,(t),=99.73% 当F,(t),=95%, t=1.96,当F,(t),=99%，t=2.58,四、总体参数的区间估计,1、,总体参数区间估计,是根据给定的概率保证程度的需求，利用实际抽样资料，指出总体被估计值的上限和下限，即指出总体参数可能存在的区间范围，而不是直接给出总体参数的估计值。,2、,3、进行总体参数区间估计应具备的要素：,估计值、抽样误差范围、概率保证程度,抽样误差范围决定估计的准确性，概率保证程度决定估计的可靠性。,抽样误差范围越大，准确性越低，反之就越高；,概率保证程度越大，可靠性越高，反之就越低。,在抽样估计时，希望准确性高些，可靠性大些，但两者同时实现是有矛盾的。,4、总体参数区间估计的方法：,根据已经给定的抽样误差范围，求概率保证程度。,步骤：,抽取样本计算抽样指标（作为总体指标估计值）计算标准差、抽样平均误差估计总体指标的上、下限求出t ，查表得F,t,根据给定的置信度要求，来推算抽样极限误差的可能范围：,步骤：,抽取样本，计算抽样指标计算标准差，抽样平均误差根据F,t,查出t值计算极限误差求出估计总体指标的上下限，作区间估计,例：参见教材,例：某超市通过100位的样本研究每次购买额，均值和标准差分别为80元和20元，,在置信水平为90%的条件下建立100位顾客,购买额,的置信区间。,t= 1.64,所有顾客,购买额在76.71和83.29之间。,第四节抽样组织实施,一、抽样单位数目的计算,（一）简单随机抽样,（二）类型抽样,（三）等距抽样,（四）整群抽样,二、影响,抽样单位数目的因素,返回,一、抽样单位数目的计算,（一）简单随机抽样,（1）某类产品根据以往资料的估计，总体方差5.456千克，现对一批进行简单随机抽样以推断该批产品的平均重量，要求可靠程度达到99.73%，误差范围不超过0.9千克，需要抽多少样本单位？,按题意 t=3,（2）根据以往资料的估计，该类产品的一等品率为,90%，可靠程度仍为99.73%，误差范围不超过5%，推断该批产品的一等品率，需要抽多少样本单位？,按题意 t = 3,（二）类型抽样,某工厂早、中、晚生产罐头10000瓶，根据以往资料的估计平均重量的类型平均方差为0.549克，合格率的类型平均方差为0.02787，要求可靠程度为何95%，平均重量的允许误差为0.11克,合格率的允许误差为0.025，用类型抽样推断10000瓶罐头的平均重量和合格率，需要抽多少样本单位？,据题意 t = 1.96,（三）等距抽样,计算公式,（1）按有关标志排队,同类型重复抽样,（2）按无关标志排队,同简单随机不重复抽样,（四）整群抽样,1、计算公式,2、例题：某水泥厂对一昼夜所生产的14400袋（1440群）水泥抽样检查其质量，根据以往资料，水泥平均重量的群间方差为2.65，允许误差为1.5公斤；一级品率的群间方差为0.00048，允许误差为0.015，要求可靠程度为95.45%，,需要抽多少样本群？,据题意：,二、影响抽样单位数目的因素,（一）总体各单位的变异程度,（二）抽样推断的准确程度,（三）抽样推断的可靠程度t,（四）抽样的组织形式,（五）抽样的方法,返回,第四节抽样估计,一、估计量的优良标准,二、抽样估计的方法,（一）点估计,（二）区间估计,1、平均数的区间估计,2、成数的区间估计,3、2个总体平均数之差的估计,4、两个总体比例之差的估计,返回,一、估计量的优良标准（一）无偏性,1、概念：如果样本统计量的期望值等于该统计量所估计的总体参数，这个估计量叫无偏估计量。,2、样本平均数是总体平均数的无偏估计量,总体变量值有N个（），样本容量为n个（）。,（1）重复抽样,（2）不重复抽样,3、样本成数是总体成数的无偏估计量,4、样本方差是总体方差的无偏估计量,（二）有效性：有两个无偏估计量（），如果那个估计量与总体参数间的平均离差小，这个估计量更有效。,和都是的无偏估计量，与间的平均离差为，与间的平均离差为，所以在估计,（P ）时， ( p ) 更有效。,（三）一致性：随着样本容量的增大，估计量与被估参数的偏差越来越小。,是的一致估计量。有限总体时，n最大为N，这时 = ；无限总体时，当n 时，与间的偏差（）的极限为0。p( )是P( )的一致估计量。,二、抽样估计的方法,（一）点估计,（二）区间估计,1、平均数的区间估计,(1)样本取自总体方差已知的正态分布(大、小样本）,返回,某制造厂质量管理部门希望估计本厂生产的5500包原材料的平均重量，抽出250包，测得平均重量65千克。总体标准差15千克。总体为正态分布，在置信水平为95%的条件下建立这种原材料的置信区间。,5500包原材料的平均重量在63.14,66.86,之间。,(2) 正态总体总体方差未知且小样本,因总体方差未知，只能用代替，,而n很小常常与差异较大，就不再是一个标准正态分布，而是一个t分布。,例：为了估计一分钟广告的平均费用，抽出15个电视台组成样本，得样本均值10000元，标准差2000元。总体近似服从正态分布，在置信水平为95%的条件下建立广告平均费用的置信区间。,电视台一分钟广告的平均费用在8894,11106,之间。,（3）正态总体总体方差未知且大样本,总体方差未知，只能用来代替，因n很大，就是的一个较好的估计量，仍然是一个近似的标准正态分布。,(4)样本取自总体方差已知的非正态分布,某职业介绍所从申请某一职业的1000名申请者中采用不重复抽样方式随机抽取了200名，以此来估计1000名的平均成绩。200名的平均分为78，由以往经验知总体方差90，不知总体服从何种分布。在置信水平为90%的条件下建立1000名申请者平均成绩的置信区间。,1000名申请者平均成绩在77,79,之间。,2、成数的区间估计,例1:某企业在一项关于职工流动原因的研究中，从原职工中随机抽取了200人访问，有140人离开的原因是工资太低。以95%的置信水平对总体这种原因离开的人员比例进行区间估计。,该企业由于工资低离开的职工比例为63.6% 与76.4%之间,例2,对一批灯泡抽取1%进行质量检验，结果为平均寿命1010小时，抽样平均误差5.6小时;合格率92%，抽样平均误差2.4%。要求在95%的可靠程度下，对该批灯泡的平均寿命和合格率进行,区间估计。,据题意,p=92%,3、2个总体平均数之差的估计,我们经常希望对来自2个不同总体的平均数进行比较（）。而往往无法直接得到其数据，只能用样本数据（）对其作出估计。,（1）2个样本平均数之差的抽样分布,如果有2个正态总体，其平均数分别为和，方差分别为和，那么从2个正态总体中抽取的容量分别为和的2个独立样本的平均数之差,也一定服从均值为，方差为,的正态分布。如果是从2个非正态总体中抽,取2个独立的样本，只要，根据中心极限定理，样本平均数之差的抽样分布就会逼近正态分布，,（2）2个总体平均数之差的估计,2个正态总体且方差已知,例：某银行负责人想知道储户两家银行的钱数，随从每家各抽取25个储户。样本平均值为：，,。两个总体均服从方差分别为和的正态分布。在95%的置信水平下对总体平均数之差进行区间估计。,有95%的把握认为总体平均数之差在1200.42和1299.58之间。,两个正态总体方差未知但相等（小样本）,首先求出共同方差的估计值，用加权平均数，权数是它们的自用度。,这时，其统计量服从自由度为的t分布，标准差为：,总体平均数之差的置信区间为：,例：某工厂中有两台生产金属棒的机器，分别抽取11根和21根。两个样本的数据为：英寸，英寸；，。假定两个总体近似服从正态分布，且总体方差相等。,在95%的置信水平下对总体平均数之差进行区间估计。,有,95%的把握认为两台机器所生产金属的平均长度差别在0.05和0.25英寸之间。,两个正态总体方差未知且不等（小样本）,其统计量,不服从自,由度为的t分布，而服从自由度为的t分布，,置信区间为：,例：上例中总体方差不等。,有95%的把握认为两台机器所生产金属的平均长度差别,在0.04和0.26英寸之间。,两个非正态总体方差未知（大样本）,例；,A、B,两所大学某期末英语考试采用同一试题。,A,校,认为该校学生成绩能比,B,校高,10分。为了证实，从两校各抽取一个样本，样本资料如下：人，人，分，，，。在95%的置信水平下确定两校平均分之差的置信区间。,有,95%的把握认为两校成绩之差在2.3和7.3之间。,4、两个总体比例之差的估计,在大样本且总体比例不太接近0或1时,两个独立样本的比例之差的抽样分布近似服从正态分布,其平均值为 ,标准差为：,例：某企业有两个车间，对B车间的工人首先进行业务培训。3个月后，对两个车间的产品进行检验。从车间A抽取200件，从车间B抽取220件，废品率为,。在95%的把握程度下构造两车间废品率之差的置信区间。,有95%的把握认为两车间,废品率之差在6.6%和17.4%之间.,返回,

展开阅读全文

统计学抽样推断

最新文档