统计学第六章抽样推断.ppt

资源描述

第六章抽样推断,参数估计基本内容假设检验科学的抽样估计方法应具备3个条件:1)要有合适的统计量作为估计量.2)要有合理的允许误差范围.3)要有一个可接受的置信度.,第六章抽样推断,1.1抽样方案的设计1.2简单随机抽样的抽样误差的测定1.3简单随机抽样的抽样估计,1.1抽样方案的设计,一、抽样估计的意义和一般步骤二、抽样方案设计的基本准则,一、抽样估计的意义和一般步骤,抽样估计的定义抽样估计的特点抽样估计的运用抽样估计的一般步骤总体参数与样本指标,指样本单位的抽取不受主观因素及其他系统性因素的影响，每个总体单位都有均等的被抽中机会,抽样估计,第六章抽样推断,按照随机原则从调查对象中抽取一部分单位进行调查，并以调查结果对总体数量特征作出具有一定可靠程度的估计与推断，从而认识总体的一种统计方法,统计推断,全及总体指标：参数（未知量）,样本总体指标：统计量（已知量）,抽样估计,第六章抽样推断,并非所有的抽样估计都按随机原则抽取样本，也有非随机抽样,总体,随机样本,非随机样本,与总体分布特征相同,与总体分布特征不同,第六章抽样推断,按随机原则抽取样本单位目的是推断总体的数量特征抽样推断的结果具有一定的可靠程度，抽样误差可以事先计算并控制,抽样估计的特点,第六章抽样推断,不可能进行全面调查时不必要进行全面调查时来不及进行全面调查时对全面调查资料进行补充修正时,抽样估计的应用,第六章抽样推断,第六章抽样推断,抽样调查研究SamplingStudy,为什么要抽样？1.涉及破坏受试对象质量控制2.取得精确可靠的结果3.实际情况的约束时间，成本等,设计抽样方案,抽取样本单位,收集样本数据,计算样本统计量,推断总体参数,抽样估计的一般步骤,第六章抽样推断,设总体中个总体单位某项标志的标志值分别为，其中具有某种属性的有个单位，不具有某种属性的有个单位，则,总体平均数（又叫总体均值）：,第六章抽样推断,总体单位标志值的标准差：,总体单位标志值的方差：,第六章抽样推断,总体成数：,总体是非标志的标准差：,总体是非标志的方差：,第六章抽样推断,设样本中个样本单位某项标志的标志值分别为，其中具有和不具有某种属性的样本单位数目分别为和个，则,样本平均数（又叫样本均值）：,第六章抽样推断,样本单位标志值的标准差：,样本单位标志值的方差：,样本成数：,样本单位是非标志的标准差：,样本单位是非标志的方差：,第六章抽样推断,1.1抽样方案的设计,一、抽样估计的意义和一般步骤二、抽样方案设计的基本准则三、抽样方案设计的主要内容,随机原则,抽取样本单位时，应确保每个总体单位都有被抽取的可能；在对样本单位的资料进行搜集和整理时，不能随意遗漏或更换样本单位,抽样误差最小,在其他条件相同的情况下，选抽样误差最小的方案,费用最少,在其他条件相同的情况下，选费用最少的方案,设计抽样方案时，通常是在误差达到一定要求的条件下，选择费用最少的方案,抽样方案设计的基本准则,第六章抽样推断,1.1抽样方案的设计,一、抽样估计的意义和一般步骤二、抽样方案设计的基本准则三、抽样方案设计的主要内容,编制抽样框确定抽样方法确定抽样组织方式确定样本容量,三、抽样方案设计的主要内容,编制抽样框,第六章抽样推断,区域抽样框,在商场的大门口,在微波炉柜台前,在市区街道旁边,在某个住宅小区,中山区沙河口区星海街道黑石礁街道尖山一委尖山二委居民一组居民二组,某外国公司在大连进行微波炉市场调查：,第六章抽样推断,时间表抽样框,连续出产的产品总体可以编制抽样框：均匀的出产时间、可以预见到的产品总量。,连续到加油站加油的汽车总体无法编制抽样框：时间不定、总量也无法确定。,第六章抽样推断,确定抽样方法,重复抽样,又被称作重置抽样、有放回抽样,抽出个体,登记特征,放回总体,继续抽取,特点,同一总体单位有可能被重复抽中，而且每次抽取都是独立进行,第六章抽样推断,不重复抽样,又被称作不重置抽样、不放回抽样,抽出个体,登记特征,继续抽取,特点,同一总体中每个单位被抽中的机会并不均等，在连续抽取时，每次抽取都不是独立进行,是最为常用的抽样方法，用于无限总体和许多有限总体样本单位的抽样。,确定抽样方法,第六章抽样推断,确定抽样组织方式,是最简单、最基本、最符合随机原则，但同时也是抽样误差最大的抽样组织形式,第六章抽样推断,总体N,样本n,等额抽取,等比例抽取,能使样本结构更接近于总体结构，提高样本的代表性；能同时推断总体指标和各子总体的指标,确定抽样组织方式,第六章抽样推断,随机起点,半距起点,对称起点,（总体单位按某一标志排序）,按无关标志排队，其抽样效果相当于简单随机抽样；按有关标志排队，其抽样效果相当于类型抽样。,确定抽样组织方式,第六章抽样推断,例：总体群数R=16样本群数r=4,样本容量,简单、方便，能节省人力、物力、财力和时间，但其样本代表性可能较差,确定抽样组织方式,第六章抽样推断,例：在某省100多万农户抽取1000户调查农户生产性投资情况。,确定抽样组织方式,第六章抽样推断,调查对象的性质特点对调查对象的了解程度（抽样框的特点）抽样误差的大小人力、财力和物力等条件的限制,在实际工作中，选择适当的抽样组织方式主要应考虑：,确定抽样组织方式,第六章抽样推断,确定样本容量,n30，为大样本；n30，为小样本,第六章抽样推断,重复抽样的可能样本数目：,不重复抽样的可能样本数目：,确定样本容量,第六章抽样推断,第六章抽样推断,1.1抽样方案的设计1.2简单随机抽样的抽样误差的测定1.3简单随机抽样的抽样估计,一、抽样分布二、抽样估计量的优良标准三、抽样误差的概念四、抽样平均误差五、抽样极限误差,1.2简单随机抽样的抽样误差的测定,主要样本统计量,平均数比率（成数）方差,第六章抽样推断,例：某大公司人事部经理整理其2500个中层干部的档案。其中一项内容是考察这些中层干部的平均年薪及参加过公司培训计划的比例。总体：2500名中层干部，如果：上述情况可由每个人的个人档案中得知，可容易地测出这2500名中层干部的平均年薪及标准差。,假如：1：已经得到了如下的结果：总体均值：51800总体标准差：=4000,上述总体均值、总体标准差、比例均称为总体的参数,2、同时，有1500人参加了公司培训，则参加公司培训计划的比例为：P=1500/2500=0.60,如：上例中的中层干部平均年薪，年薪标准差及受培训人数所占比例均为该公司中层干部这一总体的参数。抽样估计就是要通过样本而非总体来估计总体参数。,如果抽样的样本与前一次的不同，则可得到另外的平均年薪样本均值、标准差以及受训干部的比例。如果多次抽样，则可得到多个不同的结果。下表是一个假设的经过500次抽样后的情况表。,下表给出了500个的频数分布与相对频数分布，,图4.1500个的相对频数分布,这里，的相对频数分布，就称为的抽样分布。,正是抽样分布及其特征使得用样本统计量估计总体参数的“精确程度”能够给予概率上的描述。,一般地，样本统计量的可能取值及其取值概率所形成的概率分布，统计上称为抽样分布（samplingdistribution)。,精确度,可靠度,平均数的抽样分布,全部可能样本平均数的均值等于总体均值，即：从非正态总体中抽取的样本平均数当n足够大时其分布接近正态分布。从正态总体中抽取的样本平均数不论容量大小其分布均为正态分布。样本均值的标准差为总体标准差的。,第六章抽样推断,比率的抽样分布,全部可能样本比率的均值等于总体比率，即：从非正态总体中抽取的样本比率，当n足够大时其分布接近正态分布。从正态总体中抽取的样本比率，不论容量大小其分布均为正态分布。样本比率的标准差为总体标准差的。,第六章抽样推断,样本比率的抽样分布是样本比率所有可能值的概率分布。,样本抽样分布,原总体分布,第六章抽样推断,一、抽样分布二、抽样估计量的优良标准三、抽样误差的概念四、抽样平均误差五、抽样极限误差,1.2简单随机抽样的抽样误差的测定,抽样估计量的优良标准,设为待估计的总体参数，为样本统计量，则的优良标准为：,若，则称为的无偏估计量,第六章抽样推断,若，则称为比更有效的估计量,若越大越小，则称为的一致估计量,抽样估计量的优良标准,第六章抽样推断,抽样估计量的优良标准,第六章抽样推断,一、抽样分布二、抽样估计量的优良标准三、抽样误差的概念四、抽样平均误差五、抽样极限误差,1.2简单随机抽样的抽样误差的测定,第六章抽样推断,第六章抽样推断,影响因素,1、样本单位数。（越大，误差越小）2、总体内各单位被研究标志的变异程度。（越大，误差越大）3、抽样方法。（不重复小于重复）4、抽样组织形式。（通常采用机械和类型抽样方式组织抽样调查）,一、抽样分布二、抽样估计量的优良标准三、抽样误差的概念四、抽样平均误差五、抽样极限误差,1.2简单随机抽样的抽样误差的测定,抽样平均误差,指每一个可能样本的估计值与总体指标值之间离差的平均数，即样本估计量的标准差,式中：为样本平均数的抽样平均误差；为可能的样本数目；为第个可能样本的平均数；为总体平均数,注意：不要混淆抽样标准差与样本标准差！,第六章抽样推断,例现有A、B、C、D四名工人构成的总体，他们的日产量分别为22、24、26、28件。从四名工人中任取两名构成一个样本，请利用重复抽样和不重复抽样的方法计算抽样平均误差。,【分析】,先计算出三类数值：,根据抽样平均误差的计算公式，我们必须,本题要求我们计算抽样平均误差。,可能样本总数。,总体平均日产量、,样本平均日产量、,总体平均日产量,1、重复抽样。,样本数为,2、不重复抽样。,样本数为,但是，上面计算抽样平均误差的这个理论公式，在实际应用上会存在两个困难：,运用这个公式要求把所有的样本都抽选出来，然后计算它们的指标数值。这在实际应用过程中几乎是不可能的。,运用上面公式要求总体平均数的数值是已知的。但实际上，总体平均数的数值是未知的，它正是抽样调查要推断的。,抽样平均误差的计算公式,样本平均数的抽样平均误差,当N500时，有,重复抽样时：,不重复抽样时：,第六章抽样推断,如果总体单位数很“大”而样本容量很“小”，则该修正因子趋近于1，这时，对不重复抽样可直接按重复抽样的公式去计算。一个经验的衡量标准是n/N=0.05。,称为修正因子,样本成数的抽样平均误差,重复抽样时：,不重复抽样时：,当N500时，有,抽样平均误差的计算公式,第六章抽样推断,影响抽样误差的因素,总体各单位的差异程度（即标准差的大小）：越大，抽样误差越大；样本单位数的多少：越大，抽样误差越小；抽样方法：不重复抽样的抽样误差比重复抽样的抽样误差小；抽样组织方式：简单随机抽样的误差最大。,第六章抽样推断,一、抽样分布二、抽样估计量的优良标准三、抽样误差的概念四、抽样平均误差五、抽样极限误差,1.2简单随机抽样的抽样误差的测定,68.27%,95.45%,99.73%,抽样极限误差,第六章抽样推断,抽样极限误差,指在一定的概率保证程度下，抽样误差不允许超过的某一给定范围，也称作允许误差、误差范围、误差置信限等,由于提高把握程度，会增大允许误差，使估计精度降低，而缩小允许误差，提高估计的精度，又会降低估计的把握程度，所以在实际中应根据具体情况，先确定一个合理的把握程度再求相应的允许误差或先确定一个允许误差范围再求相应的把握程度。,第六章抽样推断,抽样极限误差的计算公式,（大样本条件下）,Z为概率度，是给定概率保证程度下样本均值偏离总体均值的抽样平均误差的倍数。,第六章抽样推断,Z与相应的概率保证程度存在一一对应关系，常用Z值及相应的概率保证程度为：,z值概率保证程度1.000.68271.650.90001.960.95002.000.95452.580.99003.000.9973,抽样极限误差的计算公式,（大样本条件下）,第六章抽样推断,标准正态分布函数值表,注意：1、统计学上往往用抽样极限误差来测度抽样误差的大小或者说测度点估计的精度。原因：总体参数值往往并不知道，因此，实际抽样误差与抽样平均误差也往往无法求出，但在抽样分布大体知道的情况下，抽样极限误差是可以估计出来的。,一定概率下抽样误差的可能范围（也称允许误差）：,2、抽样极限误差的估计总是要和一定的概率保证程度联系在一起的。,原因：样本统计量往往是一随机变量，它与总体参数真值之差也是一个随机变量，因此就不能期望某次抽样的样本估计值落在一定区间内是一个必然事件，而只能给予一定的概率保证。因此，在进行抽样估计时，既需要考虑抽样误差的可能范围，同时还需考虑落到这一范围的概率大小。前者是估计的准确度问题，后者是估计的可靠性问题，两者紧密联系不可分开。这也正是区间估计所关心的主要问题。,第六章抽样推断,1.1抽样方案的设计1.2简单随机抽样的抽样误差的测定1.3简单随机抽样的抽样估计,一、点估计二、区间估计三、样本数目的确定,1.3简单随机抽样的抽样估计,第六章抽样推断,用样本统计量（samplestatistics）可以作为其对应的总体的点估计量（pointestimator)。但要估计总体的某一指标，并非只能用一个样本指标，而可能有多个指标可供选择，即对同一总体参数，可能会有不同的估计量。,点估计量的性质：估计量优劣的衡量,作为一个好的点估计量，统计量必须具有如下性质：无偏性、有效性、一致性,在上例中，假如随机抽取了一个容量为30的样本：年薪是否参加过培训计划49094.3Yes53263.9Yes49643.5Yes,点估计（PointEstimation）,假如根据该样本求得的年薪样本平均数、标准差及参加过培训计划人数的比例分别为：,则可用上述结果分别代表2500名中层干部的平均年薪、年薪的标准差及受训比例。,上述估计总体参数的过程被称为点估计（pointestimation）；样本均值（标准差/比例）称为总体均值（标准差/比例）的点估计量（pointestimator）；样本均值（标准差/比例）的具体数值称为总体均值（标准差/比例）的点估计值（pointestimate）。由于点估计量是由样本测算的，因此也称为样本统计量。,一、点估计二、区间估计三、样本数目的确定,1.3简单随机抽样的抽样估计,二、区间估计,区间估计的定义和原理总体平均数的区间估计总体成数的区间估计,区间估计,指根据样本指标和抽样极限误差以一定的可靠程度推断总体指标的可能范围；其中，被推断的总体指标的下限与上限所包括的区间称为置信区间，估计的可靠程度也称为置信度。,（这里只讨论常用的大样本的情况）,第六章抽样推断,是根据样本估计量以一定的可靠程度推断总体参数所在的区间范围。,一般地，设总体参数为，L、U为由样本确定的两个统计量值，对于给定的（0=30,yes,No,yes,No,yes,yes,No,No,【例】某商场从一批袋装食品中随机抽取10袋，测得每袋重量（单位：克）分别为789、780、794、762、802、813、770、785、810、806。要求以95%的把握程度，估计这批食品的平均每袋重量的抽样极限误差。,总体成数的区间估计,表达式,其中，为极限误差,第六章抽样推断,步骤,计算样本成数；,搜集总体方差的经验数据；,计算抽样平均误差：,重复抽样条件下,不重复抽样条件下,总体成数的区间估计,第六章抽样推断,步骤,计算抽样极限误差：,确定总体成数的置信区间：,总体成数的区间估计,第六章抽样推断,【例B】若例A中工人日产量在118件以上者为完成生产定额任务，要求在95的概率保证程度下，估计该厂全部工人中完成定额的工人比重及完成定额的工人总数。,总体成数的区间估计,第六章抽样推断,100名工人的日产量分组资料,完成定额的人数,第六章抽样推断,解：,第六章抽样推断,则该企业全部工人中完成定额的工人比重及完成定额的工人总数的置信区间为：,即该企业工人中完成定额的工人比重在0.8432至0.9568之间，完成定额的工人总数在843.2至956.8人之间，估计的可靠程度为95。,第六章抽样推断,一、点估计二、区间估计三、样本数目的确定,1.3简单随机抽样的抽样估计,三、样本容量的确定,确定样本容量的意义推断总体平均数所需的样本容量推断总体成数所需的样本容量必要样本容量的影响因素,样本容量,调查误差,调查费用,小样本容量节省费用但调查误差大,大样本容量调查精度高但费用较大,找出在规定误差范围内的最小样本容量,确定样本容量的意义,找出在限定费用范围内的最大样本容量,第六章抽样推断,确定方法,推断总体平均数所需的样本容量,重复抽样条件下：,通常的做法是先确定置信度，然后限定抽样极限误差。,或S通常未知。一般按以下方法确定其估计值：过去的经验数据；试验调查样本的S。,计算结果通常向上进位,第六章抽样推断,不重复抽样条件下：,确定方法,推断总体平均数所需的样本容量,第六章抽样推断,【例A】某食品厂要检验本月生产的10000袋某产品的重量，根据上月资料，这种产品每袋重量的标准差为25克。要求在95.45的概率保证程度下，平均每袋重量的误差范围不超过5克，应抽查多少袋产品？,第六章抽样推断,第六章抽样推断,确定方法,推断总体成数所需的样本容量,重复抽样条件下：,第六章抽样推断,不重复抽样条件下：,确定方法,推断总体成数所需的样本容量,第六章抽样推断,【例B】某企业对一批总数为5000件的产品进行质量检查，过去几次同类调查所得的产品合格率为93、95、96，为了使合格率的允许误差不超过3，在99.73的概率保证程度下，应抽查多少件产品？,【分析】因为共有三个过去的合格率的资料，为保证推断的把握程度，应选其中方差最大者，即P=93。,第六章抽样推断,第六章抽样推断,必要样本容量的影响因素,总体方差的大小；允许误差范围的大小；概率保证程度；抽样方法；抽样的组织方式。,第六章抽样推断,说明：,4、重复抽样应比不重复抽样抽取较多的单位数。,1、总体方差（是非标志总体为P(1-P)）越大，表明离散程度越大，应抽取较多的单位数。,2、允许误差（或者）越小，表明推断的精度要求增高，应抽取较多的单位数。,3、置信水平越大，表明推断的可靠程度要求增高，应抽取较多的单位数。,抽样复查的方法,修正系数为,则：,该企业集团所拥有的固定资产原值应为16.8510.9507=16.020（亿元）,第六章抽样推断,中心极限定理的内容,中心极限定理是指从总体中抽取样本容量为n的样本，当样本容量足够大时，其统计量的分布可用正态概率分布近似。,上图中，在图的上部分中，三个总体分别为均匀分布、U形分布和J形分布，即都是非正态的。随着样本容量的增加，抽样分布开始发生变化。当样本容量为2时，抽样分布开始呈现与总体分布不同的外形；当样本容量为5时，抽样分布开始呈现一个钟形；当样本容量为30时，三个抽样分布近似于同一种分布，即正态分布。因而，当样本容量足够大时，抽样分布可用正态概率分布近似。,t分布,样本统计量的抽样分布，并不完全服从正态分布，而是服从与正态分布相似的t分布。当样本容量不大于30，而且总体标准差未知时，可以使用t分布。t分布为对称分布。对于不同的样本容量都有一个不同的t分布，随着样本容量增加，t分布的形状由平坦逐渐变得接近正态分布。当样本容量大于30时，t分布就非常接近于正态分布。,假设检验在统计方法中的地位,假设检验,所谓假设检验，就是事先对总体参数或总体分布形式作出一个假设，然后利用样本信息来判断原假设是否合理，即判断样本信息与原假设是否有显著差异，从而决定是否接受或否定原假设,一、与参数估计的推断角度不同。它是先对总体参数的值提出一个假设，然后利用样本信息去检验假设是否成立。二、首先提出原假设和替换假设（备择假设）三、进行假设正确性检验是基于“小概率事件原理”要确定显著性水平，通常取0.05、0.1、0.01四、双侧检验、单侧检验,假设检验的过程（提出假设抽取样本作出决策）,假设检验的步骤提出原假设和备择假设确定适当的检验统计量规定显著性水平计算检验统计量的值作出统计决策,提出原假设和备择假设,什么是原假设？1.待检验的假设，又称“0假设”2.如果错误地作出决策会导致一系列后果3.总是有等号,或4.表示为H0H0：某一数值指定为=号，即或例如,H0：3190（克）,什么是备择假设？1.与原假设对立的假设2.总是有不等号:,或3.表示为H1H1：1020检验统计量：,比较：计算的Z=2.4Z=1.645判断：拒绝H0，接受H1，即这批产品的寿命确有提高。,（二）总体方差未知，正态总体，小样本,注：如果总体分布也未知，则没有适当的统计量进行假设检验，唯一的解决办法是增大样本，以使样本均值趋向于正态分布，从而再采用Z统计量。,这时只能用t统计量进行假设检验：,【例】某厂采用自动包装机分装产品，假定每包产品的重量服从正态分布，每包标准重量为1000克。某日随机抽查9包，测得样本平均重量为986克，样本标准差为24克。试问在0.05的检验水平上，能否认为这天自动包装机工作正常？,二、总体比例的假设检验,大样本下，样本比例趋向于正态分布，因此可通过构造Z统计量的方法进行假设检验：,注：1、如果总体比例P未知，可用样本比例p替代。2、Z统计量只适合大样本情况下的总体比例检验。,【例】某研究者估计本市居民家庭的电脑拥有率为30%。现随机抽查了200个家庭，其中68个家庭拥有电脑。在10%的置信水平下，试问该研究者的估计是否可信？,区间估计与假设检验的关系1、区别：区间估计是依据样本资料估计总体的未知参数的可能范围；假设检验是根据样本资料来检验对总体参数的先验假设是否成立。,区间估计通常求得的是以样本为中心的双侧置信区间；假设检验不仅有双侧检验也有单侧检验。,2、联系都是根据样本信息对总体参数进行推断；都是以抽样分布为理论依据；都是建立在概率基础上的推断，推断结果都有风险；对同一问题的参数进行推断，使用同一样本、同一统计量、同一分布，因而二者可以相互转换。,区间估计立足于大概率，通常以较大的把握程度（可信度）1-去估计总体参数的置信区间；,假设检验立足于小概率，通常是给定很小的显著性水平去检验对总体参数的先验假设是否成立。,假设检验中的P值,假设检验的结论是在给定的显著性水平下作出的。因此，在不同的显著性水平下，对同一问题所下的结论可能完全相反（下图）。,红点：在0.1的显著性水平下，拒绝原假设；,在0.05的显著性水平下，接受原假设。,在例1中，检验统计量的值Z=2.4，由于Z服从正态分布N(0,1)，则可求得统计量大于2.4的概率：P(Z2.4)=0.008,假设检验P值的提出：,通常：把这种“拒绝原假设的最小显著性水平”称为假设检验的P值。,因此，若选定显著性水平0.008，则Z=2.4Z，Z值落入拒绝域若选定显著性水平0.008，则Z=2.4P，则在显著性水平下拒绝原假设；如果=P，则在显著性水平下接受原假设。,

展开阅读全文

统计学第六章抽样推断.ppt

最新文档