经济学抽样推断PPT课件

资源描述

7.1抽样推断概述一、抽样推断的概念 “抽样推断、抽样调查和抽样估计”基本上是相同的意思。回顾第二节“抽样调查”的概念抽样推断是按照随机原则从全部研究对象中抽取一部分单位进行观察，并根据被抽取的那部分单位的数量特征，运用一定的数理统计方法，对总体的数量性作出具有一定可靠程度的估计和判断。【参书中的例子或自己举些例子】第1页/共71页二、抽样推断的特点 1、抽样推断是非全面调查。可以节省人力物力和财力，取得事半功倍的效果。 2、抽样推断是按随机原则抽选调查单位。 3、抽样推断是用样本的指标数值去推算总体的指标数值。 4、抽样推断运用的是概率原理。 5、抽样推断中产生的误差可以事先计算并加以控制。第2页/共71页三、抽样推断的作用（适用范围） 1、对无限总体全面情况的了解，必须采用抽样推断。 2、对破坏性或消耗性检查，必须采用抽样调查。 3、对某些可以但事实上不必或不可能进行全面调查的现象总体，可以采用抽样推断获取相关资料。 4、抽样调查可以对全面调查得来的资料进行验证，并据以进行补充和修改。 5、抽样推断可以用于生产过程的质量控制。第3页/共71页7.2抽样推断的几个基本概念一、全及总体和抽样（样本）总体 1、全及总体又称母体，简称总体，它是指所要认识的，具有某种共同性质的许多单位的集合体。组成全及总体的单位称为总体单位，全及总体的单位数一般用N表示。 2、抽样总体又称子样，简称样本，是从全及总体中随机抽取的那一部分单位所构成的集合体。组成抽样总体的单位称为样本单位，样本单位数亦称样本容量，一般用n表示。样本单位数的范围:1nN第4页/共71页抽样比例：大样本：n30；小样本：n30 重点理解：如果说对于一次抽样调查，全及总体是唯一确定的，那么抽样总体就不是这样，样本是不确定的，一个全及总体可能抽出很多个样本总体，样本的个数和样本的容量有关，也和抽样的方法有关。nN第5页/共71页二、样本容量和样本个数 1.样本容量：是指一个样本所包含的单位数，通常用n表示。（总体单位数用N表示） 2.样本个数：样本可能数目，是从一个总体中可能抽取的样本个数。如：样本容量为n重复抽样：样本个数为不重复抽样：样本个数为nNnNPnNNNN) 1()2)(1(第6页/共71页三、总体指标和样本指标1.总体指标（参数）i.总体平均数ii.总体成数当研究的是总体个单位的属性特征时，只能用一定的术语来描述，所以就应该计算比重结构指标，称为总体成数。用大写 P 表示，它说明了总体中具有某种标志的单位数在总体中所占的比重。NX第7页/共71页设总体N个单位中，有N1个单位具有某种属性，N0个不具有某种属性， N1 +N0=N，P为总体中具有某种属性的单位数所占的比重，Q为布局有某种属性的单位所占的比重，则总体成数为：PNNNNNQNNP1 101第8页/共71页iii.总体标准差、总体方差NXX22第9页/共71页2.样本指标（统计量）i.样本平均数ii.样本成数nxxpnnnnnqnnp1 101第10页/共71页iii.样本标准差、样本方差122nxxs第11页/共71页四、重复抽样和不重复抽样抽取样本有两种基本方法，不同的方法会影响抽样的误差。 1、重复抽样（重置抽样、放回抽样）基本的特点和做法样本个数的计算：Nn（可重复排列数） 2、不重复抽样（不重置抽样、不放回抽样）基本的特点和做法样本个数的计算：（不重复排列数） N(N-1)(N-2).(N-n+1)N!/(N-n)! 以上都是考虑顺序的抽样！第12页/共71页五、总体分布、样本分布和抽样分布n总体中各元素的观察值所形成的分布 n分布通常是未知的n可以假定它服从某种分布 1.总体分布 (population distribution)第13页/共71页n一个样本中各观察值的分布 n也称经验分布 n当样本容量n逐渐增大时，样本分布逐渐接近总体的分布 2.样本分布 (sample distribution)第14页/共71页n样本统计量的概率分布，是一种理论分布在重复选取容量为n的样本时，由该统计量的所有可能取值形成的相对频数分布 n随机变量是样本统计量样本均值, 样本比例，样本方差等n结果来自容量相同的所有可能样本n提供了样本统计量长远而稳定的信息，是进行推断的理论基础，也是抽样推断科学性的重要依据 3.抽样分布(sampling distribution)第15页/共71页抽样分布的形成过程 (sampling distribution)第16页/共71页样本均值的抽样分布与中心极限定理x第17页/共71页中心极限定理(central limit theorem)第18页/共71页中心极限定理 (central limit theorem)第19页/共71页抽样分布与总体分布的关系正态分布非正态分布样本均值正态分布样本均值正态分布样本均值非正态分布第20页/共71页 7.3 抽样误差21 一、抽样误差 1 1 抽样误差的概念一般地说，抽样误差是指根据样本数据计算而得的样本统计量值与被它估计的未知的总体参数真值之间的差值。总体参数真值样本统计量值抽样误差例如X Xx x均值抽样误差第21页/共71页 2、统计调查误差的种类（1）登记性误差（工作误差）调查过程中由于主客观原因在登记、汇总、计算、过录中所产生的差错。（2）代表性误差用部分推算总体时产生的误差。偏差（系统性误差）：由于抽样调查没有遵循随机原则而产生的误差。随机误差（偶然性误差）：在没有登记性误差又遵循了随机原则的情况下，所产生的样本指标与被它估计的总体相应指标的差数。第22页/共71页 3、抽样误差的进一步理解它就是指随机误差；它是一个随机变量；它是抽样推断中不可避免不可消除的误差；抽样误差的大小反映了样本代表性的高低；它可以用数理统计方法进行计算和控制。二、抽样平均误差1.抽样平均误差的含义：抽样平均误差从一般意义上说是所有样本指标与总体指标差数的平均水平，它反映了抽样指标与总体指标的平均离差程度。实质就是所有可能出现的样本指标的标准差。第23页/共71页u 一全及总体可抽取的样本有多个 u 每个样本都可以计算出相应的样本指标（抽样平均数或抽样成数指标） u 样本指标和总体指标的抽样误差各不相同（随机变量）为了测定样本（指标）的代表性程度的高低，单独用某一次的抽样误差来衡量是不科学的，因此就需要采用一定的方法（求标准差的方法）计算所有抽样误差的平均数，这就是抽样平均误差。同时它在参数估计中也要用到。第24页/共71页第25页/共71页3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n = 2 的样本（共16个）第26页/共71页3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值（x）第27页/共71页样本平均数概率11.522.533.541/162/163/164/163/162/161/16x)(xP第28页/共71页样本平均数的均值或第29页/共71页第30页/共71页从以上计算中可以看出：（1）抽样平均误差就是抽样指标的标准差，所以也称为抽样标准误差或估计标准误。（2）抽样平均误差（即抽样指标的标准差）比总体标准差小的多，仅为总体标准差的。第31页/共71页32 l依据抽样分布的基本原理，可以利用以下计算公式直接计算出相应样本统计量的抽样平均误差。 l（1）样本均值的抽样平均误差2.抽样平均误差的计算D重复抽样条件下：x n nN 1NnN 1 N1N Q 一般情况下N比较大Nnx )1(n2 D不重复抽样条件下： 1NnNn2 (x 第32页/共71页33 （2）样本成数的抽样平均误差抽样平均误差) 1 p n ( p p D重复抽样条件下：N n )( 1 n ) 1 ( 1 N n N n ) 1 ( p Pppp D不重复抽样条件下：第33页/共71页34 l 【例】从10000名学生中抽查200名测得平均身高为1.65m，已知学生身高的总体标准差=0.28。其中女生占全部学生的比重30%。求学生平均身高和女生比重的抽样平均误差。抽样平均误差(举例)解：已知N=10000,n=200, x =1.65m, = 0.28,p = 30% 在重复抽样的条件下: 在不重复抽样的条件下:200 x n 0.28 0.0198) 1 P n ( p P ) 1 0.3 200( 0.33.24%10000200)( 1200)1(n)1(p0.30.3 P P N)( 1n3.21%Nnx )1(n2 10000200)1(2002 0.28 0.0196第34页/共71页在没有总体方差和标准差时怎么办？（用样本的相关指标代替即可）不重复抽样重复抽样抽样平均数Nnnnxx1不重复抽样重复抽样抽样成数NnnPPnPPnppp1)1 ()1 (计算公式汇总：第35页/共71页三、影响抽样（平均）误差的因素 1、抽样单位数目的多少； 2、总体被研究标志的变异程度； 3、抽样方法和组织形式的不同。第36页/共71页7.4 参数估计的一般问题一. 估计量与估计值二. 评价估计量的标准三. 点估计与区间估计第37页/共71页1.估计量：用于估计总体参数的随机变量如样本均值，样本比例、样本方差等例如: 样本均值就是总体均值的一个估计量2.参数用表示，估计量用表示3.估计值：估计参数时计算出来的统计量的具体值如果样本均值 x =80，则80就是的估计值一、估计量与估计值 (estimator & estimated value)第38页/共71页二、评价估计量的标准1. 无偏性(unbiasedness) 无偏性：估计量抽样分布的数学期望等于被估计的总体参数第39页/共71页2.有效性(efficiency)第40页/共71页3.一致性(consistency) 一致性：随着样本容量的增大，估计量的值越来越接近被估计的总体参数第41页/共71页三、点估计与区间估计估计方法点估计区间估计第42页/共71页（一）点估计 (point estimate)1.用样本的估计量直接作为总体参数的估计值例如：用样本均值直接作为总体均值的估计例如：用两个样本均值之差直接作为总体均值之差的估计2. 没有给出估计值接近总体参数程度的信息第43页/共71页（二）区间估计 (interval estimate)1.在点估计的基础上，给出总体参数估计的一个区间范围，该区间由样本统计量加减抽样误差而得到的2.根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量比如，某班级平均分数在7585之间，置信水平是95% 第44页/共71页区间估计的图示第45页/共71页抽样极限误差（抽样允许误差、抽样边际误差）含义：抽样极限误差是指抽样指标和总体指标之间抽样误差的可能范围。即，也可用E表示。意义：由于抽样误差是一个随机变量，因此在实际工作中到底允许抽样误差在一个什么样的范围内，这要根据实际情况来定。X2zX2zE 第46页/共71页影响区间宽度(E)的因素1.总体数据的离散程度，用来测度2.样本容量，3.置信水平 (1 - )，影响 z 的大小第47页/共71页1.将构造置信区间的步骤重复很多次，置信区间包含总体参数真值的次数所占的比例称为置信水平 2.表示为 (1 - 为是总体参数未在区间内的比例3.常用的置信水平值有 99%, 95%, 90%相应的为0.01，0.05，0.10置信水平第48页/共71页1.由样本统计量所构造的总体参数的估计区间称为置信区间2.统计学家在某种程度上确信这个区间会包含真正的总体参数，所以给它取名为置信区间 3.用一个具体的样本所构造的区间是一个特定的区间，我们无法知道这个样本所产生的区间是否包含总体参数的真值我们只能是希望这个区间是大量包含总体参数真值的区间中的一个，但它也可能是少数几个不包含参数真值的区间中的一个置信区间 (confidence interval)第49页/共71页置信区间 (95%的置信区间)第50页/共71页7.5 一个总体参数的区间估计一. 总体均值的区间估计二. 总体比例的区间估计第51页/共71页（一）总体参数估计的一般模式：即概率保证程度（置信度）已知，求抽样极限误差的可能范围。此模式的具体步骤为：（1）根据样本计算样本指标并以此作为总体指标的估计值；（2）计算样本标准差以推算抽样平均误差。（3）根据给定的可信度，查概率表求出概率度z的值。运用概率度z和抽样平均误差的关系式求出抽样极限误差E。（4）最后根据抽样极限误差，对总体指标的区间作出估计。X2zE nXxXExE-x第52页/共71页（一）总体均值的区间估计的一般模式 (例题分析)25袋食品的重量 112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.3第53页/共71页总体均值的区间估计(例题分析)第54页/共71页总体均值的区间估计(例题分析)36个投保人年龄的数据 233539273644364246433133425345544724342839364440394938344850343945484532第55页/共71页总体均值的区间估计(例题分析)第56页/共71页（二）参数估计的另一种模式抽样极限误差已知，求概率保证程度。此模式的具体步骤为：（1）根据样本计算样本指标并以此作为总体指标的估计值；计算样本标准差以推算抽样平均误差。（2）根据给定的抽样极限误差，求出总体指标的上限和下限，即置信区间。（3）运用抽样平均误差和抽样极限误差的关系式求出的值，然后查概率表求出相应的置信度，即概率保证程度。2z第57页/共71页例：某城市进行居民家计调查，随机抽取400个居民户，调查得年平均每户文化用品消费支出为900元，标准差为200元。要求抽样允许误差不超过18元，拭对该市居民年平均每户文化用品消费支出情况做出估计。解：以92.8%的概率保证程度，估计该市居民户年均文化用品消费支出在885915（900-15900+15）元之间.第58页/共71页二、总体成数的区间估计第59页/共71页总体成数的区间估计(例题分析)p 第60页/共71页7.6样本容量的确定一. 估计总体均值时样本容量的确定二. 估计总体比例时样本容量的确定第61页/共71页影响样本容量的因素 1.总体的变异程度() 2.允许误差的大小（） 3.推断的可靠程度（1-） 4.抽样方法和抽样组织方式X2zE 第62页/共71页1. 估计总体均值时样本容量n为2. 样本容量n与总体方差2、允许误差E、可靠性系数Z或t之间的关系为与总体方差成正比与边际误差成反比与可靠性系数成正比一、估计总体均值时样本容量的确定第63页/共71页估计总体均值时样本容量的确定 (例题分析)第64页/共71页估计总体均值时样本容量的确定 (例题分析)第65页/共71页1. 根据比例区间估计公式可得样本容量n为二、估计总体成数时样本容量的确定第66页/共71页估计总体成数时样本容量的确定 (例题分析)第67页/共71页确定样本容量时注意的问题1.前所计算的样本容量是最低的，也是最必要的2. 2 ， P（1-P）往往未知，可用以下代替：用历史资料的，或P代替，注意选择或P（1-P）（标准差）大的；试验抽样资料，从中选择选择或P（1-P）大的；成数方差缺乏时，可用最大值0.5代替P 3.如果对同一总体，需要同时进行两个或两个以上特征值估计，可得出两个样本容量，需选大的 4.计算出的样本容量取整数第68页/共71页例：某市开展职工家计调查，根据历史资料，该市职工家庭平均每人年收入的标准差为250元，而家庭消费的恩格尔系数为65%，现用重复抽样的方法要求在95.45%的保证下，平均人均收入的极限误差不超过20元，恩格尔系数的极限误差不超过4%，计算此次抽样的必要样本容量。第69页/共71页（户）625202502)(2222222Ezn第70页/共71页感谢您的观看！第71页/共71页

展开阅读全文

经济学抽样推断PPT课件

最新文档