《抽样统计》PPT课件

上传人:lisu****2020 文档编号:245022993 上传时间:2024-10-07 格式:PPT 页数:41 大小:393.50KB
返回 下载 相关 举报
《抽样统计》PPT课件_第1页
第1页 / 共41页
《抽样统计》PPT课件_第2页
第2页 / 共41页
《抽样统计》PPT课件_第3页
第3页 / 共41页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,下页,上页,第七章,第七章 抽样统计,本章主要阐述参数估计的基本概念,抽样分布,抽样的组织方式和抽样设计的基本问题。其中抽样组织方式有简单随机抽样,类型抽样,等距抽样,整群抽样,目录抽样,二重抽样和多阶段抽样,7.1 抽样统计基本概念,抽样统计,又叫参数估计,是根据统计研究的任务和要求,从被研究总体中抽出部分单位进行调查,然后根据这一部分单位所求得的样本指标推断总体指标的统计方法.,一.总体与样本,抽样推断中的总体又称,全及总体,即统计总体,是被研究现象的全体,是具有大量性,同质性和差异性的许多个别事物的集合体.总体单位数记N,10/7/2024,样本是根据随机原则从总体中抽出来的进行调查的那一部分总体单位所组成的集合体.样本中包含的单位个数记作n,又称样本容量,n/N称为抽样比例.,二.参数和统计量,参数是总体数量特征,亦即总体指标.总体的某个参数在抽样时往往是未知的,是需要进行推断的.,统计量是样本的数量特征,亦即样本指标.统计量是随着样本不同而不同,因而是个随机变量.从总体中抽出的所有可能的样本的统计量及其相应的概率构成的分布,称为抽样分布.统计量通常有样本均值,样本方差,样本标准差,样本比例p等,10/7/2024,三.重复抽样与不重复抽样,从N个总体单位中抽取n个组成样本,有重复抽样与不重复抽样两种抽取方法.重复抽样是:每抽出一个个体进行调查登记后,放回去,再抽下一个,直到抽取登记n个为止.采用这种抽样方法时,每次每个单位被抽出的机会都是1/N.,不重复抽样的方法是:每次抽出一个单位进行调查登记后,不再放回去,因此凡是前面已经抽到过的单位,以后不会再被抽到.,故两种方式下可能抽到的样本个数M为,(1)在重复抽样方法下:,M,=,N,n,(2)在不重复抽样方法下:,10/7/2024,四.抽样误差与抽样标准误差,统计中误差有两类,一是登记性误差,即在点数,测量,登记,计算,抄录等过程中产生的误差,二是代表性误差,即用非全面资料推算或代替总体指标时产生的误差.代表性误差又分为系统性与偶然性两种,系统性误差是指没有遵守随机原则而有意选取变量值较大或较小单位组成样本造成的误差,这是应当避免的.偶然性误差是遵守了随机原则仍会产生的不可避免的误差.,抽样标准误差是指所有可能的样本平均数 对总体平均数的标准差,抽样标准误差的平方称为抽样方差.,上式中因为总体均值一般未知,需推断的,故不用此实际计算,只作一些理论解释.,10/7/2024,影响抽样误差大小的因素有:一是样本容量n,其越大,误差就越小;二是总体标准差,其越大,说明总体中各数据差异越大,使抽样误差就大;三是抽样方法有关,一般重复抽样比不重复抽样的误差小些;四是与抽样方式有关.,Th:设总体的均值(期望)为,方差为,2,x,1,x,2,x,n,为样本,为样本均值,(1)若总体分布为 ,则 精确分布为,(2)若总体分布未知或不是正态分布,则,n,较大时,渐近分布为,(3)在不重复抽样时,7.2 抽样分布,10/7/2024,7.4 简单随机抽样,一.简单随机抽样方法,简单随机抽样,又称,纯随机抽样,是一种最基本的抽样方式,是指从总体的全部单位中按随机原则直接抽取n个单位组成样本进行调查.具体做法有以下三种:,(1)信手抽取法.即从研究总体中随手抽取所需的调查单位.,(2)抽签法.即先把总体各单位全部编号,然后制成签条或卡片,将其混合均匀后从中抽取,抽满预定的样本容量为止.,(3)随机数表法.即将十个数字完全按随机原则编成的表,用这些数字组成的多位数.使用时,也应将全部总体单位编号,抽取的号码就决定抽取的个体.,10/7/2024,二.简单随机抽样标准误差,(重复抽样),(不重复抽样),三 简单随机抽样的必要抽样数目,简单随机抽样的必要抽样数目就是指适当的样本容量n,一般来说,确定样本容量应考虑以下几个因素。,(1)总体方差 ,总体方差越大,要求n越多.,(2)极限误差 .(3)概率度Z.(4)抽样方法.,10/7/2024,(重复抽样),(不重复抽样),基于上述四个因素的影响,样本容量的计算式可根据 来确定,(1)总体均值估计样本数,(不重复抽样),(2)总体比率估计所需样本数,(重复抽样),10/7/2024,用上公式计算时,就注意:,(1)当抽样比例 n/N较大时,应采用不重复抽样公式计算,否则采用重复抽样的.,(2)当总体方差 或总体比率 未知时,可用样本方差(或样本比率),(3)在同一抽样调查中,总体均值与总体比率推断需要兼顾时,应采用计算出较大的那个样本容量.例7.14,10/7/2024,7.5 分层抽样,一.分层抽样的意义,分层抽样,又称,类型抽样或分类抽样,实际上是将分组法与随机抽样法结合起来而形成的抽样方式.,分组时应遵守分组原则,在各组中抽取调查单位时则应遵守随机原则.采用这种抽样方式时,应先将总体按有关标志分组,然后再从每组中按随机原则抽取样本.,分层抽样可以提高抽样调查结果的精度,或者在一定条件下减少样本的单位数以节约调查费用.因为分层抽样在总体中散布得更均匀,大大降低了出现极端数值的风险,故其样本对这个总体也有较高的代表性,可看出,对总体分层后,总体方差可以理解为层内方差和层间方差两部分,在分层抽样时,其与层间无关.,10/7/2024,二.分层抽样的抽样标准误差计算,由于在分层抽样条件下,层间方差不会引起抽样误差,因此,在计算抽样标准误差时,可以各组层内方差的加权平均方差代替总体方差来计算抽样标准误差.,分层抽样下,总假定有 所以有,1.总体平均数估计的抽样标准误差计算,(重复),(不重复),(1)总体平均数点估计:,(2)层内方差平均数:,(3)总体平均数的抽样标准误差:,10/7/2024,例7.15,某乡种植88万亩水稻,耕地分为高产,中产,低产田三类,现从三类中按等比抽样,共取50亩组成样本,样本各组的平均水稻亩产量,标准差等如下表所示.要求在90%的置信概率(,Z,=1.64)下对全乡平均水稻亩产量和总产量作区间估计.,(千克/亩),平均亩产量置信区间:,解:,类型,面积,N,i,(万亩),样本容量,n,i,(亩),平均亩产量 (千克),标准差,高产田,中产田,低产田,合 计,38.72,31.68,17.60,88.00,22,18,10,50,700,400,300,200,120,180,表7-4 某乡水稻产量分层抽样数据,总产量置信区间:,(万千克),10/7/2024,2.总体比率估计的抽样标准误差计算:,p,i,为样本各组比率 (分层抽样有 ),(重复抽样),(不重复抽样),(1)总体比率估计:,(2)层内方差平均数:,(3)总体比率的抽样标准误差:,10/7/2024,例7.16,某广告公司从某市310万人中采用等比分层抽样,调查居民收看某电视广告的收视率,有关资料整理如下表.要求在95%的置信概率(,Z,=1.96)下,估计广告收视率的置信区间.,得收视率,P,的置信区间:,解:,类型,N,i,(万人),n,i,(,人,),观看广告 (人),观看比率,市区,郊区,农村,合计,155,93,62,310,400,240,160,800,320,120,40,480,0.8,0.5,0.25,表7-5 某电视广告的收视率分层抽样数据,10/7/2024,三.分层抽样的样本容量,由于在分层抽样条件下,样本容量的确定需要预先给定抽样误差的范围和抽样的概率度,同时应根据以往的资料估计层内的资料估计层内方差的平均值.其样本容量 n 的确定公式可由分层抽样的极限误差导出.,1.各层中均采用重复抽样时,(1),(2),2.分层抽样中,各层均采用不重复抽样时,(1),(2),样本容量确定后,各层应抽取的样本单位数 可采用等比法进行分配,计算公式为:,10/7/2024,例7.17,以例7.,15,的资料,若要求总体平均亩产量的抽样标准误差不超过15千克/亩,要求在95%的置信概率,试确定等比分层抽样的样本容量.,在给定,解:,类型,面积,N,i,(万亩),样本容量,n,i,(亩),平均亩产量 (千克),标准差,高产田,中产田,低产田,合 计,38.72,31.68,17.60,88.00,22,18,10,50,700,400,300,200,120,180,表7-4 某乡水稻产量分层抽样数据,条件下,得,(亩),(亩),(亩),(亩),10/7/2024,7.6 等距抽样,一.等距抽样的概念与方法,等距抽样,又称,机械抽样或系统抽样,是将总体各单位按一定顺序排列,然后每隔 N/n 个总体单位抽取一个样本.例如,从某种产品生产线上每隔相等的距离或相等的时间抽取一件产品作质量检验.等距抽样能使样本十分均匀地分布在总体中,从而能增加样本的代表性,减少抽样误差,提高抽样效率.,1.等距抽样的排序方法,采用等距抽样时,必须首先对总体单位按某种标志进行排序或排队,有以下两种排队方法:,10/7/2024,(1)按无关标志排队.即总体单位排列的顺序和所要研究的标志是无关的.如工业生产质量检验可按产品生产的时间顺序进行等距抽样等等.此法是比抽签法和随机数表示法更好的纯随机抽样方式,又称无序系统抽样.,(2)按有关标志排队.即总体单位排列的顺序与所要研究的标志是有直接关系的.例如农产量调查时,可按照当年估产或前几年的均产按顺序进行等距抽样.这种有关标志排队的等距抽样又称有序系统抽样,它能使标志值高低不同的单位,均有可能选入样本,从而提高样本的代表性,减小抽样误差.一般认为有序系统抽样比等比例分层抽样能使样本更均匀地分布在总体中,抽样误差也更小.,10/7/2024,2.等距抽样的方法 (总体单位排序后再等距抽样),(1)随机起点等距抽样.即在总体分成,k,=,N,/,n,段的前提下,首先从第一段的1至,k,号总体单位中随机抽选一个样本单位,然后每隔,k,个单位抽取一本单位,直到抽足n个单位为止,这n个单位就构成了一个随机起点的等距样本.这种方法能够保证各个总体单位具有相同的概率被抽到,但是,如果随机起点单位处于每一段的低端或高端,就会导致后面的单位都处于相应的低端或高端,从而使抽样出现偏低或偏高的系统误差.,(2)半距起点等距随机抽样.又称中点法抽取样本.它是在总体的第一段,从1到k的项中点取值.采用中点法抽取样本,可提高整个样本对总体的代表性.,10/7/2024,(3)随机起点对称等距抽样.即是在总体第一段随机抽取到第i个单位,而在第二段抽取第2k-i+1的单位,在第三段抽取第2k+i的单位,而在第四段抽取第4k-i+1,以此交替对称进行.可概括为:在总体奇数段抽取第jk+i单位,在总体偶数段抽取第jk-i+1单位(j=2,4,).此种方法能使处于低端的样本单位与另一段处于高端的样本单位相互搭配,从而抵消或避免抽样中的系统误差,弥补随机起点等距抽样的不足.,(4)循环等距抽样.当N为有限总体而且不能被n整除时,可将总体各单位按顺序排成首尾相接的循环圆形,用N/n确定间隔k,k可以取最接近的整数,然后在第一段的1到k号中抽取一个作为随机起点,再每隔k个单位抽取一个样本单位,直至抽满n个为止.,10/7/2024,二.等距抽样标准误差的测定,(1)总体采用无关标志排队时,等距抽样与单纯不重复随机抽样相类似,因而可采用单纯不重复随机抽样的公式计算抽样标准误差,即,例7.18,已知某选区共有选民8860人,按登记名册每隔10人抽取1人,共抽取了886人,调查他们对人民代表候选人的意见,调查结果表示同意的有685人.要求在95%的置信概率下,求赞成率的置信区间.,解:N=8860,n=886,得赞成率,P,的置信区间:,10/7/2024,(2)当总体采用有关标志排队时,由于总体单位是按有关标志排序的,故抽出的样本单位的排列也是有顺序的,因而存在一定的系统性误差,故不能采用简单随机抽样的误差公式计算抽样标准误差.通常把有序系统抽样看作是一种特殊的分层抽
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!