资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第四章 抽样(chu yn)与抽样(chu yn)分布,第一页,共41页。,第 4 章 抽样(chu yn)与抽样(chu yn)分布,常用的抽样方法,4.2 抽样分布(一),(一个总体参数推断时样本(yngbn)统计量的抽样分布),4.3 抽样分布(二),(两个总体参数推断时样本(yngbn)统计量的抽样分布),中心极限定理的应用,第二页,共41页。,并给出样本均值的抽样分布,第三十三页,共41页。,2.,三、样本比率的抽样(chu yn)分布,样本统计量的概率分布,是一种理论分布,2 抽样分布(一),4 个个体分别为x1=1,x2=2,x3=3,x4=4。,一种(y zhn)理论概率分布,4、标准(biozhn)误 (standard error),在重复选取容量(rngling)为n的样本时,由样本方差的所有可能取值形成的相对频数分布,样本均值的分布与总体分布的比较(bjio)(例题分析),在重复选取容量(rngling)为n的样本时,由样本方差的所有可能取值形成的相对频数分布,既可以对总体参数进行估计,也可以对各层的目标量进行估计,分布的变量值始终为正,(一个总体参数推断时样本(yngbn)统计量的抽样分布),教材(jioci)P122例4-4,学习(xux)目标,了解抽样的概率(gil)抽样方法,理解抽样分布的意义,了解抽样分布的形成过程,理解中心极限定理,理解抽样分布的性质,第三页,共41页。,4.1 常用(chn yn)的抽样方法,一、简单(jindn)随机抽样,二、分层抽样,三、系统抽样,四、整群抽样,第四页,共41页。,抽样(chu yn)方法,第五页,共41页。,一、简单(jindn)随机抽样(simple random sampling),从总体N个单位(dnwi)中随机地抽取n个单位(dnwi)作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中,抽取元素的具体方法有重复抽样和不重复抽样,特点,简单、直观,在抽样框完整时,可直接从中抽取样本,用样本统计量对目标量进行估计比较方便,局限性,当N很大时,不易构造抽样框,抽出的单位(dnwi)很分散,给实施调查增加了困难,没有利用其他辅助信息以提高估计的效率,第六页,共41页。,二、分层抽样,(,stratified sampling,),将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,优点(yudin),保证样本的结构与总体的结构比较相近,从而提高估计的精度,组织实施调查方便,既可以对总体参数进行估计,也可以对各层的目标量进行估计,第七页,共41页。,三、系统抽样,(,systematic sampling,),将总体中的各单位按一定顺序排列,在规定的范围内随机地抽取一个单位作为(zuwi)初始单位,然后按事先规定好的规则确定其他样本单位,先从数字1到k之间随机抽取一个数字r作为(zuwi)初始单位,以后依次取r+k,r+2k等单位,优点:操作简便,可提高估计的精度,第八页,共41页。,四、整群抽样(chu yn)(cluster sampling),先将总体划分(hu fn)为若干个群,然后再以群作为调查单位从中抽取部分群,然后对中选群中的所有单位全部实施调查。,特点,抽样时只需群的抽样框,可简化工作量,调查的地点相对集中,节省调查费用,方便调查的实施,当群为总体的一个缩影时,抽样估计误差小,否则误差较大。,第九页,共41页。,4.2 抽样分布(一)(一个(y)总体参数推断时样本统计量的抽样分布),一、抽样(chu yn)分布的概念,二、样本均值的抽样(chu yn)分布,三、样本比率的抽样(chu yn)分布,四、样本方差的抽样(chu yn)分布,第十页,共41页。,样本统计量的概率分布,是一种理论分布,在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布。,随机变量是 样本统计量,样本均值,样本比例,样本方差等,结果来自容量相同(xin tn)的所有可能样本,提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,一、抽样(chu yn)分布的概念(sampling distribution),第十一页,共41页。,抽样分布(fnb)的形成过程(sampling distribution),总体,计算样本统计量,如:样本均值、比例、方差,样本,第十二页,共41页。,在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布,一种(y zhn)理论概率分布,推断总体均值的理论基础,二、样本均值的抽样(chu yn)分布,第十三页,共41页。,1、样本均值的抽样分布(fnb)(例题分析),【例】设一个总体,含有4个元素(个体),即总体单位(dnwi)数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4。总体的均值、方差及分布如下,总体分布,1,4,2,3,0,.1,.2,.3,均值(jn zh)和方差,第十四页,共41页。,一、两个样本均值之差的抽样分布(fnb),两个样本均值(jn zh)之差 的抽样分布服从正态分布,其分布的数学期望为两个总体均值(jn zh)之差,在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布,简单、直观,在抽样框完整时,可直接从中抽取样本,二、两个(lin)样本比例之差的抽样分布,估计(gj)的标准误(standard error of estimation),一种(y zhn)理论概率分布,四、样本(yngbn)方差的抽样分布,用样本统计量对目标量进行估计比较方便,三、两个样本(yngbn)方差比的抽样分布,优点(yudin),样本均值的抽样(chu yn)分布(例题分析),现从总体中抽取(chu q)n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,3,4,3,3,3,2,3,1,3,2,4,2,3,2,2,2,1,2,4,4,4,3,4,2,4,1,4,1,4,4,1,3,3,2,1,1,2,1,1,1,第二个观察值,第一个,观察值,所有可能的,n=2,的样本(共,16,个),第十五页,共41页。,样本均值的抽样分布(fnb)(例题分析),计算(j sun)出各样本的均值,如下表。并给出样本均值的抽样分布,3.5,3.0,2.5,2.0,3,3.0,2.5,2.0,1.5,2,4.0,3.5,3.0,2.5,4,2.5,4,2.0,3,2,1,1.5,1.0,1,第二个观察值,第一个观察值,16,个样本的均值(,x,),x,样本均值的抽样分布,1.0,0,0.1,0.2,0.3,P,(,x,),1.5,3.0,4.0,3.5,2.0,2.5,第十六页,共41页。,样本均值的分布与总体分布的比较(bjio)(例题分析),=2.5,2,总体(zngt)分布,1,4,2,3,0,.1,.2,.3,抽样分布,P,(,x,),1.0,0,.1,.2,.3,1.5,3.0,4.0,3.5,2.0,2.5,x,第十七页,共41页。,2、样本均值的抽样分布 与中心(zhngxn)极限定理,=50,=10,X,总体分布,n,=4,抽样分布,x,n,=16,当总体服从正态分布N(,2)时,来自(li z)该总体的所有容量为n的样本的均值x也服从正态分布,x 的数学期望为,方差为2/n。即xN(,2/n),第十八页,共41页。,中心极限(jxin)定理(central limit theorem),当样本容量足够大时,(,n,30),,样本均值的抽样分布逐渐趋于正态分布,中心(zhngxn)极限定理:设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,一个任意分布的总体,x,第十九页,共41页。,中心(zhngxn)极限定理(central limit theorem),x 的分布(fnb)趋于正态分布(fnb)的过程,第二十页,共41页。,样本均值的数学期望,样本均值的方差(fn ch),重复抽样,不重复抽样,3、样本均值抽样(chu yn)分布的数学特征(数学期望与方差),第二十一页,共41页。,样本均值的抽样分布(数学(shxu)期望与方差),比较及结论:1.样本均值的均值(数学期望)等于总体(zngt)均值,2.样本均值的方差等于总体(zngt)方差的1/n,第二十二页,共41页。,抽样(chu yn)分布与总体分布的关系,总体(zngt)分布,正态分布,非正态分布,大样本(yngbn),小样本,正态分布,正态分布,非正态分布,第二十三页,共41页。,4、标准(biozhn)误 (standard error),样本(yngbn)统计量的抽样分布的标准差,称为统计量的标准误,也称为标准误差,也称抽样标准差。,标准误衡量的是统计量的离散程度,它测度了用样本(yngbn)统计量估计总体参数的精确程度,以样本(yngbn)均值的抽样分布为例,在重复抽样条件下,样本(yngbn)均值的标准误为,4、标准差的英文为:standard deviation,第二十四页,共41页。,估计(gj)的标准误(standard error of estimation),当计算(j sun)标准误时涉及的总体参数未知时,用样本统计量代替计算(j sun)的标准误,称为估计的标准误,以样本均值的抽样分布为例,当总体标准差未知时,可用样本标准差s代替,则在重复抽样条件下,样本均值的估计标准误为,第二十五页,共41页。,三、样本比率的抽样(chu yn)分布,比率是指总体(或样本(yngbn)中具有某种属性的单位与全部单位总数之比,不同性别的人与全部人数之比,合格品(或不合格品)与全部产品总数之比,总体比例可表示为,样本(yngbn)比例可表示为,第二十六页,共41页。,在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布,一种理论概率分布,当样本容量很大时,样本比例的抽样分布可用正态分布近似,推断(tudun)总体比例的理论基础,样本比例(bl)的抽样分布,第二十七页,共41页。,样本比例的数学期望,样本比例的方差(fn ch),重复抽样,不重复抽样,样本比例的抽样分布(fnb)(数学期望与方差),第二十八页,共41页。,四、样本(yngbn)方差的抽样分布,在重复选取容量(rngling)为n的样本时,由样本方差的所有可能取值形成的相对频数分布,对于来自正态总体的简单随机样本,则比值,的抽样分布服从自由度为(n-1)的2分布,即,第二十九页,共41页。,由阿贝(Abbe)于1863年首先给出,后来由海尔墨特(Hermert)和卡皮尔逊(KPearson)分别于1875年和1900年推导出来,设 ,则,令 ,则 Y 服从自由度为1的2分布(fnb),即,当总体 ,从中抽取容量为n的样本,则,2分布(fnb)(2 distribution),第三十页,共41页。,分布的变量值始终为正,分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐(zhjin)趋于对称,期望为E(2)=n,方差为D(2)=2n(n为自由度),可加性:若U和V为两个独立的服从2分布的随机变量,U2(n1),V2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布,2分布(性质(xngzh)和特
展开阅读全文