《总体均数的估计》PPT课件.ppt

上传人:za****8 文档编号:12673513 上传时间:2020-05-13 格式:PPT 页数:27 大小:235.96KB
返回 下载 相关 举报
《总体均数的估计》PPT课件.ppt_第1页
第1页 / 共27页
《总体均数的估计》PPT课件.ppt_第2页
第2页 / 共27页
《总体均数的估计》PPT课件.ppt_第3页
第3页 / 共27页
点击查看更多>>
资源描述
第四章抽样误差与区间估计,一、均数的抽样误差,抽样的目的是用样本信息来推断总体特征,因此要保证样本的可靠性和代表性,使样本能够充分地反映总体的真实情况。这就要求严格遵循独立性和随机化的原则,并保证足够的样本含量。为了解某地成年男子红细胞的总体均数,随机抽样调查了200人,计算得到这是一个点估计值,可以用来估计总体均数。但此时样本均数不太可能等于总体均数。,这种由个体变异产生的、随机抽样而引起的统计量与总体参数间的差异称为的抽样误差(samplingerror),在抽样研究中抽样误差是不可避免的,只要抽样就会有抽样误差存在,但是抽样误差的分布有一定的规律性,并且可以通过一定的方法来估计。,根据数理统计原理,样本均数抽样结果具有如下特点:从正态总体N(,2)中,随机抽取例数为n的样本,样本均数也服从正态分布,即使是从偏态总体中抽样,当n足够大时,样本均数的分布也服从正态分布;从均数为,标准差为的正态或偏态总体中,抽取例数为n的样本,样本均数的均数,标准差为。,是样本均数的标准差也称为标准误,它反映了样本均数与总体均数之间的离散程度,常用以说明均数抽样误差的大小。标准误的计算公式如下:该式反映了标准误的大小与标准差呈正比,与样本量的平方根呈反比。因此,在抽样研究中,可适当增加样本含量,控制和减小抽样误差。,在实际工作中,总体标准差常是未知的而是用样本标准差s来代替,的估计值记作。,从N(4.83,0.522)的总体中作随机抽样,n=10,重复100次的抽样结果见P31。计算得到:,随机抽样调查了200人,计算得到:估计其抽样误差:,标准误的用途,标准误是反映样本均数变异程度的指标,常用来表示抽样误差的大小。标准误大反映样本均数抽样误差大,其对总体均数的代表性差;标准误小,样本均数抽样误差就小,其对总体均数的代表性就好。标准误可用于计算总体均数的可信区间,也是进行假设检验的基础。,标准差和标准误的区别,意义:标准差描述个体值间的变异程度,即观察值间的离散度,标准差小,表示观察值围绕均数的波动较小。当观察值呈正态或近似正态分布时,可将均数及标准差同时写出,如。标准误描述统计量的抽样误差的大小,即样本统计量与总体参数的接近程度。标准误小,表示抽样误差小,则统计量较稳定,与参数较接近。,标准差和标准误的区别,用途标准差表示观察值间波动的大小,如精密度的大小,当资料服从正态或近似正态分布时,可结合均数估计正常值范围:标准误表示抽样误差的大小,用于估计总体参数的可信区间:,标准差、标准误与样本含量的关系,标准差随着样本量的增多,逐渐趋于稳定,如同地区、同年龄、同性别儿童的身高、体重的标准差,当样本含量达到约200以上时,基本趋于稳定。标准误随着样本量的增多而减小,如均数的标准误,当标准差不变时,与样本量的平方根呈反比。当样本含量趋近于总体例数时,则样本标准差趋于稳定,近似等于总体标准差;标准误则趋近于0,抽样误差几乎消失。,二、均数抽样误差的分布t分布,在总体均数为,标准差为的正态总体中,独立随机的抽取样本含量为n的样本,则样本均数服从正态分布:将样本均数标准化,则:其中的分母称为均数的标准误,如果变量是正态的或近似正态的,则标准化的变量服从或近似服从N(0,1)分布,即u分布。,若上式中的是未知的,可用样本标准差s代替总体标准差,此时采用的不是u变换而是t变换了,即:其结果就不再服从标准正态分布了,而是服从自由度为n-1的t分布。,t分布也是一种对称分布,它只有一个参数,即自由度。t分布与标准正态分布相比有以下特征:二者都是单峰分布,以0为中心,左右两侧对称。t分布的峰部较矮而尾部翘得较高,说明远侧t值的个数相对较多,即尾部面积(概率P)较大。自由度越小这种情况越明显。t分布不是一条曲线,而是由一簇随自由度改变而变化的曲线所组成。当逐渐增大时,t分布逐渐逼近标准正态分布;当=时,t分布就完全成为标准正态分布了。,t界值,统计学家已将各种自由度对应的t分布曲线下的尾部面积(概率)的百分界值编制成t界值表。由于t分布是以0为中心的对称分布,故表中只列出正值,所以查表时,不管t值正负只用绝对值。表右上角插图中阴影部分,表示t,以外尾部面积占总面积的百分数,即概率P。随着自由度的增大,t界值逐渐减小,当自由度无穷大时,双侧t0.05=1.96,单侧t0.05,=1.645,即为u分布的界值。,如由表查出单侧t0.05,10=1.812,表示从正态总体作样本例数为11的随机抽样,其t值服从=n-1=11-1=10的t分布,理论上P(t-1.812)=0.05,或P(t1.812)=0.05用更一般的表示法为单侧:P(t-t,)=,或P(tt,)=双侧:P(t-t,)+P(tt,)=反之P(-t,tt,)=1-,总体均数的估计,参数估计是通过样本指标(统计量)来估计总体指标(参数)。它包括两种方法:点(值)估计(pointestimation):即把样本统计量直接作为总体参数的估计值,如用样本均数来估计总体均数。这种方法虽然很简单,但是未涉及随机误差,而随机误差在抽样研究中是不可忽视的。区间估计(intervalestimation)即按一定的概率估计总体均数在哪个范围,它把抽样误差引入估计量,确定具有特定概率意义的区间。,可信区间与参考值范围,可信区间是从总体中作随机抽样,每个样本可以算出一个可信区间,如95%可信区间,意味着100次抽样,算得100个可信区间,平均有95个可信区间包括总体均数(估计正确),只有5个可信区间不包括总体均数(估计错误)。5%是小概率事件,实际发生的可能性小,因此,在实际应用中就认为总体均数在算得的可信区间内,这种估计方法会冒5%犯错误的风险。参考值范围是指同质总体中大多数个体变量值的分布范围。95%参考值范围指同质总体中95%的个体值分布在此范围内。它与标准差有关,各个体值变异越大,该范围越宽,分布也越分散。,可信区间和可信限,可信限(CL)分别指两个点值。可信区间(常简记为CI)是以上、下可信限为界的一个范围。比如可信区间(5.31,5.45)1012/L的下限是5.311012/L,上限是5.451012/L。,区间估计,设有一正态总体N(,2),现从中随机抽取一个样本,该样本的均数和标准差分别用和s表示,样本均数的标准t离差服从t分布,则可信度为(1-)的t值满足:P(-t,tt,)=1-将代入不等式,即:,于是得可信度为1-时,计算总体均数可信区间的通式为:习惯上,常取1-=0.95,即95%可信区间;或取1-=0.99,即99%可信区间。,未知时。一般用t分布的原理作区间估计。已知未知,但n足够大,例:对某人群随机抽取20人,用某批号的结核菌素作皮试,平均浸润直径为10.9mm,标准差为3.86mm。问这批结核菌素在该人群中使用时,皮试的平均浸润直径的95%可信区间是多少?查附表,t0.05,19=2.093所以该人群皮试的平均浸润直径的95%可信区间为9.112.7mm。,可信区间的两个要素,准确度:反映在可信度1-的大小,即区间包含总体均数的概率的大小,当然愈接近1愈好;精度:反映在区间的长度,当然长度愈小愈好。在样本例数确定的情况下,二者是矛盾的。一般情况下,在可信度确定的情况下,增加样本例数,可减少区间长度,提高精度。,小结,在正态总体N(,2)中作随机抽样,样本均数的分布呈正态分布,当总体标准差未知,用作为标准误的估计值,样本均数的分布呈t分布,t分布是随自由度的改变而变化的一簇曲线,因此应注意自由度的大小。参数估计是通过样本指标来估计总体指标。点(值)估计:即把样本统计量直接作为总体参数的估计值。区间估计即按一定的概率估计总体均数在哪个范围。它把抽样误差引入估计量,是确定具有特定概率意义的区间。,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!