《总体均数的估计》PPT课件.ppt

资源描述

第四章抽样误差与区间估计,一、均数的抽样误差,抽样的目的是用样本信息来推断总体特征，因此要保证样本的可靠性和代表性，使样本能够充分地反映总体的真实情况。这就要求严格遵循独立性和随机化的原则，并保证足够的样本含量。为了解某地成年男子红细胞的总体均数，随机抽样调查了200人，计算得到这是一个点估计值，可以用来估计总体均数。但此时样本均数不太可能等于总体均数。,这种由个体变异产生的、随机抽样而引起的统计量与总体参数间的差异称为的抽样误差（samplingerror），在抽样研究中抽样误差是不可避免的，只要抽样就会有抽样误差存在，但是抽样误差的分布有一定的规律性，并且可以通过一定的方法来估计。,根据数理统计原理，样本均数抽样结果具有如下特点：从正态总体N（,2）中，随机抽取例数为n的样本，样本均数也服从正态分布，即使是从偏态总体中抽样，当n足够大时，样本均数的分布也服从正态分布；从均数为，标准差为的正态或偏态总体中，抽取例数为n的样本，样本均数的均数，标准差为。,是样本均数的标准差也称为标准误，它反映了样本均数与总体均数之间的离散程度，常用以说明均数抽样误差的大小。标准误的计算公式如下：该式反映了标准误的大小与标准差呈正比，与样本量的平方根呈反比。因此，在抽样研究中，可适当增加样本含量，控制和减小抽样误差。,在实际工作中，总体标准差常是未知的而是用样本标准差s来代替，的估计值记作。,从N(4.83,0.522)的总体中作随机抽样，n=10,重复100次的抽样结果见P31。计算得到：,随机抽样调查了200人，计算得到:估计其抽样误差：,标准误的用途,标准误是反映样本均数变异程度的指标，常用来表示抽样误差的大小。标准误大反映样本均数抽样误差大，其对总体均数的代表性差；标准误小，样本均数抽样误差就小，其对总体均数的代表性就好。标准误可用于计算总体均数的可信区间，也是进行假设检验的基础。,标准差和标准误的区别,意义：标准差描述个体值间的变异程度，即观察值间的离散度，标准差小，表示观察值围绕均数的波动较小。当观察值呈正态或近似正态分布时，可将均数及标准差同时写出，如。标准误描述统计量的抽样误差的大小，即样本统计量与总体参数的接近程度。标准误小，表示抽样误差小，则统计量较稳定，与参数较接近。,标准差和标准误的区别,用途标准差表示观察值间波动的大小，如精密度的大小，当资料服从正态或近似正态分布时，可结合均数估计正常值范围：标准误表示抽样误差的大小，用于估计总体参数的可信区间：,标准差、标准误与样本含量的关系,标准差随着样本量的增多，逐渐趋于稳定，如同地区、同年龄、同性别儿童的身高、体重的标准差，当样本含量达到约200以上时，基本趋于稳定。标准误随着样本量的增多而减小，如均数的标准误，当标准差不变时，与样本量的平方根呈反比。当样本含量趋近于总体例数时，则样本标准差趋于稳定，近似等于总体标准差；标准误则趋近于0，抽样误差几乎消失。,二、均数抽样误差的分布t分布,在总体均数为，标准差为的正态总体中，独立随机的抽取样本含量为n的样本，则样本均数服从正态分布：将样本均数标准化，则：其中的分母称为均数的标准误，如果变量是正态的或近似正态的，则标准化的变量服从或近似服从N（0，1）分布，即u分布。,若上式中的是未知的，可用样本标准差s代替总体标准差，此时采用的不是u变换而是t变换了，即：其结果就不再服从标准正态分布了，而是服从自由度为n-1的t分布。,t分布也是一种对称分布，它只有一个参数，即自由度。t分布与标准正态分布相比有以下特征：二者都是单峰分布，以0为中心，左右两侧对称。t分布的峰部较矮而尾部翘得较高，说明远侧t值的个数相对较多，即尾部面积（概率P）较大。自由度越小这种情况越明显。t分布不是一条曲线，而是由一簇随自由度改变而变化的曲线所组成。当逐渐增大时，t分布逐渐逼近标准正态分布；当=时，t分布就完全成为标准正态分布了。,t界值,统计学家已将各种自由度对应的t分布曲线下的尾部面积（概率）的百分界值编制成t界值表。由于t分布是以0为中心的对称分布，故表中只列出正值，所以查表时，不管t值正负只用绝对值。表右上角插图中阴影部分，表示t,以外尾部面积占总面积的百分数，即概率P。随着自由度的增大，t界值逐渐减小，当自由度无穷大时，双侧t0.05=1.96，单侧t0.05,=1.645，即为u分布的界值。,如由表查出单侧t0.05,10=1.812，表示从正态总体作样本例数为11的随机抽样，其t值服从=n-1=11-1=10的t分布，理论上P(t-1.812)=0.05，或P(t1.812)=0.05用更一般的表示法为单侧：P(t-t,)=，或P(tt,)=双侧：P(t-t,)+P(tt,)=反之P(-t,tt,)=1-,总体均数的估计,参数估计是通过样本指标（统计量）来估计总体指标（参数）。它包括两种方法：点（值）估计（pointestimation）：即把样本统计量直接作为总体参数的估计值，如用样本均数来估计总体均数。这种方法虽然很简单，但是未涉及随机误差，而随机误差在抽样研究中是不可忽视的。区间估计（intervalestimation）即按一定的概率估计总体均数在哪个范围，它把抽样误差引入估计量，确定具有特定概率意义的区间。,可信区间与参考值范围,可信区间是从总体中作随机抽样，每个样本可以算出一个可信区间，如95%可信区间，意味着100次抽样，算得100个可信区间，平均有95个可信区间包括总体均数（估计正确），只有5个可信区间不包括总体均数（估计错误）。5%是小概率事件，实际发生的可能性小，因此，在实际应用中就认为总体均数在算得的可信区间内,这种估计方法会冒5%犯错误的风险。参考值范围是指同质总体中大多数个体变量值的分布范围。95%参考值范围指同质总体中95%的个体值分布在此范围内。它与标准差有关，各个体值变异越大，该范围越宽，分布也越分散。,可信区间和可信限,可信限（CL）分别指两个点值。可信区间（常简记为CI）是以上、下可信限为界的一个范围。比如可信区间(5.31,5.45)1012/L的下限是5.311012/L，上限是5.451012/L。,区间估计,设有一正态总体N（,2），现从中随机抽取一个样本，该样本的均数和标准差分别用和s表示，样本均数的标准t离差服从t分布，则可信度为（1-）的t值满足：P(-t,tt，)=1-将代入不等式，即：,于是得可信度为1-时，计算总体均数可信区间的通式为：习惯上，常取1-=0.95，即95%可信区间；或取1-=0.99，即99%可信区间。,未知时。一般用t分布的原理作区间估计。已知未知，但n足够大,例：对某人群随机抽取20人，用某批号的结核菌素作皮试，平均浸润直径为10.9mm，标准差为3.86mm。问这批结核菌素在该人群中使用时，皮试的平均浸润直径的95%可信区间是多少？查附表，t0.05,19=2.093所以该人群皮试的平均浸润直径的95%可信区间为9.112.7mm。,可信区间的两个要素,准确度：反映在可信度1-的大小，即区间包含总体均数的概率的大小，当然愈接近1愈好；精度：反映在区间的长度，当然长度愈小愈好。在样本例数确定的情况下，二者是矛盾的。一般情况下，在可信度确定的情况下，增加样本例数，可减少区间长度，提高精度。,小结,在正态总体N（,2）中作随机抽样，样本均数的分布呈正态分布，当总体标准差未知，用作为标准误的估计值，样本均数的分布呈t分布，t分布是随自由度的改变而变化的一簇曲线，因此应注意自由度的大小。参数估计是通过样本指标来估计总体指标。点（值）估计：即把样本统计量直接作为总体参数的估计值。区间估计即按一定的概率估计总体均数在哪个范围。它把抽样误差引入估计量，是确定具有特定概率意义的区间。,

展开阅读全文

《总体均数的估计》PPT课件.ppt

最新文档