抽样误差与假设检验

资源描述

流行病与卫生统计学教研室金英良本章主要内容 : 第一节均数的抽样误差与标准误差第二节总体均数的估计第三节假设检验的意义和步骤第一节均数的抽样误差与标准误差假定某年某地所有 13岁女学生身高服从总体均数 =155.4cm，总体标准差 =5.3cm的正态分布 N(155.4， 5.32）。随机抽取 30人为一个样本（ n=30），并计算样本的均数和标准差，共抽取 100次，可以得到 100份样本，每份样本可以计算相应的均数和标准差。 1. 156.7 5.16 2. 158.1 5.21 3. 155.6 5.32 99. 154.6 5.15 100. 156.6 5.25 =155.4cm =5.3cm X S 一百个样本抽样误差 (smpling error) 这种由抽样造成的样本统计量与总体参数之间的差异成为抽样误差 . 总体样本随机抽样统计量参数只要有个体变异和随机抽样研究，抽样误差就是不可避免的。若从正态总体 N(， 2）中，反复多次随机抽取样本含量固定为 n的样本，那么这些样本均数也服从正态分布。样本均数的总体均数仍为，样本均数的标准差为 ,其计算公式为： X X 中心极限定理 21k ii XX X k n SAMPLE 1： x11 x12 x13 x14.x1n SAMPLE 2： x21 x22 x23 x24.x2n SAMPLE k： xk1 xk2 xk3 xk4.xkn 2X 1X kX 原始总体 k个样本均数的频数分布图标准误 (standard error,SE) 样本均数的标准差。它反映了来自同一总体的样本均数之间的离散程度以及样本均数和总体均数的差异程度 ,即均数的抽样误差的大小。统计上用标准误来衡量抽样误差的大小！由于在实际工作中，总体标准差往往未知，而是用样本标准差 S来代替，故只能求得样本均数标准误的估计值 S X ，其计算公式为：估计例 4.1 某市随机抽查成年男子 140人，得红细胞均数 4.77 1012/L，标准差 0.38 1012/L，计算其标准误。 )/10(0 3 2.0 1 4 0 38.0S 12 L n S x 第二节总体均数的估计 1.统计推断（ statistical inference）在总体中随机抽取一定数量观察单位作为样本进行抽样研究，然后由样本信息推断总体特征，这一过程称为统计推断。一、可信区间的概念统计推断参数估计假设检验点估计区间估计（可信区间） 2.参数估计（ parameter estimation）是指由样本统计量估计总体参数，是统计推断的一个重要内容。（ 1）点估计（ point estimation）用样本统计量直接作为总体参数的估计值。（ 2）区间估计（ interval estimation）又称可信区间（置信区间， CI）按预先给定的概率，计算出一个区间，使它能够包含未知的总体均数。 =155.4cm 身高（ cm）总体均数的 95%可信区间，平均有 95个可信区间包括了总体均数，只有 5个可信区间不包括，即估计错误。进行 100次抽样，每次样本量为 n=30，利用样本均数和标准差估计总体均数范围。 3.可信区间有两个要素：（ 1）准确度（ accuracy）可信度的大小，即可信区间包容的概率大小（ 1-）。（ 2）精密度（ precision）反映在区间的长度，区间长度越小精密度越高。一般情况下， 95%的可信区间更为常用。在可信度确定的情况下，增加样本量，可减少区间长度，提高精密度。 t分布是 t检验的基础，亦称 student t检验，是计量资料中最常用的假设检验方法。戈塞特 (William Sealey Gosset) 英国著名统计学家。出生于英国肯特郡坎特伯雷市，求学于曼彻斯特学院和牛津大学，主要学习化学和数学。二、总体均数可信区间的计算 1899年作为一名酿酒师进入爱尔兰的都柏林一家啤酒厂工作，在那里他涉及到有关酿造过程的数据处理问题。由于酿酒厂的规定禁止戈塞特发表关于酿酒过程变化性的研究成果，因此戈塞特不得不于 1908年，首次以 “ 学生 ” (Student)为笔名，在生物计量学杂志上发表了 “ 平均数的概率误差 ” 。 Gosset在文章中使用 Z统计量来检验常态分配母群的平均数。由于这篇文章提供了 “ 学生 t检验 ” 的基础，为此，许多统计学家把 1908年看作是统计推断理论发展史上的里程碑。随机变量 X N（， 2）标准正态分布 N（ 0， 12） u变换当总体均数与标准差未知时 X均数标准正态分布 N（ 0， 12） ),( 2 nN 在实际工作中，往往未知，常用代替进行变换，即不服从标准正态分布！而服从自由度 =n-1的 t分布 f(t) =(标准正态曲线 ) =5 =1 0.1 0.2 -4 -3 -2 -1 0 1 2 3 4 0.3 t分布 1、以 0为中心，左右对称的单峰分布。 2、 t分布曲线是一簇曲线，其形态变化与自由度的大小有关系（ =n-1）。 t分布的特征：自由度越小， t分布的峰越低，而两侧尾部翘得越高；自由度逐渐增大时， t分布逐渐逼近标准正态分布，当自由度为无穷大时， t分布就是标准正态分布。为便于使用，统计学家编制了不同自由度对应的 t界值表。 t分布的用途：主要用于总体均数的区间估计及 t检验。未知且 n较小（ n50）按 u分布已知按 u分布总体均数可信区间的计算方法，随总体标准差是否已知，以及样本含量 n的大小而异。通常有 t分布和 u分布两类方法：（一）已知 n X u ),( )96.1,96.1( 95.0)96.196.1( 2/2/ XX XX uXuX XX n X P u变换公式： -1.96 +1.96 2.5% 2.5% 95% （二）未知 ),( 1) S ( ,2/,2/ ,2/,2/ XX StXStX t n X tP 1.n较小（ n50) ),( ,2/,2/ XX SuXSuX 例 4.2 某医生测得 25名动脉粥样硬化患者血浆纤维蛋白原含量的均数为 3.32g/L，标准差为 0.57g/L，试计算该种病人血浆纤维蛋白原含量总体均数的 95%可信区间。 56.325/57.00 6 4.232.3 08.325/57.00 6 4.232.3 ,2/ ,2/ X X StX StX 上限：下限：该种病人血浆纤维蛋白原含量总体均数的 95%可信区间为 3.09g/L 3.56g/L 例 4.3 试计算例 4.1中该地成年男子红细胞总体均数的 95%可信区间。 83.41 4 0/38.096.177.4 71.41 4 0/38.096.177.4 ,2/ ,2/ X X SuX SuX 上限：下限：该地成年男子红细胞总体均数的 95%可信区间为 4.71 1012/L 4.83 1012/L 第三节假设检验的意义和步骤一、假设检验的基本思想 “ 反证法 ” 的思想先根据研究目的建立假设，从 H0假设出发，先假设它是正确的，再分析样本提供的信息是否与 H0有较大矛盾，即是否支持 H0，若样本信息不支持 H0，便拒绝之并接受 H1，否则不拒绝 H0 。例 4.4 以往通过大规模调查已知某地新生儿出生体重为 3.30kg. 从该地难产儿中随机抽取 35名新生儿作为研究样本，平均出生体重为 3.42kg, 标准差为 0.40kg。问该地难产儿出生体重是否与一般新生儿体重不同？ 0=3.30kg 次 /分已知总体未知总体 n=35, =3.42kg S=0.40kg 与 0之间的差异（不相等），有两种可能： 1、 = 0，仅因为用去估计时存在抽样误差，所以导致了与 0之间的差异。 2、与 0本身就不相等，所以导致了与之间的差异。 X X X X X 假设检验的基本原理 : 抽样误差所致 P0.05 （来自同一总体） ? 假设检验回答本身存在差别 P0(单侧检验 ) 单侧检验 ) =0.05 例如：要比较经常参加体育锻炼的中学男生心率是否低于一般中学男生的心率，就属于单侧检验。 H1： 0，双侧， 0都有可能 H1： 0，单侧 H1：，则接受 H0，拒绝 H1 检验水准确定的 P值 1. 对于 H0只能说拒绝与不拒绝，而对 H1只能说接受。 2. P，则拒绝 H0 ，接受 H1 ，差异有统计学意义，可认为不同或不等。 3. P，则不拒绝 H0 ，差异无统计学意义，尚不能认为不同或不等。 4. 应事先确定。选 0.05只是一种习惯，而不是绝对的标准。关于假设检验的几个观点

展开阅读全文

抽样误差与假设检验

最新文档