资源描述
流行病与卫生统计学教研室 金英良 本章主要内容 : 第一节 均数的抽样误差与标准误差 第二节 总体均数的估计 第三节 假设检验的意义和步骤 第一节 均数的抽样误差与标准误差 假定某年某地所有 13岁女学生身高服从总体 均数 =155.4cm, 总体标准差 =5.3cm的正态分 布 N(155.4, 5.32) 。 随机抽取 30人为一个样本 ( n=30) , 并计算样本的均数和标准差 , 共抽取 100次 , 可以得到 100份样本 , 每份样本可以计算 相应的均数和标准差 。 1. 156.7 5.16 2. 158.1 5.21 3. 155.6 5.32 99. 154.6 5.15 100. 156.6 5.25 =155.4cm =5.3cm X S 一 百 个 样 本 抽样误差 (smpling error) 这种由抽样造成的 样本统计量 与 总体参数 之间的差 异成为抽样误差 . 总体 样本 随机抽样 统计量 参 数 只要有个体变异和随机抽样研究, 抽样误差就是 不可避免 的。 若从正态总体 N(, 2) 中,反复多次随机抽取样本 含量固定为 n的样本,那么这些样本均数 也服从正态 分布。样本均数 的总体均数仍为 , 样本均数的标准 差为 ,其计算公式为: X X 中心极限定理 21k ii XX X k n SAMPLE 1: x11 x12 x13 x14.x1n SAMPLE 2: x21 x22 x23 x24.x2n SAMPLE k: xk1 xk2 xk3 xk4.xkn 2X 1X kX 原始 总体 k个样本均数的频数分布图 标准误 (standard error,SE) 样本均数的标准差。 它反映了来自同一总体的样本均数之间的离散程度以 及样本均数和总体均数的差异程度 ,即均数的抽样误差 的大小。 统计上用标准误来衡量抽样误差的大小! 由于在实际工作中,总体标准差 往往未知,而是用样 本标准差 S来代替 , 故只能求得样本均数标准误的估 计值 S X , 其计算公式为: 估计 例 4.1 某市随机抽查成年男子 140人, 得红细胞均数 4.77 1012/L,标准差 0.38 1012/L,计算其标准误。 )/10(0 3 2.0 1 4 0 38.0S 12 L n S x 第二节 总体均数的估计 1.统计推断( statistical inference) 在总体中随机抽取 一定数量观察单位作为样本进行抽样研究,然后由样本 信息推断总体特征,这一过程称为统计推断。 一、可信区间的概念 统计推断 参数估计 假设检验 点估计 区间估计(可信区间) 2.参数估计( parameter estimation) 是指由样本统计量 估计总体参数,是统计推断的一个重要内容。 ( 1)点估计( point estimation) 用样本统计量直接作为总体参数的估计值。 ( 2)区间估计( interval estimation) 又称可信区间 (置信区间, CI) 按预先给定的概率,计算出一个区间,使它能够包含未 知的总体均数。 =155.4cm 身高( cm) 总体均数的 95%可信区间,平 均有 95个可信区间包括了总体 均数 , 只有 5个可信区间不包 括 , 即估计错误。 进行 100次抽样,每次样本量为 n=30, 利用样本均数 和标准差估计总体均数范围。 3.可信区间有两个要素: ( 1) 准确度( accuracy) 可信度的大小,即可信区 间包容 的概率大小( 1-)。 ( 2) 精密度( precision) 反映在区间的长度,区间 长度越小精密度越高。 一般情况下, 95%的可信区间更为常用。 在可信度确定的情况下,增加样本量,可减少区间长 度,提高精密度。 t分布 是 t检验的基础,亦称 student t检验,是计量资 料中最常用的假设检验方法。 戈塞特 (William Sealey Gosset) 英国著名统计学家 。 出生 于英国肯特郡坎特伯雷市 , 求 学于曼彻斯特学院和牛津大学 , 主要学习化学和数学 。 二、总体均数可信区间的计算 1899年作为一名酿酒师进入爱尔兰的都柏林一家 啤酒厂工作 , 在那里他涉及到有关酿造过程的数据处 理问题 。 由于酿酒厂的规定禁止戈塞特发表关于酿酒过程 变化性的研究成果 , 因此戈塞特不得不于 1908年 , 首 次以 “ 学生 ” (Student)为笔名 , 在 生物计量学 杂 志上发表了 “ 平均数的概率误差 ” 。 Gosset在文章中 使用 Z统计量来检验常态分配母群的平均数 。 由于这 篇文章提供了 “ 学生 t检验 ” 的基础 , 为此 , 许多统计 学家把 1908年看作是统计推断理论发展史上的里程碑 。 随机变量 X N( , 2) 标准正态分布 N( 0, 12) u变换 当总体均数与标 准差未知时 X均数 标准正态分布 N( 0, 12) ),( 2 nN 在实际工作中, 往往未知,常用 代替进 行变换,即 不服从标准正态分布! 而服从自由度 =n-1的 t分布 f(t) =(标准正态曲线 ) =5 =1 0.1 0.2 -4 -3 -2 -1 0 1 2 3 4 0.3 t分布 1、以 0为中心,左右对称的单峰分布。 2、 t分布曲线是一簇曲线,其形态变化与自由 度 的大小有关系( =n-1)。 t分布的特征: 自由度越小, t分布的峰越低,而两 侧尾部翘得越高; 自由度逐渐增大时, t分布逐渐逼近 标准正态分布,当自由度为无穷大时, t分布就是标准正态分布 。 为便于使用,统计学家编制了不同自由度 对 应的 t界值表。 t分布的用途: 主要用于总体均数的区间估计及 t检验。 未知 且 n较小 ( n50) 按 u分布 已知 按 u分布 总体均数可信区间的计算方法,随总体标准差 是否已知,以及样本含量 n的大小而异。 通常有 t分布和 u分布 两类方法: (一) 已知 n X u ),( )96.1,96.1( 95.0)96.196.1( 2/2/ XX XX uXuX XX n X P u变换公式: -1.96 +1.96 2.5% 2.5% 95% (二) 未知 ),( 1) S ( ,2/,2/ ,2/,2/ XX StXStX t n X tP 1.n较小( n50) ),( ,2/,2/ XX SuXSuX 例 4.2 某医生测得 25名动脉粥样硬化患者血浆 纤维蛋白原含量的均数为 3.32g/L,标准差为 0.57g/L,试计算该种病人血浆纤维蛋白原含量 总体均数的 95%可信区间。 56.325/57.00 6 4.232.3 08.325/57.00 6 4.232.3 ,2/ ,2/ X X StX StX 上限: 下限: 该种病人血浆纤维蛋白原含量总体均数的 95%可信区间为 3.09g/L 3.56g/L 例 4.3 试计算例 4.1中该地成年男子 红细胞总体均数的 95%可信区间。 83.41 4 0/38.096.177.4 71.41 4 0/38.096.177.4 ,2/ ,2/ X X SuX SuX 上限: 下限: 该地成年男子红细胞总体均数的 95%可信 区间为 4.71 1012/L 4.83 1012/L 第三节 假设检验的意义和步骤 一、假设检验的基本思想 “ 反证法 ” 的思想 先根据研究目的建立假设,从 H0假设出发,先假设它 是正确的,再分析样本提供的信息是否与 H0有较大矛 盾,即是否支持 H0,若样本信息不支持 H0,便拒绝之 并接受 H1,否则不拒绝 H0 。 例 4.4 以往通过大规模调查已知某地新生 儿出生体重为 3.30kg. 从该地难产儿中随机 抽取 35名新生儿作为研究样本,平均出生 体重为 3.42kg, 标准差为 0.40kg。 问该地难产儿出生体重是否 与一般新生儿体重不同? 0=3.30kg 次 /分 已知总体 未知总体 n=35, =3.42kg S=0.40kg 与 0之间的差异(不相等),有两种可能: 1、 = 0, 仅因为用 去估计 时存在抽样误差, 所以导致了 与 0之间的差异。 2、 与 0本身就不相等,所以导致了 与 之间的 差异。 X X X X X 假设检验的基本原理 : 抽样误差所致 P0.05 (来自同一总体) ? 假设检验回答 本身存在差别 P0(单侧检验 ) 单侧检验 ) =0.05 例如:要比较经常参加体育锻炼的中学男生心 率是否低于一般中学男生的心率,就属于单侧 检验。 H1: 0,双侧, 0都有可能 H1: 0,单侧 H1: , 则接受 H0, 拒绝 H1 检验水准 确定的 P值 1. 对于 H0只能说拒绝与不拒绝,而对 H1只能说接 受。 2. P,则拒绝 H0 ,接受 H1 ,差异有统计学意 义,可认为 不同或不等。 3. P,则不拒绝 H0 ,差异无统计学意义,尚 不能认为 不同或不等。 4. 应事先确定 。选 0.05只是一种习惯,而 不是绝对的标准。 关于假设检验的几个观点
展开阅读全文