医学统计学完全版ppt课件

上传人:钟*** 文档编号:4471814 上传时间:2020-01-08 格式:PPT 页数:653 大小:13.14MB
返回 下载 相关 举报
医学统计学完全版ppt课件_第1页
第1页 / 共653页
医学统计学完全版ppt课件_第2页
第2页 / 共653页
医学统计学完全版ppt课件_第3页
第3页 / 共653页
点击查看更多>>
资源描述
医学本科生用医学统计学 主讲王守英 新乡医学院公共卫生学系综合实验室wanshoy 第1页共654页 医学统计学总目录 第1章绪论 第2章定量资料统计描述 第3章总体均数的区间估计和假设检验 第4章方差分析 第5章定性资料的统计描述 第6章总体率的区间估计和假设检验 第7章二项分布与泊松分布 第8章秩和检验 第9章直线相关与回归 第10章实验设计 第11章调查设计 第12章统计表与统计图 第2页共654页 第1章绪论目录 第五节学习统计学应注意的几个问题 第二节统计工作的基本步骤 第三节统计资料的类型 第四节统计学中的几个基本概念 第一节医学统计学的定义和内容 第3页共654页 第一章绪论第一节医学统计学的定义和内容 医学统计学 medicalstatistics 是以医学理论为指导 运用数理统计学的原理和方法研究医学资料的搜集 整理与分析 从而掌握事物内在客观规律的一门学科 第4页共654页 医学研究的对象 主要是人以及与其健康有关的各种影响因素 医学统计学的主要内容 1 统计设计包括实验设计和调查设计 它可以合理地 科学地安排实验和调查工作 使之能较少地花费人力 物力和时间 取得较满意和可靠的结果 2 资料的统计描述和总体指标的估计通过计算各种统计指标和统计图表来描述资料的集中趋势 离散趋势和分布特征况 如正态分布或偏态分布 利用样本指标来估计总体指标的大小 第5页共654页 3 假设检验是通过统计检验方法 如t检验 u检验 F检验 卡方检验 秩和检验等 来推断两组或多组统计指标的差异是抽样误差造成的还是有本质的差别 4 相关与回归医学中存在许多相互联系 相互制约的现象 如儿童的身高与体重 胸围与肺活量 血糖与尿糖等 都需要利用相关与回归来分析 第6页共654页 5 多因素分析如多元回归 判别分析 聚类分析 正交设计分析 主成分分析 因子分析 logistic回归 Cox比例风险回归等 都是分析医学中多因素有效的方法 本书不涉及 请参考有关统计书籍 这些方法计算复杂 大部分需借助计算机来完成 6 健康统计研究人群健康的指标与统计方法 除了用上述的某些方法外 他还有其特有的方法 如寿命表 生存分析 死因分析 人口预测等方法 第7页共654页 医学统计工作可分为四个步骤 统计设计 搜集资料 整理资料和分析资料 这四个步骤密切联系 缺一不可 任何一个步骤的缺陷和失误 都会影响统计结果的正确性 第二节统计工作的基本步骤 第8页共654页 设计 design 是统计工作的第一步 也是关键的一步 是对统计工作全过程的设想和计划安排 统计设计 就是根据研究目的确定试验因素 受试对象和观察指标 并在现有的客观条件下决定用什么方式和方法来获取原始资料 并对原始资料如何进行整理 以及整理后的资料应该计算什么统计指标和统计分析的预期结果如何等 一 统计设计 第9页共654页 搜集资料 collectionofdate 是根据设计的要求 获取准确可靠的原始资料 是统计分析结果可靠的重要保证 医学统计资料的来源主要有以下三个方面 1 统计报表统计报表是医疗卫生机构根据国家规定的报告制度 定期逐级上报的有关报表 如法定传染病报表 出生死亡报表 医院工作报表等 报表要完整 准确 及时 二 搜集资料 第10页共654页 2 医疗卫生工作记录如病历 医学检查记录 卫生监测记录等 3 专题调查或实验研究它是根据研究目的选定的专题调查或实验研究 搜集资料有明确的目的与针对性 它是医学科研资料的主要来源 第11页共654页 整理资料 sortingdata 的目的就是将搜集到的原始资料进行反复核对和认真检查 纠正错误 分类汇总 使其系统化 条理化 便于进一步的计算和分析 整理资料的过程如下 1 审核 认真检查核对 保证资料的准确性和完整性 2 分组 归纳分组 分组方法有两种 质量分组 即将观察单位按其类别或属性分组 如按性别 职业 阳性和阴性等分组 数量分组 即将观察单位按其数值的大小分组 如按年龄的大小 药物剂量的大小等分组 三 整理资料 第12页共654页 3 汇总 分组后的资料要按照设计的要求进行汇总 整理成统计表 原始资料较少时用手工汇总 当原始资料较多时 可使用计算机汇总 四 分析资料分析资料 analysisofdata 是根据设计的要求 对整理后的数据进行统计学分析 结合专业知识 作出科学合理的解释 第13页共654页 1 统计描述 descriptivestatistics 将计算出的统计指标与统计表 统计图相结合 全面描述资料的数量特征及分布规律 2 统计推断 inferentialstatistics 使用样本信息推断总体特征 通过样本统计量进行总体参数的估计和假设检验 以达到了解总体的数量特征及其分布规律 才是最终的研究目的 统计分析包括以下两大内容 第14页共654页 医学统计资料按研究指标的性质一般分为定量资料 定性资料和等级资料三大类 一 定量资料定量资料 quantitativedata 亦称计量资料 measurementdata 是用定量的方法测定观察单位 个体 某项指标数值的大小 所得的资料称定量资料 如身高 体重 脉搏 次 分 血压 kPa 等为数值变量 其组成的资料为定量资料 第三节统计资料的类型 第15页共654页 定性资料 qualitativedata 亦称计数资料 enumerationdata 或分类资料 categoricaldata 是将观察单位按某种属性或类别分组 清点各组的观察单位数 所得的资料称定性资料 定性资料的观察指标为分类变量 categoricalvariable 如人的性别按男 女分组 化验结果按阳性 阴性分组 动物实验按生存 死亡分组 调查某人群的血型按A B O AB分组等 观察单位出现的结果为分类变量 分类变量没有量的差别 只有质的不同 其组成的资料为定性资料 二 定性资料 第16页共654页 三 等级资料 等级资料 rankeddata 亦称有序分类资料 ordinalcategoricaldata 是将观察单位按属性的等级分组 清点各组的观察单位数 所得的资料为等级资料 如治疗结果分为治愈 显效 好转 无效四个等级 第17页共654页 根据需要 各类变量可以互相转化 若按贫血的诊断标准将血红蛋白分为四个等级 重度贫血 中度贫血 轻度贫血 正常 可按等级资料处理 有时亦可将定性资料或等级资料数量化 如将等级资料的治疗结果赋以分值 分别用0 1 2 等表示 则可按定量资料处理 如调查某人群的尿糖的情况 以人为观察单位 结果可分 五个等级 第18页共654页 同质 homogeneity 是指观察单位或研究个体间被研究指标的主要影响因素相同或基本相同 如研究儿童的生长发育 同性别 同年龄 同地区 同民族 健康的儿童即为同质儿童 变异 variation 由于生物个体的各种指标所受影响因素极为复杂 同质的个体间各种指标存在差异 这种差异称为变异 如同质的儿童身高 体重 血压 脉搏等指标会有一定的差别 第四节统计学中的几个基本概念一 同质与变异 第19页共654页 二 总体与样本 样本 sample 是从总体中随机抽取的部分观察单位变量值的集合 样本的例数称为样本含量 samplesize 注意 1 总体是相对的 总体的大小是根据研究目的而确定的 2 样本应有代表性 即应该随机抽样并有足够的样本含量 第20页共654页 图示 总体与样本 population sample2 sample1 sample3 sample4 sample5 第21页共654页 三 参数与统计量 参数 parameter 由总体计算或得到的统计指标称为参数 总体参数具有很重要的参考价值 如总体均数 总体标准差 等 统计量 statistic 由样本计算的指标称为统计量 如样本均数 样本标准差s等 注意 一般不容易得到参数 而容易获得样本统计量 第22页共654页 四 抽样误差 抽样误差 sampleerror 由于随机抽样所引起的样本统计量与总体参数之间的差异以及样本统计量之间的差别称为抽样误差 如样本均数与总体均数之间的差别 样本率与总体率的差别等 注意 抽样误差是不可避免的 无论抽样抽得多么好 也会存在抽样误差 第23页共654页 五 概率 概率 probability 是描述随机事件发生可能性大小的量值 用英文大写字母P来表示 概率的取值范围在0 1之间 当P 0时 称为不可能事件 当P 1时 称为必然事件 小概率事件 统计学上一般把P 0 05或P 0 01的事件称为小概率事件 小概率原理 小概率事件在一次试验中几乎不可能发生 利用该原理可对科研资料进行假设检验 第24页共654页 第五节学习医学统计学应注意的问题 1 重点掌握医学统计学的基本知识 基本技能 基本概念和基本方法 掌握使用范围和注意事项 2 要培养科学的统计思维方法 提高分析问题 解决问题的能力 3 掌握调查设计和实验设计的原则 培养搜集 整理 分析统计资料的系统工作能力 第25页共654页 课后作业 列举出计量资料 分类资料 等级资料各10个实例 列举出可能事件 必然事件 不可能事件及小概率事件各10个 认真复习本章已学过的基本概念2 3遍 第26页共654页 BestWishestoAllofYou ThankYouforListening THEEND 第27页共654页 医学本科生用 主讲王守英 新乡医学院公共卫生学系综合实验室wanshoy 医学统计学 第28页 第2章定量资料的统计描述目录 第二节集中趋势的描述 第三节离散趋势的描述 第四节正态分布 第一节频数分布表 第29页 统计描述 是用统计图表 统计指标来描述资料的分布规律及其数量特征 频数分布表 frequencydistributiontable 主要由组段和频数两部分组成表格 第一节频数分布表 第二章定量资料的统计描述 第30页 二 频数分布表的编制 编制步骤 1 计算全距 range 一组变量值最大值和最小值之差称为全距 range 亦称极差 常用R表示 2 确定组距 classinterval 组距用i表示 3 划分组段 每个组段的起点称组下限 终点称组上限 一般分为8 15组 4 统计频数 将所有变量值通过划记逐个归入相应组段 5 频率与累计频率 将各组的频数除以n所得的比值被称为频率 累计频率等于累计频数除以总例数 第31页 表2 2某年某市120名12岁健康男孩身高 cm 的频数分布 第32页 第33页 二 频数分布表的用途 1 揭示资料的分布类型2 观察资料的集中趋势和离散趋势3 便于发现某些特大或特小的可疑值4 便于进一步计算统计指标和作统计处理 第34页 第35页 第二节集中趋势的描述 集中趋势 代表一组同质变量值的集中趋势或平均水平 常用的平均数有算术均数 几何均数和中位数 另外不常用的有 众数 调和平均数和调整均数等 第36页 一 算术均数 算术均数 arithmeticmean 简称均数 适用条件 对称分布或近似对称分布的资料 习惯上以希腊字母 表示总体均数 populationmean 以英文字母表示样本均数 samplemean 第37页 1 直接法 用于观察值个数不多时 计算方法 第38页 2 加权法 weightingmethod 用于变量值个数较多时 注意 权数即频数f 为权重权衡之意 第39页 表2 4120名12岁健康男孩身高 cm 均数和标准差加权法计算表 第40页 第41页 120名12岁健康男孩身高均数为143 07cm 计算结果 第42页 几何均数 geometricmean 简记为 表示其平均水平 适用条件 对于变量值呈倍数关系或呈对数正态分布 正偏态分布 如抗体效价及抗体滴度 某些传染病的潜伏期 细菌计数等 计算公式 有直接法和加权法 二 几何均数 第43页 1 直接法 用于变量值的个数n较少时 第44页 直接法计算实例 第45页 2 加权法 用于资料中相同变量值的个数f 即频数 较多时 第46页 表2 550名儿童麻疹疫苗接种后血凝抑制抗体滴度几何均数计算表 第47页 第48页 50名儿童麻疹疫苗接种后平均血凝抑制抗体滴度为1 60 55 计算结果 将有关已知数据代入公式有 第49页 变量值中不能有0 不能同时有正值和负值 若全是负值 计算时可先把负号去掉 得出结果后再加上负号 计算几何均数注意事项 第50页 中位数定义 将一组变量值从小到大按顺序排列 位次居中的变量值称为中位数 median 简记为M 适用条件 变量值中出现个别特小或特大的数值 资料的分布呈明显偏态 即大部分的变量值偏向一侧 变量值分布一端或两端无确定数值 只有小于或大于某个数值 资料的分布不清 三 中位数及百分位数 第51页 定义 百分位数 percentile 是一种位置指标 以Px表示 百分位数是将频数等分为一百的分位数 一组观察值从小到大按顺序排列 理论上有x 的变量值比Px小 有 100 x 的变量值比Px大 故P50分位数也就是中位数 即P50 M 百分位数 第52页 描述一组资料在某百分位置上的水平 用于确定正常值范围 计算四分位数间距 百分位数的应用条件 第53页 计算方法 有直接法和加权法 1 直接法 用于例数较少时 n为奇数时 n为偶数时 第54页 2 频数表法 用于例数较多时 中位数 百分位数 第55页 表2 6145例食物中毒病人潜伏期分布表 第56页 第57页 先找到包含Px的最小累计频率 该累计频率同行左边的组段值为L L同行右边的频数为fx 或fm L前一行的累计频数为 fL 将上述已知条件代入公式计算Px或P50 计算中位数及百分位数的步骤 第58页 计算结果 第59页 定义 用来说明变量值的离散程度或变异程度 注意 仅用集中趋势尚不能完全反映一组数据的特征 故应将集中趋势和离散趋势结合起来才能更好地反映一组数据的特征 常用离散指标有 极差 四分位数间距 标准差 方差 变异系数 第三节离散趋势的描述 第60页 甲组 184186188190192乙组 180184188192196两组球员的平均身高都是188cm 但甲组球员身高比较集中 乙组球员身高比较分散 为了说明离散趋势 就要用离散指标 实例分析 第61页 极差极差 range 简记为R 亦称全距 即一组变量值中最大值与最小值之差 特点 计算简单 不稳定 不全面 易变化 可用于各种分布的资料 一 极差和四分位数间距 第62页 四分位数间距 公式 Q P75 P25特点 比极差稳定 只反映中间两端值的差异 计算不太方便 可用于各种分布的资料 第63页 二 方差和标准差 方差 variance 总体方差 样本方差 第64页 自由度 degreeoffreedom 的概念 n 1是自由度 用希腊小写字母 表示 读作 nju 定义 在N维或N度空间中能够自由选择的维数或度数 例 A B C 共有n 3个元素 其中只能任选2个元素的值 故自由度 n 1 3 1 2 第65页 方差的特点 充分反映每个数据间的离散状况 意义深刻 指标稳定 应用广泛 但计算较为复杂 不易理解 方差的单位与原数据不同 有时使用时不太方便 在方差分析中应用甚广而极为重要 第66页 二 标准差 standarddeviation 总体标准差 样本标准差 第67页 牢记 离均差平方和展开式 第68页 标准差的特点 意义同方差 是方差的开平方 标准差的单位与原数据相同 使用方便 意义深刻 应用广泛 故一般已作为医学生物学领域中反映变异的标准 故称标准差 第69页 标准差的计算方法 可分为直接法和加权法 1 直接法 2 加权法 第70页 直接法 标准差计算实例 例2 12例2 2中7名正常男子红细胞数 1012 L 如下 4 67 4 74 4 77 4 88 4 76 4 72 4 92 计算其标准差 x 4 67 4 74 4 77 4 88 4 76 4 72 4 92 33 46 x2 4 672 4 742 4 772 4 882 4 762 4 722 4 922 159 99 第71页 计算结果 第72页 例2 13对表2 4资料用加权法计算120名12岁健康男孩身高值的标准差 加权法 标准差计算实例 在表2 4中已算得 fx 17168 fx2 2460040 代入公式 第73页 变异系数 coefficientofvariation 简记为CV 特征 变异系数为无量纲单位 可以比较不同单位指标间的变异度 变异系数消除了均数的大小对标准差的影响 所以可以比较两均数相差较大时指标间的变异度 三 变异系数 第74页 例2 14某地20岁男子160人 身高均数为166 06cm 标准差为4 95cm 体重均数为53 72kg 标准差为4 96kg 试比较身高与体重的变异程度 变异系数计算实例 第75页 身高 体重 变异系数计算结果 第76页 第四节正态分布 一 正态分布的概念和特征 正态分布 normaldistribution 也称高斯分布 是医学和生物学最常见的连续性分布 如身高 体重 红细胞数 血红蛋白等 第77页 图2 1120名12岁健康男孩身高的频数分布 第78页 正态分布的函数和图形 正态分布的密度函数 即正态曲线的方程为 第79页 图2 2频数分布逐渐接近正态分布示意 第80页 为了应用方便 常按公式 2 19 作变量变换 u值称为标准正态变量或标准正态离差 有的参考书也将u值称为z值 第81页 这样将正态分布变换为标准正态分布 standardnormaldistribution 第82页 图2 3正态分布的面积与纵高 第83页 正态分布的特征 1 集中性正态曲线的高峰位于正中央 即均数所在的位置 对称性正态曲线以均数为中心 左右对称 3 正态分布有两个参数 即均数和标准差 4 正态曲线下面积有一定的分布规律 第84页 图2 4不同标准差的正态分布示意 第85页 二 正态曲线下面积的分布规律 第86页 标准正态分布表 u值表 标准正态分布曲线下的面积 由此表可查出曲线下某区间的面积 查表时应注意 表中曲线下面积为 到u的下侧累计面积 当已知 和X时 先按公式 2 19 求得u值 再查表 当和未知时 并且样本例数在100例以上 常用样本均数和标准差S分别代替 和 按公式 2 19 求得u值 曲线下横轴上的总面积为100 或1 第87页 例2 16前例2 1中 某年某市120名12岁健康男孩身高 已知均数 143 07cm 标准差S 5 70cm 估计该地12岁健康男孩身高在135cm以下者占该地12岁男孩总数的百分数 估计身高界于135cm 150cm范围内12岁男孩的比例 分别求出均数 1S 均数 1 96S 均数 2 58S范围内12岁男孩人数占该120名男孩总数的实际百分数 说明与理论百分数是否接近 第88页 根据题意 按公式 2 19 作u变换 第89页 身高范围所占面积 故估计该地12男孩身高在135cm以下者约占7 78 身高界于135cm 150cm范围内者约占81 10 第90页 三 正态分布的应用 制定医学参考值范围参考值范围也称为正常值范围 医学上常把绝大数正常人的某指标范围称为该指标的正常值范围 这里的 绝大多数 可以是90 95 99 最常用的是95 质量控制常以均数 2S作为上 下警戒值 以均数 3S作为上 下控制值 正态分布是很多统计方法的理论基础 第91页 THEEND THANKYOUFORLISTENING 第92页 本科生用医学统计学教案 主讲王守英 新乡医学院公共卫生学系综合实验室wanshoy 第93页 第3章总体均数的区间估计和假设检验目录 第五节均数的u检验 第二节t分布 第三节总体均数的区间估计 第四节假设检验的意义和基本步骤 第一节均数的抽样误差与标准误 第六节均数的t检验 第七节两个方差的齐性检验和t 检验 第八节 型错误和 型错误 第九节应用假设检验应注意的问题 第94页 图示 总体与样本 Population sample2 sample1 sample3 sample4 sample5 第95页 一 标准误的意义及其计算统计推断 statisticalinference 根据样本信息来推论总体特征 均数的抽样误差 由抽样引起的样本均数与总体均数的差异称为均数的抽样误差 标准误 standarderror 反映均数抽样误差大小的指标 第一节均数的抽样误差与标准误 第96页 已知 标准误计算公式 未知 第97页 实例 如某年某市120名12岁健康男孩 已求得均数为143 07cm 标准差为5 70cm 按公式计算 则标准误为 第98页 1 表示抽样误差的大小 2 进行总体均数的区间估计 3 进行均数的假设检验等 二 标准误的应用 第99页 正态变量X采用u X 变换 则一般的正态分布N 即变换为标准正态分布N 0 1 又因从正态总体抽取的样本均数服从正态分布N 同样可作正态变量的u变换 即 第二节t分布一 t分布的概念 第100页 实际工作中由于理论的标准误往往未知 而用样本的标准误作为的估计值 此时就不是u变换而是t变换了 即下式 第101页 t分布于1908年由英国统计学家W S Gosset以 Student 笔名发表 故又称Studentt分布 Students t distribution 第102页 二 t分布曲线的特征 t分布曲线是单峰分布 以0为中心 左右两侧对称 曲线的中间比标准正态曲线 u分布曲线 低 两侧翘得比标准正态曲线略高 t分布曲线随自由度 而变化 当样本含量越小 严格地说是自由度 n 1越小 t分布与u分布差别越大 当逐渐增大时 t分布逐渐逼近于u分布 当 时 t分布就完全成正态分布 t分布曲线是一簇曲线 而不是一条曲线 t分布下面积分布规律 查t分布表 第103页 t分布示意图 第104页 t分布曲线下双侧或单侧尾部合计面积 我们常把自由度为 的t分布曲线下双侧尾部合计面积或单侧尾部面积为指定值 时 则横轴上相应的t界值记为t 如当 20 0 05时 记为t0 05 20 当 22 0 01时 记为t0 01 22 对于t 值 可根据 和 值 查附表2 t界值表 第105页 t分布是t检验的理论基础 由公式 3 4 可知 t 值与样本均数和总体均数之差成正比 与标准误成反比 在t分布中 t 值越大 其两侧或单侧以外的面积所占曲线下总面积的比重就越小 说明在抽样中获得此 t 值以及更大 t 值的机会就越小 这种机会的大小是用概率P来表示的 t 值越大 则P值越小 反之 t 值越小 P值越大 根据上述的意义 在同一自由度下 t t 则P 反之 t t 则P 第106页 第三节总体均数的区间估计 参数估计 用样本指标 统计量 估计总体指标 参数 称为参数估计 估计总体均数的方法有两种 即 点值估计 pointestimation 区间估计 intervalestimation 第107页 一 点值估计 点值估计 是直接用样本均数作为总体均数的估计值 此法计算简便 但由于存在抽样误差 通过样本均数不可能准确地估计出总体均数大小 也无法确知总体均数的可靠程度 第108页 二 区间估计 区间估计是按一定的概率 1 估计包含总体均数可能的范围 该范围亦称总体均数的可信区间 confidenceinterval 缩写为CI 1 称为可信度 常取1 为0 95和0 99 即总体均数的95 可信区间和99 可信区间 1 如95 可信区间的含义是 总体均数被包含在该区间内的可能性是1 即 95 没有被包含的可能性为 即 5 第109页 总体均数的可信区间的计算 1 未知 且n较小 n 100 按t分布的原理 2 已知 或n较大 n 100 按u分布的原理 第110页 95 的可信区间为123 7 2 064 2 38 即 118 79 128 61 故该地1岁婴儿血红蛋白平均值95 的可信区间为118 7 128 61 g L 例3 1为了了解某地1岁婴儿的血红蛋白浓度 从该地随机抽取了1岁婴儿25人 测得其血红蛋白的平均数为123 7g L 标准差为11 9g L 试求该地1岁婴儿的血红蛋白平均值95 的可信区间 第111页 例3 2上述某市120名12岁健康男孩身高均数为143 07cm 标准误为0 52cm 试估计该市12岁康男孩身高均数95 和99 的可信区间 95 的可信区间为143 07 1 96 0 52 即 142 05 144 09 99 的可信区间为143 07 2 58 0 52 即 141 73 144 41 第112页 注意点 标准误愈小 估计总体均数可信区间的范围也愈窄 说明样本均数与总体均数愈接近 对总体均数的估计也愈精确 反之 标准误愈大 估计总体均数可信区间的范围也愈宽 说明样本均数距总体均数愈远 对总体均数的估计也愈差 第113页 表3 1标准差和标准误的区别 第114页 第四节假设检验的意义和基本步骤 假设检验 hypothesistest 亦称显著性检验 significancetest 是统计推断的重要内容 它是指先对总体的参数或分布作出某种假设 再用适当的统计方法根据样本对总体提供的信息 推断此假设应当拒绝或不拒绝 第115页 例3 3根据大量调查 已知健康成年男子脉搏的均数为72次 分钟 某医生在一山区随机测量了25名健康成年男子脉搏数 求得其均数为74 2次 分钟 标准差为6 5次 分钟 能否认为该山区成年男子的脉搏数与一般健康成年男子的脉搏数不同 本例两个均数不等有两种可能性 山区成年男子的脉搏总体均数与一般健康成年男子的脉搏总体均数是相同的 差别仅仅由于抽样误差所致 受山区某些因素的影响 两个总体的均数是不相同的 如何作出判断呢 按照逻辑推理 如果第一种可能性较大时 可以接受它 统计上称差异无统计学意义 nostatisticalsignificance 如果第一种可能性较小时 可以拒绝它而接受后者 统计上称差异有统计学意义 statisticalsignificance 第116页 假设检验的一般步骤如下 1 建立检验假设一种是无效假设 nullhypothesis 符号为H0 一种是备择假设 alternativehypothesis 符号为H1 H0 H1 第117页 表3 2样本均数所代表的未知总体均数与已知总体均数的比较 第118页 表3 3两样本均数所代表的未知总体均数的比较 第119页 2 确定检验水准检验水准 sizeofatest 亦称显著性水准 significancelevel 符号为 它是判别差异有无统计意义的概率水准 其大小应根据分析的要求确定 通常取 0 05 3 选定检验方法和计算统计量根据研究设计的类型和统计推断的目的要求选用不同的检验方法 如完全随机设计中 两样本均数的比较可用t检验 样本含量较大时 n 100 可用u检验 不同的统计检验方法 可得到不同的统计量 如t值和u值 第120页 4 确定概率P值P值是指在H0所规定的总体中作随机抽样 获得等于及大于 或小于 现有统计量的概率 t t 则P t 第121页 5 作出推断结论 当P 时 表示在H0成立的条件下 出现等于及大于现有统计量的概率是小概率 根据小概率事件原理 现有样本信息不支持H0 因而拒绝H0 结论为按所取检验水准拒绝H0 接受H1 即差异有统计学意义 如例3 3可认为两总体脉搏均数有差别 当P 时 表示在H0成立的条件下 出现等于及大于现有统计量的概率不是小概率 现有样本信息还不能拒绝H0 结论为按所取检验水准不拒绝H0 即差异无统计意义 如例3 3尚不能认为两总体脉搏均数有差别 第122页 下结论时的注意点 P 拒绝H0 不能认为H0肯定不成立 因为虽然在H0成立的条件下出现等于及大于现有统计量的概率虽小 但仍有可能出现 同理 P 不拒绝H0 更不能认为H0肯定成立 由此可见 假设检验的结论是具有概率性的 无论拒绝H0或不拒绝H0 都有可能发生错误 即第一类错误或第二类错误 第123页 第五节均数的u检验 国外统计书籍及统计软件亦称为单样本u检验 onesampleu test 样本均数与总体均数比较的u检验适用于 总体标准差 已知的情况 样本含量较大时 比如n 100时 对于后者 是因为n较大 也较大 则t分布很接近u分布的缘故 一 样本均数与总体均数比较的u检验 第124页 u值的计算公式为 总体标准差 已知时 不管n的大小 总体标准差 未知时 但n 100时 第125页 例3 4某托儿所三年来测得21 24月龄的47名男婴平均体重11kg 查得近期全国九城市城区大量调查的同龄男婴平均体重11 18kg 标准差为1 23kg 问该托儿所男婴的体重发育状况与全国九城市的同期水平有无不同 全国九城市的调查结果可作为总体指标 实例 第126页 1 建立检验假设H0 0 即该托儿所男婴的体重发育状况与全国九城市的同期水平相同 0 05 双侧 H1 0 即该托儿所男婴的体重发育状况与全国九城市的同期水平不同 2 计算u值本例因总体标准差 已知 故可用u检验 本例n 47 样本均数 11 总体均数 11 18 总体标准差 1 23 代入公式 3 7 第127页 3 确定P值 作出推断结论查u界值表 附表2 t界值表中为 一行 得u0 05 1 96 u 1 0030 05 按 0 05水准 不拒绝H0 差异无统计学意义 结论 可认为该托儿所男婴的体重发育状况与全国九城市的同期水平相同 第128页 二 两样本均数比较的u检验 该检验也称为独立样本u检验 independentsampleu test 适用于两样本含量较大 如n1 50且n2 50 时 u值可按下式计算 第129页 例3 5测得某地20 24岁健康女子100人收缩压均数为15 27kPa 标准差为1 16kPa 又测得该地20 24岁健康男子100人收缩压均数为16 11kPa 标准差为1 41kPa 问该地20 24岁健康女子和男子之间收缩压均数有无差别 实例 第130页 1 建立检验假设H0 1 2 即该地20 24岁健康女子和男子之间收缩压均数相同 H1 1 2 即该地20 24岁健康女子和男子之间收缩压均数不同 0 05 双侧 2 计算u值本例n1 100 均数1 15 27 S1 1 16n2 100 均数2 16 11 S2 1 41 第131页 3 确定P值 作出推断结论查u界值表 附表2 t界值表中为 一行 得u0 05 1 96 现u u0 05 1 96 故P 0 05 按水准 0 05 拒绝H0 接受H1 差异有统计学意义 结论 可认为该地20 24岁健康人的收缩压均数男性高于女性 第132页 第六节均数的t检验 当样本含量较小 如n 50 时 t分布和u分布有较大的出入 所以小样本的样本均数与总体均数的比较以及两个样本均数的比较要用t检验 t检验的适用条件 样本来自正态总体或近似正态总体 两样本总体方差相等 第133页 一 样本均数与总体均数比较的t检验 亦称为单样本t检验 onesamplet test 即样本均数代表的未知总体均数与已知的总体均数 一般为理论值 标准值或经过大量观察所得的稳定值等 进行比较 这时检验统计量t值的计算在H0成立的前提条件下由公式 3 4 变为 第134页 例3 6对例3 3资料进行t检验 1 建立检验假设H0 0 即该山区健康成年男子脉搏均数与一般健康成年男子脉搏均数相同 H1 0 即该山区健康成年男子脉搏均数与一般健康成年男子脉搏均数不同 0 05 双侧 2 计算t值本例n 25 s 6 5 样本均数 74 2 总体均数 72 代入公式 3 10 第135页 3 确定P值 作出推断结论本例 25 1 24 查附表2 t界值表 得t0 05 24 2 064 现t 1 6920 05 按 0 05的水准 不拒绝H0 差异无统计学意义 结论 即根据本资料还不能认为此山区健康成年男子脉搏数与一般健康成年男子不同 第136页 二 配对资料的t检验 医学科研中配对资料的三种主要类型 同一批受试对象治疗前后某些生理 生化指标的比较 同一种样品 采用两种不同的方法进行测定 来比较两种方法有无不同 配对动物试验 各对动物试验结果的比较等 配对实验设计得到的资料称为配对资料 第137页 先求出各对子的差值d的均值 若两种处理的效应无差别 理论上差值d的总体均数应为0 所以这类资料的比较可看作是样本均数与总体均数为0的比较 要求差值的总体分布为正态分布 t检验的公式为 配对资料的t检验 pairedsamplest test 第138页 例3 7设有12名志愿受试者服用某减肥药 服药前和服药后一个疗程各测量一次体重 kg 数据如表3 4所示 问此减肥药是否有效 1 建立检验假设H0 d 0 即该减肥药无效 H1 d 0 即该减肥药有效 单侧 0 05 第139页 表3 4某减肥药研究的体重 kg 观察值 第140页 2 计算t值本例n 12 d 16 d2 710 差值的均数 d n 16 12 1 33 kg 第141页 3 确定P值 作出推断结论自由度 n 1 12 1 11 查附表2 t界值表 得单侧t0 05 11 2 201 现t 0 580 05 按 0 05水准 不拒绝H0 差异无统计学意义 结论 故尚不能认为该减肥药有减肥效果 第142页 例3 8某单位研究饮食中缺乏维生素E与肝中维生素A含量的关系 将同种属的大白鼠按性别相同 年龄 体重相近配成8对 并将每对中的两头动物随机分到正常饲料组和维生素E缺乏组 然后定期将大白鼠杀死 测得其肝中维生素A的含量如表3 5 问不同饲料组的大白鼠肝中维生素A含量有无差别 自学内容 第143页 三 两样本均数比较的t检验 两本均数比较的t检验亦称为成组t检验 又称为独立样本t检验 independentsamplest test 适用于比较按完全随机设计而得到的两组资料 比较的目的是推断它们各自所代表的总体均数和是否相等 第144页 样本估计值为 总体方差已知 标准误的计算公式 第145页 若n1 n2时 已知S1和S2时 第146页 例3 9测得14名慢性支气管炎病人与11名健康人的尿中17酮类固醇 mol 24h 排出量如下 试比较两组人的尿中17酮类固醇的排出量有无不同 原始调查数据如下 病人X1 n 14 10 0518 7518 9915 9413 9617 6720 5117 2214 6915 109 428 217 2424 60健康人X2 n 11 17 9530 4610 8822 3812 8923 0113 8919 4015 8326 7217 29 第147页 1 建立检验假设H0 1 2 即病人与健康人的尿中17酮类固醇的排出量相同H1 1 2 即病人与健康人的尿中17酮类固醇的排出量不同 0 05 第148页 2 计算t值本例n1 14 X1 212 35 X12 3549 0919n2 11 X2 210 70 X22 4397 64 第149页 3 确定P值作出推断结论 14 11 2 23 查t界值表 得t0 05 23 2 069 现t 1 80350 05 按 0 05水准 不拒绝H0 差异无统计学意义 结论 尚不能认为慢性支气管炎病人与健康人的尿中17酮类固醇的排出量不同 第150页 四 两样本几何均数t检验 比较两样本几何均数的目的是推断它们各自代表的总体几何均数有无差异 适用于 观察值呈等比关系 如血清滴度 观察值呈对数正态分布 如人体血铅含量等 两样本几何均数比较的t检验公式与两样本均数比较的t检验公式相同 只需将观察X用lgX来代替就行了 第151页 例3 10将20名钩端螺旋体病人的血清随机分为两组 分别用标准株和水生株作凝溶试验 抗体滴度的倒数 即稀释度 结果如下 问两组抗体的平均效价有无差别 标准株 11人 1002004004004004008001600160016003200水生株 9人 1001001002002002002004001600 将两组数据分别取对数 记为x1 x2 x1 2 0002 3012 6022 6022 6022 6022 9033 2043 2043 2043 505x2 2 0002 0002 0002 3012 3012 3012 3012 6023 204 第152页 一 两样本方差的齐性检验用较大的样本方差S2比较小的样本方差S2 第七节两总体方差的齐性检验和t 检验 1为分子自由度 2为分母自由度 第153页 注意 方差齐性检验本为双侧检验 但由于公式 3 18 规定以较大的方差作分子 F值必然大于1 故附表3单侧0 025的界值 实对应双侧检验P 0 05 当样本含量较大时 如n1和n2均大于50 可不必作方差齐性检验 第154页 深层水 n1 8 样本均数 1 781 mg L S1 1 899 mg L 表层水 n2 10 样本均数 0 247 mg L S2 0 210 mg L 例3 11某研究所为了了解水体中汞含量的垂直变化 对某氯碱厂附近一河流的表层水和深层水作了汞含量的测定 结果如下 试检验两个方差是否齐性 第155页 确定P值作出推断结论本例 1 8 1 7 2 10 1 9 查附表3 F界值表 方差齐性检验用 得F0 05 7 9 4 20 本例F 80 97 F0 05 7 9 4 20 故P 0 05 按 0 05水准 拒绝H0 接受H1 结论 故可认为两总体方差不齐 第156页 方差不齐时 两小样本均数的比较 可选用以下方法 采用适当的变量变换 使达到方差齐的要求 采用秩和检验 采用近似法t 检验 二 t 检验 第157页 计算统计量t 值 第158页 例3 12由例3 11已知表层水和深层水含汞量方差不齐 试比较其均数有无差别 自学内容 第159页 假设检验中作出的推断结论可能发生两种错误 拒绝了实际上是成立的H0 这叫 型错误 type error 或第一类错误 也称为 错误 不拒绝实际上是不成立的H0 这叫 型错误 type error 或第二类错误 也称为 错误 第八节 型错误和 型错误 第160页 表3 6可能发生的两类错误 第161页 第162页 联系 一般 增大 则 减小 减小 则 增大 区别 1 一般 为已知 可取单侧或双侧 如0 05 或0 01 2 一般 为未知 只取单侧 如取0 1或0 2 1 把握度 0 75 两类错误的联系与区别 第163页 1 称为检验效能 poweroftest 或把握度 其意义是两总体确有差别 按 水准能发现它们有差别的能力 与 的大小应根据实际情况适当取值 第164页 1 资料要来自严密的抽样研究设计2 选用假设检验的方法应符合其应用条件3 正确理解差别有无显著性的统计涵义正确理解差别有统计学意义及临床上的差别的统计学意义 4 假设检验的推断结论不能绝对化5 要根据资料的性质事先确定采用双侧检验或单侧检验 第九节应用假设检验的注意问题 第165页 THANKYOUFORLISTENING THEEND 第166页 医学本科生用 新乡医学院公共卫生学系综合实验室wanshoy 主讲王守英 医学统计学 第167页 第4章方差分析目录 第五节多个方差的齐性检验 第二节单因素方差分析 第三节双因素方差分析 第四节多个样本均数间的两两比较 第一节方差分析的基本思想 第六节变量变换 第168页 第四章方差分析 学习要求 1 掌握方差分析的基本思想 2 掌握单因素 双因素方差分析的应用条件 意义及计算方法 3 熟悉多个均数间两两比较的意义及方法 4 了解方差齐性检验和t 检验的意义及方法 5 熟悉变量变换的意义和方法 第169页 第一节方差分析的基本思想 一 方差分析的用途及应用条件方差分析 analysisofvariance 缩写为ANOVA 是常用的统计分析方法之一 其应用广泛 分析效率高 节省样本含量 主要用途有 进行两个或两个以上样本均数的比较 可以同时分析一个 两个或多个因素对试验结果的作用和影响 分析多个因素的独立作用及多个因素之间的交互作用 进行两个或多个样本的方差齐性检验等 方差分析对分析数据的要求及条件比较严格 即要求各样本为随机样本 各样本来自正态总体 各样本所代表的总体方差齐性或相等 第170页 二 方差分析的基本思想处理因素可分为若干个等级或不同类型 通常称为水平 在不同的水平下进行若干次试验并取得多个数据 可以将在每个水平下取得的这些数据看作一个样本 若某个因素有四个水平 每个水平的数据代表一个样本 则获得四个样本的数据 设有k个相互独立的样本 分别来自k个正态总体X1 X2 Xk 且方差相等 即要求检验假设为此假设的意义为 在某处理因素的不同水平下 各样本的总体均数相等 第171页 1 设某因素有多个水平 即试验数据产生多个样本 由多个样本的全部数据可以计算出总变异 称为总的离均差平方和 即SS总 2 数理统计证明 SS总可以由几个部分构成 单因素方差分析中 SS总由组间变异和组内变异构成 SS总 SS组间 SS组内 3 组间变异主要受到处理因素和个体误差两方面影响 组内变异主要受个体误差的影响 当H0为真时 由于处理因素不起作用 组间变异只受个体误差的影响 此时 组间变异与组内变异相差不能太大 第172页 表4 2PCNA在三种不同胃组织中的表达结果 第173页 4 各种变异除以相应的自由度 称为均方 用MS表示 也就是方差 当H0为真时 组间均方与组内均方相差不大 两者比值F值约接近于1 即F 组间均方 组内均方 1 5 当H0不成立时 处理因素产生了作用 使得组间均方增大 此时 F 1 当大于等于F临界值时 则P 0 05 可认为H0不成立 各样本均数不全相等 第174页 三 方差分析的类型1 单因素方差分析 one wayANOVA 也称为完全随机设计 completelyrandomdesign 的方差分析 该设计只能分析一个因素下多个水平对试验结果的影响 2 双因素方差分析 two wayANOVA 称为随机区组设计 randomizedblockdesign 的方差分析 该设计可以分析两个因素 一个为处理因素 也称为列因素 一个为区组因素 也称为行因素 第175页 3 三因素方差分析也称为拉丁方设计 Latinsquaredesign 的方差分析 该设计特点是 可以同时分析三个因素对试验结果的作用 且三个因素之间相互独立 不能有交互作用 4 析因设计 factorialdesign 的方差分析当两个因素或多个因素之间存在相互影响或交互作用时 可用该设计来进行分析 该设计不仅可以分析多个因素的独立作用 也可以分析多个因素间的交互作用 是一种高效率的方差分析方法 第176页 5 正交试验设计的方差分析如果要分析的因素有三个或三个以上 可进行正交试验设计 orthogonalexperimentaldesign 的方差分析 当分析因素较多时 试验次数会急剧增加 用此设计进行分析则更能体现出其优越性 该设计利用正交表来安排各次试验 以最少的试验次数 得到更多的分析结果 第177页 四 方差分析的基本步骤1 计算总变异 指所有试验数据的离均差平方和 2 计算各部分变异 单因素方差分析中 可以分出组间变异 SS组间 和组内变异 SS组内 双因素方差分析中 可以分出处理组变异 SS处理 区组变异 SS区组 或称为配伍组变异 SS配伍 及误差变异 SS误差 第178页 3 计算各部分变异的均方在方差分析中 方差也称为均方 是各部分的离均差平方和除以其相应的自由度 用MS表示 基本公式为 MS SS 4 计算统计量F值F值是指两个均方之比 一般是用较大的均方除以较小的均方 故F值一般不会小于1 5 确定P值 推断结论根据分子 1 分母 2 查F界值表 方差分析用 得到F值的临界值 criticalvalue 即 如果F F界值 则P 0 05 在 0 05水准上拒绝H0 接受H1 可以认为各样本所代表的总体均数不全相等 如果想要了解哪两个样本均数之间有差异 可以继续进行各样本均数的两两比较 第179页 第二节单因素方差分析 1 特点单因素方差分析是按照完全随机设计的原则将处理因素分为若干个不同的水平 每个水平代表一个样本 只能分析一个因素对试验结果的影响及作用 其设计简单 计算方便 应用广泛 是一种常用的分析方法 但其效率相对较低 该设计中的总变异可以分出两个部分 即SS总 SS组间 SS组内 2 常用符号及其意义 1 Xij意义为第i组的第j个数据 其中下标i表示列 j表示行 2 意义为将第i组的全部j个数据合计 第180页 3 将第i组的j个数据合计后平方 再将所有各i组的平方值合计 4 变异来源 SS总 表示变异由处理因素及随机误差共同所致 SS组间 表示变异来自处理因素的作用或影响 SS组内 表示变异由个体差异和测量误差等随机因素所致 第181页 计算公式 第182页 三 计算实例例4 1科研人员研究细胞增殖核抗原 PCNA 在胃癌组织 A组 胃癌旁组织 B组 及正常胃粘膜组织 C组 中的表达状况 检测结果用表达指数来表示 数据见表4 2 试分析PCNA在三种胃组织中的表达有无差异 第183页 表4 2PCNA在三种不同胃组织中的表达结果 第184页 检验步骤及方法 建立检验假设H0 PCNA在三种组织中的表达指数相同 1 2 3 H1 PCNA在三种组织中的表达指数不全相同 0 05 计算检验统计量F值由表4 2的数据计算有 校正系数C X 2 N 874 2 27 28291 70SS总 X2 C 39236 28291 70 10944 3 总 N 1 27 1 26 第185页 组间 k 1 3 1 2SS组内 SS总 SS组间 10944 3 8965 98 1978 32 第186页 3 列方差分析表见表4 3 4 确定P值根据 0 05 1 组间 2 2 组内 24 查附表4 F界值表 得F界值 F0 01 2 24 5 61 本例F 54 39 大于界值F0 01 2 24 5 61 则P 0 01 5 推断结论由于P 0 01 在 0 05水准上拒绝H0 接受H1 差异有统计学意义 可以认为PCNA在三种不同胃组织中的表达指数不全相同 该结论的意义为 至少有两种组织的PCNA表达指数不同 如果想确切了解哪两个组织的PCNA表达指数有差异 可进一步作多个样本均数的两两比较 第187页 表4 3方差分析表 第188页 第三节双因素方差分析 一 特点及意义1 特点按照随机区组设计的原则来分析两个因素对试验结果的影响及作用 其中一个因素称为处理因素 一般作为列因素 另一个因素称为区组因素或配伍组因素 一般作为行因素 两个因素相互独立 且无交互影响 双因素方差分析使用的样本例数较少 分析效率高 是一种经常使用的分析方法 但双因素方差分析的设计对选择受试对象及试验条件等方面要求较为严格 应用该设计方法时要十分注意 该设计方法中 总变异可以分出三个部分 SS总 SS处理 SS区组 SS误差 第189页 2 常用符号及其意义 将第i个处理组的j个数据合计后平方 再将所有i个处理组的平方值合计 将第j个区组的i个数据合计后平方 再将所有j个区组的平方值合计 各种变异来源SS总 总变异 由处理因素 区组因素及随机误差的综合作用而形成 SS处理 各处理组之间的变异 可由处理因素的作用所致 SS区组或SS配伍 各区组之间的变异 可由区组因素的作用所致 SS误差 从总变异中去除SS处理及SS区组后剩余的变异 此变异由个体差异和测量误差等随机因素所致 第190页 计算公式 第191页 三 计算实例例4 2某医院研究五种消毒液对四种细菌的抑制效果 抑制效果用抑菌圈直径 mm 表示 数据见表4 5 试分析五种消毒液对细菌有无抑制作用 对四种细菌的抑制效果有无差异 第192页 表4 5消毒液对不同细菌的抑制效果 第193页 检验步骤及方法 1 建立检验假设1 对处理因素作用的检验假设H0 五种消毒液的消毒效果相同 1 2 3 4 5 H
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!