统计方法的分类与选择.ppt

上传人:max****ui 文档编号:6845166 上传时间:2020-03-06 格式:PPT 页数:49 大小:404.86KB
返回 下载 相关 举报
统计方法的分类与选择.ppt_第1页
第1页 / 共49页
统计方法的分类与选择.ppt_第2页
第2页 / 共49页
统计方法的分类与选择.ppt_第3页
第3页 / 共49页
点击查看更多>>
资源描述
统计学方法的分类与选择 根据研究设计类型选择分析方法 一 成组比较的设计在成组比较设计中 若是两组比较需要应用t检验或X2检验 多组比较需应用方差分析 行 列表X2检验或分级的分析方法 二 配对 自身实验前后 设计这种类型的设计需要按照配比的t检验 X2检验及配对的病例对照研究方法进行数据分析 三 重复测量的设计这类设计方法是在给定一个处理因素后在不同的时间重复测量某一效应变量的改变情况 如欲评价生物制品接种后的免疫学效果 在接种后的2周 4周 6周和8周测定抗体滴度 即为此类设计类型 对于这种设计类型的数据需应用重复测量的方差分析方法进行数据的分析 四 多因素设计若在研究设计中有多个自变量 则可根据因变量的性质选择合适的多因素分析方法 如果自变量是数值变量 则可考虑应用多元回归分析方法 协方差分析方法 如果是分类变量 则可选择logistic回归分析方法 判别分析方法及聚类分析方法等 根据变量的类型选择分析方法 区别与明确研究的因变量和自变量具有重要的流行病学与生物统计学意义 首先它有助于选择拟研究的变量 对调查表的设计具有指导作用 其次数据分析阶段可以指导数据分析方法的选择及模型的建立 若因变量是分类变量 则常考虑应用分类变量的分析方法 如卡方检验 logistic回归分析等 如果因变量是数值变量 则考虑应用数值变量的分析方法如t检验 方差分析 协方差分析 多元回归等 同时明确自变量与因变量可以建立正确的统计学分析模型 因变量应该放在模型的左侧 自变量则放在模型的右侧 例如欲评价不同治疗方法 口服药物 注射胰岛素及膳食控制 对糖尿病人的治疗效果 血糖水平 在分析时要求调整病人的性别 年龄和病程的影响 对本例的处理需要进行协方差分析 在应用SAS进行分析时 要将血糖水平 因变量 放在模型的左则 而治疗方法或其它协变量 covariate 即性别 年龄和病程放在模型的右侧 又如分析脂蛋白 a 与冠心病发生的关系 则冠心病是否发生为因变量 脂蛋白 a 则为自变量 不可颠倒这种关系 不同变量类型的数据分析方法选择 不同研究设计和数据类型的数据分析方法选择 数据的分析程序 数据的转换 1 非正态数据的变量转换多数的统计学分析方法是建立在数据正态分布的基础上的 若数据不符合正态分布 则不能够应用参数检验 parametrictest 的方法 只能应用非参数检验 non parametrictest 的方法 而非参数的方法不是对原始数据的检验 如秩和检验就是非参数检验方法之一 它是对原始数据的秩次 rank 进行检验 这样可能损失数据信息 降低检验效率 在对数值变量进行分析时 需首先根据统计分析方法 统计分析公式的限制性使用条件对数据进行 条件 检验 如正态性检验和方差齐性检验等 很多统计学软件具有方便的正态性检验 方差齐性检验功能如SAS软件等 若经过检验数据不符合使用条件 就需要进行数据的变量变换 变换后符合条件就可以应用参数检验的方法 否则 只有应用非参数检验的方法 数据变量转换的方法很多 可以根据数据的分布特征 选择合适的数据转换方法 常用的方法有对数变换 平方根变换或倒数变换等 2 分类变量转换成哑变量若分类变量是二分类尺度及顺序尺度 则可直接应用其原有的数量化数值 但对于名义尺度因为各类别间没有顺序关系 在进行不同分析 包括多元分析 logistic回归 Cox回归等 时 不能使用原始的计算机录入数值 必经进行变量转换 即将该变量转换成 水平数 1 个哑变量 再将这些新转换的变量放入多因素模型中 t检验的应用条件 两组数据的比较1样本量比较小 n 50 2样本来自正态总体 3两样本总体方差齐同 当两样本方差不齐时可以采用t 检验 变量变换 或者秩和检验 u检验 两组数据的比较1样本量足够大 n 50 2样本来自正态总体3两样本总体方差齐同当两样本方差不齐时可以采用t 检验 变量变换 或者秩和检验 方差分析的应用条件 两组以上数据的比较1各样本是相互独立的随机样本 2各样本要来自正态总体 3要求各个样本的总体方差齐同 多个样本均数间的两两比较 Newman Keuls检验 亦称Student Newman Keuls SNK 检验 简称q检验 最小显著性差距 LSD t检验 协方差分析 定量分析中 进行两个样本或者多个样本的均数比较时 不仅需要使用假设检验判断其差异是否具有统计学差异 还应该考虑他们之间是否存在混杂因素 协变量 的影响 若存在协变量 则应该通过协方差分析进行校正 协方差分析是定量变量分析中控制混杂因素的重要手段 影响观察指标的其他非研究性因素 混杂因素 在统计分析中又称之为协变量 考虑协变量影响的方差分析即为协方差分析 协方差分析是解决以上问题的分析方法 它将线性回归与方差分析结合起来 检验2个或者多个修正均数之间有无差别的假设检验方法 一般是先用直线回归的方法找出各组因变量与协变量之间的数量关系 求得修假定协变量相等时的修正系数 然后用方差分析比较修正均数间的差别 协方差分析的条件 1各个样本来自方差齐同的正态总体2各组的总体直线回归系数相同 且都不为0 协方差分析的判别步骤 1正态性和方差齐性检验 2判断协变量与因变量有无线性关系 3判断各组回归直线是否平行 直线回归与相关的区别与联系 多元线性回归的基本概念 事物间的相互联系往往是多方面的 在很多情况下对应变量y发生影响的自变量往往不止一个 多元线性回归的目的就是用一个多元线性回归方程表示多个自变量和1个应变量间的关系 标准偏回归系数表示其他自变量固定的情况下 xi改变一个单位 y平均改变bi个单位 多元线性回归的应用条件 1 独立性 各观察对象间相互独立 2 线性 自变量与应变量间的关系为线性 3 正态性 自变量取不同值时 应变量的分布为正态 4 方差齐性 自变量取不同值时 应变量的总体方差相等 5 当不符合条件时 可对自变量进行变换 如 要比较各个自变量对于应变量的作用大小 不能用偏回归系数 因为各偏回归系数的单位不同 必须把偏回归系数标准化 化成没有单位的标准偏回归系数 消除不同单位的影响后 标准偏回归系数的绝对值越大 该自变量对于应变量的作用越大 但该差别是否有统计意义 也必须经过检验 2 对各偏回归系数的显著性检验 F检验与t检验 1 计算截距和各偏回归系数 2 多元回归方程的显著性检验 1 整个方程的显著性检验 用方差分析 STEPWISEREGRESSION 一 逐步回归分析的基本概念逐步回归分析的目的是建立 最优 回归方程 最优 回归方程是指包含所有对y有显著作用的自变量 而不包含对y作用不显著的自变量的方程 逐步回归分析的计算方法 在供选的自变量Xi中 按其对y的作用大小 由大到小地把自变量逐个引入方程 每引入一个自变量就对它作显著性检验 显著时才引入 而当新的自变量进入方程后 对方程中原有的自变量也要作检验 并把作用最小且退化为不显著的自变量逐个剔出方程 因此 逐步回归的每一步 引入一个变量或剔除一个变量都称为一步 前后都要作显著性检验 以保证每次引入新变量前方程中只包含作用显著的自变量 这样一步步进行下去 直至方程中所含自变量都显著而又没有新的作用显著的自变量可引入方程为止 逐步回归分析在医学研究中的应用及需要注意的几个问题 1方程 最优 问题 实际是精选自变量以求得拟和效果最好的多元回归方程 最优子集回归是选择一种使回归方程拟和最好的自变量 而逐步回归则选择对因变量作用有意义的自变量 要根据研究目的选用适合方法 2逐步回归主要在医学中用于病因探索 临床疗效分析及控制等 3线性回归模型要注意正态性 方差齐性和独立性 因变量必须是随机变量等 4入选变量如果明显地与实际问题的专业理论不一致时 首先检查数据是否有异常点 自变量间有无共线性存在 数据输入是否有误等 要结合专业知识作出合理的解释 5逐步回归在对大量因素进行分析时 可以先进行聚类分析 然后进行逐步回归 通常 观察单位取变量值的5 10倍为宜 Logistic回归分析的基本思想 回忆 线性回归分析对因变量的要求 因变量y 连续型服从正态分布 胆固醇含量 自变量x 数值型与Y呈线性关系 年龄 舒张压 医学研究中经常遇到分类型变量 例如 二分类变量 生存与死亡有病与无病有效与无效感染与未感染多分类有序变量 疾病程度 轻度 中度 重度 治愈效果 治愈 显效 好转 无效 多分类无序变量 手术方法 A B C 就诊医院 甲 乙 丙 丁 这种回归分析问题不能借助于线性回归模型 因为因变量的假设条件遭到破坏 能否找到一种其他形式的模型y f x 来描述分类变量y和x之间依存关系呢 因为从数学角度看 使得x取任意值而y仅取1和0两个值的的函数不存在 转换为分析y取某个值的概率变量p与x的关系 不能直接分析变量y与x的关系 Logistic回归模型 Logistic回归分析的分类 按数据的类型 非条件logistic回归分析 成组数据 条件logistic回归分析 配对病例 对照数据 按因变量取值个数 二值logistic回归分析多值logistic回归分析按自变量个数 一元logistic回归分析多元logistic回归分析 Logistic回归分析的数学模型 1 一元logistic回归模型 令y是1 0变量 x是一个危险因素 p p y 1 x 那么 二值变量y关于变量x的一元logistic回归模型是 其中 和 是未知参数或待估计的回归系数 该模型描述了y取某个值 这里y 1 的概率p与自变量x之间的关系 2 多元logistic回归模型 令y是1 0变量 x1 x2 xk是k个危险因素 p p y 1 x1 x2 xk 那么 变量y关于变量x1 x2 xk的k元logistic回归模型是 Logistic回归模型的另外一种形式 它给出变量z logit p 关于x的线性函数 参数估计的步骤 1数据结构设有P个危险因素X1 X2 Xn及结果分析变量Y 观察例数为n 进行logistic回归时 应将原始资料进行整理 一般格式如下 2参数的估计Logsitc回归的参数估计常用最大似然估计法 其基本思想是先建立似然函数和对数似然函数 求似然函数或对数似然函数达到极大值时参数的取值 即为参数的最大似然估计值 可求出 值 3假设检验求得各个参数的估计值之后 并不意味着每个因素都与因变量有联系 模型中应只保留对因变量有影响因素 因此要求对方程中的各变量逐一进行检验 剔除对因变量无影响的因素 并对拟和的模型进行检验 即使用似然比检验法 通过逐步回归筛选自变量 最后得到具有统计学意义的logistic回归方程 该过程很复杂 由计算机完成 医学中经常需要作配对病例 对照研究 所谓的配对病例 对照研究指的是在病例 对照研究中 对每一个病例配以性别 年龄或其它条件相似的一个 1 1 或几个 1 M 对照 然后分析比较病例组与对照组以往暴露于致病因素的经历 分析配对病例 对照研究资料的统计分析方法一般采用条件logistic回归分析 条件logistic回归分析的数学模型以及分析原理方法均和非条件logistic回归分析类似 因为参数的估计公式涉及到条件概率理论 所以称为条件logistic回归分析 条件logistic回归分析 Logistic回归分析和线性回归分析的异同点是什么 相同点 都可以校正混杂因子的影响 都可以利用模型来筛选危险因子 都可以用来做预测 不同点 前者对因变量无分布要求 后者要求因变量是正态分布变量 前者要求因变量必须是分类型变量 后者要求因变量必须是连续型数值变量 前者不要求自变量和因变量呈线性关系 后者要求自变量和因变量呈线性关系 前者是分析因变量取某个值的概率与自变量的关系 后者是直接分析因变量与自变量的关系 谢谢
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!