统计方法的分类与选择.ppt

资源描述

统计学方法的分类与选择根据研究设计类型选择分析方法一成组比较的设计在成组比较设计中若是两组比较需要应用t检验或X2检验多组比较需应用方差分析行列表X2检验或分级的分析方法二配对自身实验前后设计这种类型的设计需要按照配比的t检验 X2检验及配对的病例对照研究方法进行数据分析三重复测量的设计这类设计方法是在给定一个处理因素后在不同的时间重复测量某一效应变量的改变情况如欲评价生物制品接种后的免疫学效果在接种后的2周 4周 6周和8周测定抗体滴度即为此类设计类型对于这种设计类型的数据需应用重复测量的方差分析方法进行数据的分析四多因素设计若在研究设计中有多个自变量则可根据因变量的性质选择合适的多因素分析方法如果自变量是数值变量则可考虑应用多元回归分析方法协方差分析方法如果是分类变量则可选择logistic回归分析方法判别分析方法及聚类分析方法等根据变量的类型选择分析方法区别与明确研究的因变量和自变量具有重要的流行病学与生物统计学意义首先它有助于选择拟研究的变量对调查表的设计具有指导作用其次数据分析阶段可以指导数据分析方法的选择及模型的建立若因变量是分类变量则常考虑应用分类变量的分析方法如卡方检验 logistic回归分析等如果因变量是数值变量则考虑应用数值变量的分析方法如t检验方差分析协方差分析多元回归等同时明确自变量与因变量可以建立正确的统计学分析模型因变量应该放在模型的左侧自变量则放在模型的右侧例如欲评价不同治疗方法口服药物注射胰岛素及膳食控制对糖尿病人的治疗效果血糖水平在分析时要求调整病人的性别年龄和病程的影响对本例的处理需要进行协方差分析在应用SAS进行分析时要将血糖水平因变量放在模型的左则而治疗方法或其它协变量 covariate 即性别年龄和病程放在模型的右侧又如分析脂蛋白 a 与冠心病发生的关系则冠心病是否发生为因变量脂蛋白 a 则为自变量不可颠倒这种关系不同变量类型的数据分析方法选择不同研究设计和数据类型的数据分析方法选择数据的分析程序数据的转换 1 非正态数据的变量转换多数的统计学分析方法是建立在数据正态分布的基础上的若数据不符合正态分布则不能够应用参数检验 parametrictest 的方法只能应用非参数检验 non parametrictest 的方法而非参数的方法不是对原始数据的检验如秩和检验就是非参数检验方法之一它是对原始数据的秩次 rank 进行检验这样可能损失数据信息降低检验效率在对数值变量进行分析时需首先根据统计分析方法统计分析公式的限制性使用条件对数据进行条件检验如正态性检验和方差齐性检验等很多统计学软件具有方便的正态性检验方差齐性检验功能如SAS软件等若经过检验数据不符合使用条件就需要进行数据的变量变换变换后符合条件就可以应用参数检验的方法否则只有应用非参数检验的方法数据变量转换的方法很多可以根据数据的分布特征选择合适的数据转换方法常用的方法有对数变换平方根变换或倒数变换等 2 分类变量转换成哑变量若分类变量是二分类尺度及顺序尺度则可直接应用其原有的数量化数值但对于名义尺度因为各类别间没有顺序关系在进行不同分析包括多元分析 logistic回归 Cox回归等时不能使用原始的计算机录入数值必经进行变量转换即将该变量转换成水平数 1 个哑变量再将这些新转换的变量放入多因素模型中 t检验的应用条件两组数据的比较1样本量比较小 n 50 2样本来自正态总体 3两样本总体方差齐同当两样本方差不齐时可以采用t 检验变量变换或者秩和检验 u检验两组数据的比较1样本量足够大 n 50 2样本来自正态总体3两样本总体方差齐同当两样本方差不齐时可以采用t 检验变量变换或者秩和检验方差分析的应用条件两组以上数据的比较1各样本是相互独立的随机样本 2各样本要来自正态总体 3要求各个样本的总体方差齐同多个样本均数间的两两比较 Newman Keuls检验亦称Student Newman Keuls SNK 检验简称q检验最小显著性差距 LSD t检验协方差分析定量分析中进行两个样本或者多个样本的均数比较时不仅需要使用假设检验判断其差异是否具有统计学差异还应该考虑他们之间是否存在混杂因素协变量的影响若存在协变量则应该通过协方差分析进行校正协方差分析是定量变量分析中控制混杂因素的重要手段影响观察指标的其他非研究性因素混杂因素在统计分析中又称之为协变量考虑协变量影响的方差分析即为协方差分析协方差分析是解决以上问题的分析方法它将线性回归与方差分析结合起来检验2个或者多个修正均数之间有无差别的假设检验方法一般是先用直线回归的方法找出各组因变量与协变量之间的数量关系求得修假定协变量相等时的修正系数然后用方差分析比较修正均数间的差别协方差分析的条件 1各个样本来自方差齐同的正态总体2各组的总体直线回归系数相同且都不为0 协方差分析的判别步骤 1正态性和方差齐性检验 2判断协变量与因变量有无线性关系 3判断各组回归直线是否平行直线回归与相关的区别与联系多元线性回归的基本概念事物间的相互联系往往是多方面的在很多情况下对应变量y发生影响的自变量往往不止一个多元线性回归的目的就是用一个多元线性回归方程表示多个自变量和1个应变量间的关系标准偏回归系数表示其他自变量固定的情况下 xi改变一个单位 y平均改变bi个单位多元线性回归的应用条件 1 独立性各观察对象间相互独立 2 线性自变量与应变量间的关系为线性 3 正态性自变量取不同值时应变量的分布为正态 4 方差齐性自变量取不同值时应变量的总体方差相等 5 当不符合条件时可对自变量进行变换如要比较各个自变量对于应变量的作用大小不能用偏回归系数因为各偏回归系数的单位不同必须把偏回归系数标准化化成没有单位的标准偏回归系数消除不同单位的影响后标准偏回归系数的绝对值越大该自变量对于应变量的作用越大但该差别是否有统计意义也必须经过检验 2 对各偏回归系数的显著性检验 F检验与t检验 1 计算截距和各偏回归系数 2 多元回归方程的显著性检验 1 整个方程的显著性检验用方差分析 STEPWISEREGRESSION 一逐步回归分析的基本概念逐步回归分析的目的是建立最优回归方程最优回归方程是指包含所有对y有显著作用的自变量而不包含对y作用不显著的自变量的方程逐步回归分析的计算方法在供选的自变量Xi中按其对y的作用大小由大到小地把自变量逐个引入方程每引入一个自变量就对它作显著性检验显著时才引入而当新的自变量进入方程后对方程中原有的自变量也要作检验并把作用最小且退化为不显著的自变量逐个剔出方程因此逐步回归的每一步引入一个变量或剔除一个变量都称为一步前后都要作显著性检验以保证每次引入新变量前方程中只包含作用显著的自变量这样一步步进行下去直至方程中所含自变量都显著而又没有新的作用显著的自变量可引入方程为止逐步回归分析在医学研究中的应用及需要注意的几个问题 1方程最优问题实际是精选自变量以求得拟和效果最好的多元回归方程最优子集回归是选择一种使回归方程拟和最好的自变量而逐步回归则选择对因变量作用有意义的自变量要根据研究目的选用适合方法 2逐步回归主要在医学中用于病因探索临床疗效分析及控制等 3线性回归模型要注意正态性方差齐性和独立性因变量必须是随机变量等 4入选变量如果明显地与实际问题的专业理论不一致时首先检查数据是否有异常点自变量间有无共线性存在数据输入是否有误等要结合专业知识作出合理的解释 5逐步回归在对大量因素进行分析时可以先进行聚类分析然后进行逐步回归通常观察单位取变量值的5 10倍为宜 Logistic回归分析的基本思想回忆线性回归分析对因变量的要求因变量y 连续型服从正态分布胆固醇含量自变量x 数值型与Y呈线性关系年龄舒张压医学研究中经常遇到分类型变量例如二分类变量生存与死亡有病与无病有效与无效感染与未感染多分类有序变量疾病程度轻度中度重度治愈效果治愈显效好转无效多分类无序变量手术方法 A B C 就诊医院甲乙丙丁这种回归分析问题不能借助于线性回归模型因为因变量的假设条件遭到破坏能否找到一种其他形式的模型y f x 来描述分类变量y和x之间依存关系呢因为从数学角度看使得x取任意值而y仅取1和0两个值的的函数不存在转换为分析y取某个值的概率变量p与x的关系不能直接分析变量y与x的关系 Logistic回归模型 Logistic回归分析的分类按数据的类型非条件logistic回归分析成组数据条件logistic回归分析配对病例对照数据按因变量取值个数二值logistic回归分析多值logistic回归分析按自变量个数一元logistic回归分析多元logistic回归分析 Logistic回归分析的数学模型 1 一元logistic回归模型令y是1 0变量 x是一个危险因素 p p y 1 x 那么二值变量y关于变量x的一元logistic回归模型是其中和是未知参数或待估计的回归系数该模型描述了y取某个值这里y 1 的概率p与自变量x之间的关系 2 多元logistic回归模型令y是1 0变量 x1 x2 xk是k个危险因素 p p y 1 x1 x2 xk 那么变量y关于变量x1 x2 xk的k元logistic回归模型是 Logistic回归模型的另外一种形式它给出变量z logit p 关于x的线性函数参数估计的步骤 1数据结构设有P个危险因素X1 X2 Xn及结果分析变量Y 观察例数为n 进行logistic回归时应将原始资料进行整理一般格式如下 2参数的估计Logsitc回归的参数估计常用最大似然估计法其基本思想是先建立似然函数和对数似然函数求似然函数或对数似然函数达到极大值时参数的取值即为参数的最大似然估计值可求出值 3假设检验求得各个参数的估计值之后并不意味着每个因素都与因变量有联系模型中应只保留对因变量有影响因素因此要求对方程中的各变量逐一进行检验剔除对因变量无影响的因素并对拟和的模型进行检验即使用似然比检验法通过逐步回归筛选自变量最后得到具有统计学意义的logistic回归方程该过程很复杂由计算机完成医学中经常需要作配对病例对照研究所谓的配对病例对照研究指的是在病例对照研究中对每一个病例配以性别年龄或其它条件相似的一个 1 1 或几个 1 M 对照然后分析比较病例组与对照组以往暴露于致病因素的经历分析配对病例对照研究资料的统计分析方法一般采用条件logistic回归分析条件logistic回归分析的数学模型以及分析原理方法均和非条件logistic回归分析类似因为参数的估计公式涉及到条件概率理论所以称为条件logistic回归分析条件logistic回归分析 Logistic回归分析和线性回归分析的异同点是什么相同点都可以校正混杂因子的影响都可以利用模型来筛选危险因子都可以用来做预测不同点前者对因变量无分布要求后者要求因变量是正态分布变量前者要求因变量必须是分类型变量后者要求因变量必须是连续型数值变量前者不要求自变量和因变量呈线性关系后者要求自变量和因变量呈线性关系前者是分析因变量取某个值的概率与自变量的关系后者是直接分析因变量与自变量的关系谢谢

展开阅读全文

统计方法的分类与选择.ppt

最新文档