资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,Logistic,回归,第,10,章 非参数检验,SPSS,应用,华中科技大学公共卫生学院,流行病学与卫生统计学系,蒋红卫,内容,基本概念,基本步骤,基本操作,基本结果解释,数据分析的背景,计量资料单因素统计分析,对于两组计量资料的比较,一般采用,t,检验或秩和检验。,对于两个变量的相关分析采用,Pearson,相关分析或,Spearman,相关分析,考虑多因素的影响,对于应变量,(,反应变量,),为计量资料,一般可以考虑应用多重线性回归模型进行多因素分析。,数据分析的背景,单因素的分类资料统计分析,一般采用,Pearson,2,进行统计检验,用,Odds Ratio,及其,95%,可信区间评价关联程度。,考虑多因素的影响,对于反应变量为分类变量时,用线性回归模型,P=,a+bx,就不合适了,应选用,Logistic,回归模型进行统计分析。,Logistic,回归模型,按研究设计分类,非配对设计:非条件,Logistic,回归模型,配对病例对照:条件,Logistic,回归模型,按反应变量分类,二分类,Logistic,回归模型,(,常用,),多分类无序,Logistic,回归模型,多分类有序,Logistic,回归模型,基础知识,通过下例引入和复习相关概念,例如:研究患某疾病与饮酒的关联性,患病率,P,1,=a/m,1,P,2,=b/m,2,基础知识,Odds,(,优势),P,越大,则,Odds,越大;,P,越小,则,Odds,越小,并且,0Odds1?OR1?,(,二分类,)Logistic,回归模型,因为,0Odds+,所以,-,ln(Odds,)+,对,ln(Odds,),引入类似多重线性回归的表达式,Logistic,回归模型,记:,故可以写为,也可以写为,回归系数的意义,以,x,1,的回归系数,1,为例,固定其它自变量,比较,x,1,与,x,1,+1,的,ln(Odds,),变化。,对于,x,1,,,对于,x,1,+1,,,反对数变换得到,多因素,Logistic,回归分析时,对回归系数的解释都是指在,其它所有自变量固定,的情况下的优势比。,存在因素间交互作用时,,Logistic,回归系数的解释变得更为复杂,应,特别小心,。,回归系数的意义,适用条件,反应变量为二分类变量或某事件的发生率;,自变量与,logit,(,P,)之间为线性关系;,残差合计为,0,,且服从二项分布;,各观测间相互独立。,logistic,回归模型应该使用最大似然法来解决方程的估计和检验问题,不应当使用以前的最小二乘法进行参数估计。,研究急性心肌梗塞,(AMI),患病与饮酒的关系,采用横断面调查。,例,1,SPSS,基本操作,SPSS,基本操作,SPSS,基本操作,SPSS,基本操作,SPSS,基本操作,哑变量设置,哑变量设置,为了便于解释,对二项分类变量一般按,0,、,1,编码,一般以,0,表示阴性或较轻情况,而,1,表示阳性或较严重情况。,如果对二项分类变量按,+1,与,-1,编码,那么结果容易造成错误的解释。,分类变量必须转化。如地区对血压的影响。,等级资料,当等级之间量度不一时必须转化,如正常,超重和肥胖,连续资料不宜直接进入方程时,转化为等级资料或分类资料,SPSS,哑变量设置,Indicator,Simple,Difference,Repeated,参照分类为,0,,其余为,1,,,即各分类与参照分类比较,除第一类分类外,各分类与,其之前平均分类效应比较,SPSS,哑变量设置,Helmert,与,Difference,相反,各水平与其之后水平的平均效应比较,Deviation,:,除参照分类外,各水平与分类的总效应比较,Polynomial,正交多项式设置,自动设置哑变量是有缺点的,等级变量不合适,哑变量设置应注意的问题,参照水平最好要有实际意义,不推荐使用其他作为参照;,参照水平组要有一定的频数作保证,应不少于,30,或,50,例;,对有序自变量的分析:,从专业出发确定;,分别以哑变量和连续性变量的方式引入模型进行比较后确定。,SPSS,基本操作,SPSS,基本操作,模型拟合优度指标,,P,值越大越好,迭代过程,参数估计的相关矩阵,均,0.80,,,提示各协变量间相互独立,校正混杂作用,实例,2,:上例没有考虑吸烟情况,故将吸烟作为分层加入,资料如下:,SPSS,基本操作,同例,1,逐步回归分析,在,多因素统计分析中,多个自变量之间存在相关性,往往相互影响,研究者希望寻找主要影响应变量,Y,的,因素。,理论上,只要把各种因素组合都试一遍,寻找变量个数最多,每个变量均有统计学意义,并且模型拟合程度最好的模型,这种模型称为最佳预测模型,这种方法称为寻找最优子集,当变量较多时很难实现。,逐步回归,为了比较方便地找到最佳预测回归模型,一般采用逐步回归的分析策略建立拟最佳预测回归模型。,逐步回归采用逐个增加最佳变量的方式或逐个减少最差的变量方式找到最佳或拟最佳回归模型。,逐步,Logistic,回归,无论是条件还是非条件,Logistic,回归,在多变量分析时均可以采用逐步回归方法,实现的方法是:,所有变量一次全部进入方程。,向前法,后退法,逐步回归,前进法,:,最开始时,模型中无任何自变量,然后逐个引入变量进入模型,每次在未进入模型的所有变量中挑选一个变量,其,P,是最小且,P,值,,每引入一个变量,重新拟合一次模型,逐步引入变量直至没有满足上述条件的变量可以引入模型为止。,逐步回归,后退法:最开始时,把所有的变量引入模型,然后逐次把,P,值,最大并且,P,的变量剔除出模型,每次只剔除一个变量,每次剔除一个变量后重新拟合模型,按照上述剔除标准继续剔除变量,直至模型中的所有变量的,P,为止。,逐步,Logistic,回归,Forward,:,Conditional,(较可靠),Forward,:,LR,Forward,:,Wald,(应当慎用),Backward,:,Conditional,(较可靠),Backward,:,LR,Backward,:,Wald,(应当慎用),例,3,例,3,探讨冠心病发生的有关危险因素。,x1:,年龄,x2:,高血压史,x3:,家庭史,x4:,吸烟,x5:,高血脂史,x6:,脂肪摄入,x7:BMI,x8:A,型性格,y:,发生与否,x1,x2,x3,x4,x5,x6,x7,x8,x9,y,1,3,1,0,1,0,0,1,1,0,2,2,0,1,1,0,0,1,0,0,3,2,1,0,1,0,0,1,0,0,逐步选择法,三种向前,逐步,法,,协变量引入检验均,基于,score,统计量,删除变量基于,条件估计的似然比,删除变量基于,最大偏似然估计似然比,删除变量基于,Wald,统计量,条件,logistic,回归,匹配设计(,matched design,)是在设计阶段控制混杂因素的一种方法。当得到一名研究病例后,选择一名或多名非病例作为对照,选择相应对照的条件:某些需要控制的混杂因素与该病例之间相同或相似,从而形成一个匹配的对子。,一个匹配的对子,1,:,1,匹配;,当病例很罕见时,常采用,1,个病例,多个对照,,1,:,m,匹配,,m,:,n,匹配,条件,logistic,回归,对于这类匹配设计资料,如果采用以上介绍的非条件,logistic,回归方法,将会降低检验效能。而应当采用条件,logistic,回归模型(,conditional logistic regression model,)又称配对,logistic,回归模型进行分析。,条件,logistic,回归,SPSS,中的拟合方法:,用变量差值拟合:只适用于,1,:,1,配对的情况,用,Multinomial logistic,过程实现;,用分层,Cox,模型拟合:适用范围非常广,第二种方法,限于,SPSS,自身的问题,只能得到近似解,在某些情况,特别是,m:n,下,会导致错误,故在此不作介绍,建议使用,SAS,等其它统计软件来实现条件,Logistic,回归,Logistic,回归模型小结,对于应变量为二分类,可以用,Logistic,回归模型进行统计分析。,在,Logistic,模型中,自变量可以是二分类的,也可以是连续型变量和有序多分类变量,但无序多分类变量应用一组哑变量取代。,逐步回归是寻找主要影响因素的回归策略,没有进入模型的变量不能作推断。,Logistic,回归模型小结,模型中出现有交互作用,不是统计分析的最终结果,只是中间结果,一般要根据研究目的进行简单效应分析。,条件,Logistic,模型只适用于配对病例对照研究,其回归系数解释与非条件的,Logistic,模型相同。,Logistic,回归模型小结,病例对照研究的资料可以用,Logistic,回归模型分析暴露因素与应变量之间的关联性,但不可以直接应用,Logistic,模型进行预测或估计患病率。,Logistic,回归模型在拟合的过程中经常会提到拟合优度,(goodness of,fiting,),的问题,拟合优度没有统计学意义,只说明当前在模型中的变量情况下,该模型与最优模型无统计学差异,但不能说明模型中再增加变量的情况。,小结,SPSS,中“,Analyze”/“Regression”/”Binary Logistic”,菜单主要用于线性回归分析。,44,谢谢大家!,
展开阅读全文