Logistic回归分析及应用

上传人:xt****7 文档编号:181050303 上传时间:2023-01-09 格式:PPT 页数:76 大小:1,011.50KB
返回 下载 相关 举报
Logistic回归分析及应用_第1页
第1页 / 共76页
Logistic回归分析及应用_第2页
第2页 / 共76页
Logistic回归分析及应用_第3页
第3页 / 共76页
点击查看更多>>
资源描述
1 第十六章Logistic回归分析 Logistic regression2复习多元线性回归(multiple linear regression)在医学实践中,常会遇到一个应变量与在医学实践中,常会遇到一个应变量与多个自变量数量关系的问题。如医院住院多个自变量数量关系的问题。如医院住院人数不仅与门诊人数有关人数不仅与门诊人数有关,而且可能与病而且可能与病床周转次数床周转次数,床位数等有关;儿童的身高床位数等有关;儿童的身高不仅与遗传有关还与生活质量,性别,地不仅与遗传有关还与生活质量,性别,地区,国别等有关;人的体表面积与体重、区,国别等有关;人的体表面积与体重、身高等有关。身高等有关。3 表 多元线性回归分析的数据结构实验对象 y X1 X2 X3 .XP 1 y1 a11 a12 a13 a1p 2 y2 a21 a22 a23 a2p 3 y3 a31 a32 a33 a3p n yn an1 an2 an3 anp 其中:y取值是服从正态分布4多元线性回归模型多元线性回归模型 通 过 实 验 测 得 含 有通 过 实 验 测 得 含 有 p p 个 自 变 量个 自 变 量x1,x2,x3,xpx1,x2,x3,xp及一个因变量及一个因变量y y的的n n个观察对象值个观察对象值,利用最小二乘法原理利用最小二乘法原理,建立多元线性回归模型建立多元线性回归模型:其中其中b b0 0为截距为截距,b1,b2 bp,b1,b2 bp称为偏回归系数称为偏回归系数.bibi表示当将其它表示当将其它p-1p-1个变量的作用加以固定后个变量的作用加以固定后,Xi,Xi改变改变1 1个单位时个单位时Y Y将改变将改变bibi个单位个单位.ppxbxbxbby 221105 logistic regression analysis6(一)基本概念和原理(一)基本概念和原理 1.1.应用背景应用背景 LogisticLogistic回归模型是一种概率模型,适合于病例对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类。可用影响结果变量发生的因素为自变量与因变量,建立回归方程。7 设资料中有一个因变量y、p个自变量x1,x2,xp,对每个实验对象共有n次观测结果,可将原始资料列成表2形式。2、LogisticLogistic回归模型的数据结构8 表2 LogisticLogistic回归模型的数据结构实验对象 y X1 X2 X3 .XP 1 y1 a11 a12 a13 a1p 2 y2 a21 a22 a23 a2p 3 y3 a31 a32 a33 a3p n yn an1 an2 an3 anp 其中:y取值是二值或多项分类9 表3 肺癌与危险因素的调查分析 例号 是否患病 性别 吸烟 年龄 地区 1 1 1 0 30 0 2 1 0 1 46 1 3 0 0 0 35 1 30 0 0 0 26 1 注:是否患病中,0代表否,1代表是。性别中1代表男,0代表女,吸烟中1代表吸烟,0代表不吸烟。地区中,1代表农村,0代表城市。10 表4 配对资料(1:1)对子号 病例 对照 x1 x2 x3 x1 x2 x3 1 1 3 0 1 0 1 2 0 3 1 1 3 0 3 0 1 2 0 2 0 10 2 2 2 0 0 0 注:X1蛋白质摄入量,取值:0,1,2,3 X2不良饮食习惯,取值:0,1,2,3 X3精神状况,取值:0,1,2 11LogisticLogistic回归回归-Logistic-Logistic回归与回归与多重多重线性回归联系与区别线性回归联系与区别联系联系:用于分析多个自变量与一个因变量的关用于分析多个自变量与一个因变量的关系,目的是矫正混杂因素、筛选自变量和更系,目的是矫正混杂因素、筛选自变量和更精确地对因变量作预测等。精确地对因变量作预测等。区别区别:线性模型中因变量为连续性随机变量,线性模型中因变量为连续性随机变量,且要求呈正态分布且要求呈正态分布.Logistic.Logistic回归因变量的回归因变量的取值仅有两个,不满足正态分布。取值仅有两个,不满足正态分布。123 3、Logistic回归模型l 令令:y=1 发病(阳性、死亡、治愈等)发病(阳性、死亡、治愈等)l y=0 未发病(阴性、生存、未治愈等)未发病(阴性、生存、未治愈等)l 将发病的概率记为将发病的概率记为P,它与自变量,它与自变量x x1 1,x x2 2,x,xp p之间的之间的Logistic回归模型为:回归模型为:l可知,不发病的概率为:可知,不发病的概率为:l )exp(1)exp(110110ppppXXXXp )exp(111110ppXXp 13经数学变换得:定义:为Logistic变换,即:ppXXpp 110)1/(ln)1/(ln)(logpppitppXXpLogit 110)(14 4、回归系数i的意义 流行病学的常用指标优势比(odds ratio,OR)或称比数比,定义为:暴露人群发病优势与非暴露人群发病优势之比。即Xi的优势比为:)1/()1/(0011PPPPORiiiPitPitORLn)0()1()0(log)1(log)(0015 故对于样本资料OR=exp()95%置信区间为:可见 是影响因素Xi增加一个单位所引起的对数优势的增量,反映了其对Y作用大小。如果要比较不同因素对Y作用大小,需要消除变量量纲的影响,为此计算标准化回归系数ibi的标准差。为的标准差,为其中ySXSSSbbyiiyiii,/*影响越大。其因素对的估计值,此值越大,为Ybii)(96.1exp(iibSEb 165.假设检验(1)回归方程的假设检验 H0:所有 H1:某个 计算统计量为:G=-2lnL,服从自由度等于n-p 的 分布 (2)回归系数的假设检验 H0:H1:pii,2,1,0,0 0i20i0i计算统计量为:Wald2,自由度等于1。17(二)Logistic回归类型及其实例分析 1、非条件Logistic回归 当研究设计为队列研究、横断面研究或成组病例对照研究时,可以用非条件Logistic回归。18实例1 某研讨究者调查了某研讨究者调查了3030名成年人,记录名成年人,记录了同肺癌发病的有关因素情况了同肺癌发病的有关因素情况,数据见表数据见表4 4。其中是否患病中。其中是否患病中,0,0代表否代表否,1,1代表是;性别中代表是;性别中 11代表男代表男,0,0代代表女;吸烟中表女;吸烟中 11代表吸烟代表吸烟,0,0代代表不吸烟;地区中表不吸烟;地区中,1,1代表农村代表农村,0,0代表城市。试分析各因素与肺癌间的关系。代表城市。试分析各因素与肺癌间的关系。19 表5 肺癌与危险因素的调查分析 例号 是否患病 性别 吸烟 年龄 地区 1 1 1 0 30 0 2 1 0 1 46 1 3 0 0 0 35 1 30 0 0 0 26 1 注:是否患病中,0代表否,1代表是。性别中1代表男,0代表女,吸烟中1代表吸烟,0代表不吸烟。地区中,1代表农村,0代表城市。20SPSS操作步骤:Analyze-Regression-Binary Logistic-Dependent框(y)-Covariates框(x1,x2,)-ok非条件Logistic回归SPSS操作步骤:212223 结果表明,性别,吸烟,年龄三个因素都与肺癌有关.由于在对某一因素进行单因素分析时没有控制其它因素的干扰,因此结果不可靠.Variables not in the Equation4.8211.0288.8891.00314.5261.000.1361.71319.6034.001X1X2X3X4VariablesOverall StatisticsStep0ScoredfSig.单因素分析的结果24多因素分析的结果Model Summary14.006.601.802Step1-2 LoglikelihoodCox&SnellR SquareNagelkerke RSquare25Classification Tablea14193.321386.790.0Observed01YOverall PercentageStep 101YPercentageCorrectPredictedThe cut value is.500a.26 由上最大似然估计分析知因素X2(吸烟),X3(年龄)对肺癌的发生有影响。所得的回归方程为:Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X3-1.3037X4.Variables in the Equation2.5201.8211.9161.166 12.4313.9991.9754.1011.043 54.568.189.0795.7081.0171.208-1.3061.583.6811.409.271-9.7814.0995.6941.017.000X1X2X3X4ConstantStep1aBS.E.WalddfSig.Exp(B)Variable(s)entered on step 1:X1,X2,X3,X4.a.272.条件logistic回归分析 配对设计的类型:1:1、1:m、n:m(可采用分层COX模型来拟合)。例如:某市调查三种生活因素与胃癌的关系,资料见表5。28 表6 配对资料(1:1)对子号 病例 对照 x1 x2 x3 x1 x2 x3 1 1 3 0 1 0 1 2 0 3 1 1 3 0 3 0 1 2 0 2 0 10 2 2 2 0 0 0 注:X1蛋白质摄入量,取值:0,1,2,3 X2不良饮食习惯,取值:0,1,2,3 X3精神状况,取值:0,1,229配对Logistic回归SPSS操作步骤:Analyze-Survival-COX Regression-Time框(outcome)-Status框(Status)-Define Event:Single value 1:continue-Covariates框(x1、x2、x3)-Strata框(id)-Options-at last step-ok30313233Case Processing Summary1050.0%1050.0%20100.0%0.0%0.0%0.0%0.0%20100.0%EventaCensoredTotalCases availablein analysisCases with missing valuesCases with non-positivetimeCensored cases beforethe earliest event in astratumTotalCases droppedTotalNPercentDependent Variable:OUTCOMEa.34Omnibus Tests of Model Coefficientsa1.9207.0932.02911.9432.003Step2-2 LogLikelihoodChi-squaredfSig.Overall(score)Chi-squaredfSig.Change From Previous BlockBeginning Block Number 1.Method:Forward Stepwise(Likelihood Ratio)a.35Variables in the Equation1.7271.2491.9121.1675.6242.2841.6791.8521.1749.821X2X3Step2BSEWalddfSig.Exp(B)36Variables not in the Equationa.0371.847X1Step 2ScoredfSig.Residual Chi Square=.037 with 1 df Sig.=.847a.373、逐步Logistic回归分析(1 1)向前法)向前法(forward selection)(forward selection)开始方程中没有变量,自变量由少到多一个一个引入回归方程。按自变量对因变量的贡献(P值的大小)由小到大依次挑选,变量入选的条件是其P值小于规定进入方程的P界值Enter,缺省值 P(0.05)。38(2)后退法(backward selection)开始变量都在方程中,然后按自变量因变量的贡献(P值的大小)由大到小依次剔除,变量剔除的条件是其P值小于规定的剔除标准Remove,缺省值 p(0.10)。39(3)逐步回归法逐步引入-剔除法(stepwise selection)前进前进逐步引入-剔除法 是在前进法的思想下,考虑剔除变量,因此有两个p界值Enter,Remove。40 无论是条件还是非条件Logistic回归,在多变量分析时均可以采用逐步回归方法,实现的方法是:在 model后加选项:/selection=forward、backward或stepwise 再给出SLE,SLS的界值。调试法:P从大到小取值,0.05,一般实际用时,SLE,SLS应多次选取调整41解 释 设第i个因素的回归系数为bi,表示当有多个自变量存在时,其它自变量固定不变的情况下,自变量Xi每增加一个单位时,所得到的优势比的自然对数。也就是其它自变量固定不变的情况下,自变量Xi每增加一个单位时,影响因变量Y=0发生的倍数。当bi0时,对应的优势比(odds ratio,记为ORi):ORi=exp(bi)1,说明该因素是危险因素;当bi0时,对应的优势比ORi=exp(bi)1,说明该因素是保护因素。42 在本例中不良饮食习惯X2,取值:0、1,2、3,b=1.2218,OR=3.393,表示不良饮食习惯是危险因素;精神状况X3,取值:0、1、2,b=2.2947,OR=9.922,表示精神状况是危险因素。43 SPSS无论是条件还是非条件Logistic回归,在多变量分析时均可以采用逐步回归方法,实现的方法是:在 method后加选项:Enter:所有变量一次全部进入方程。Forward:逐步向前法 Backward:后退法 变量移出方程所采取的检验方法:Conditional;LR;Ward(尽量不用)4445二分类二分类LogisticLogistic回归回归 method method中文名称中文名称剔除依据剔除依据EnterEnter全部进入全部进入Forward:condiForward:conditionaltional向前逐步向前逐步条件参数估计似然比条件参数估计似然比Forward:LRForward:LR向前逐步向前逐步最大偏似然估计似然比最大偏似然估计似然比Forward:WaldForward:Wald向前逐步向前逐步WaldWald统计量统计量Backward:condBackward:conditionalitional向后逐步向后逐步条件参数估计似然比条件参数估计似然比Backward:LRBackward:LR向后逐步向后逐步最大偏似然估计似然比最大偏似然估计似然比Backward:WaldBackward:Wald向后逐步向后逐步WaldWald统计量统计量46SPSS 软件实现方法 FileFileOpenOpen相应数据相应数据(已存在已存在)Analyze Regression RegressionBinary Binary LogisticLogistic Dependent(y)Dependent(y)Covariates Covariates (自变量)自变量)MothodMothod(逐步回归方法)(逐步回归方法)Specify model(Specify model(单因素或多因素)单因素或多因素)save(save(欲保存的内容)欲保存的内容)Options(Options(输出选输出选项)项)OKOK47 调试法:P从大到小取值,0.05,一般实际用时,Enter、Remove应多次选取调整48Om nibus Tests of Model Coefficients17.1641.00017.1641.00017.1641.0006.4291.01123.5932.00023.5932.000StepBlockModelStepBlockModelStep 1Step 2Chi-squaredfSig.Block 1:Method=Forward Stepwise(Likelihood Ratio)49Model Sum m ary24.425.436.58117.996.545.726Step12-2 LoglikelihoodCox&SnellR SquareNagelkerke RSquare50Classification Tablea14193.331280.086.713286.711493.390.0Observed01YOverall Percentage01YOverall PercentageStep 1Step 201YPercentageCorrectPredictedThe cut value is.500a.51Variables in the Equation.143.0479.3881.0021.1541.0531.265-6.0431.9669.4481.002.0023.0211.3754.8301.02820.5051.386303.296.149.0547.7201.0051.1611.0451.289-7.4032.5228.6151.003.001X3ConstantStep1aX2X3ConstantStep2bBS.E.WalddfSig.Exp(B)LowerUpper95.0%C.I.for EXP(B)Variable(s)entered on step 1:X3.a.Variable(s)entered on step 2:X2.b.52Model if Term Removed-20.79417.1641.000-12.2126.4291.011-16.04214.0881.000VariableX3Step 1X2X3Step 2Model LogLikelihoodChange in-2Log LikelihooddfSig.of theChange53Variables not in the Equation2.7641.0966.6261.0101.4681.2268.9263.0303.0921.0791.2401.2653.5612.169X1X2X4VariablesOverall StatisticsStep1X1X4VariablesOverall StatisticsStep2ScoredfSig.54回归回归-Logistic-Logistic回归种类回归种类成组资料的非条成组资料的非条件件LogisticLogistic回归回归配对资料的条件配对资料的条件LogisticLogistic回归回归两分类反应变量的两分类反应变量的LogisticLogistic回归回归多分类有序反应变量多分类有序反应变量LogisticLogistic回归回归多分类无序反应变量多分类无序反应变量LogisticLogistic回归回归1:11:1配对资料的条件配对资料的条件LogisticLogistic回归回归1:m1:m配对资料的条件配对资料的条件LogisticLogistic回归回归n:mn:m配对资料的条件配对资料的条件LogisticLogistic回归回归LogisticLogistic回归分析回归分析55对于成组资料的非条件对于成组资料的非条件LogisticLogistic回归回归()两分类反应变量的()两分类反应变量的LogisticLogistic回归回归5657自变量分为以下情况:自变量分为以下情况:定量资料时,直接计算;定量资料时,直接计算;二值时,化为与或与;二值时,化为与或与;有序多分类:有线性规律时连续赋值有序多分类:有线性规律时连续赋值,.无线性规律按无序多分类无线性规律按无序多分类无序多分类:需要先转换成无序多分类:需要先转换成n-1n-1个哑变量,以个哑变量,以哑变量进行分析。哑变量进行分析。5859606162二分类二分类LogisticLogistic回归回归多重比较的方法多重比较的方法Indicator第一类或最后一类为参照类,每一类与第一类或最后一类为参照类,每一类与 参照类比较参照类比较Simple-除参照类外,每一类与参照类比较除参照类外,每一类与参照类比较Difference-除第一类外,每一类与其前各类的平均除第一类外,每一类与其前各类的平均 效应比较,有称反效应比较,有称反HelmertHelmertHelmert-除最后一类外,每一类与其后各类的平均除最后一类外,每一类与其后各类的平均Repeated相邻两类比较,除第一类外,每类与其前一相邻两类比较,除第一类外,每类与其前一 比较比较Polynominal正交多名义分类比较,该法假设每一分类正交多名义分类比较,该法假设每一分类都都 有相等的空间,仅适于数值变量有相等的空间,仅适于数值变量Deviation除参照类外,每一类与总效应比较除参照类外,每一类与总效应比较63Variables in the Equation-1.326.4339.3851.002.266.410.11113.5701.0001.507-.958.3139.4041.002.383-1.409.44310.1141.001.2442.175.59413.4171.0008.802-1.030.31810.5171.001.357-.691.2686.6431.010.501-1.240.4527.5211.006.2892.451.61216.0271.00011.597抗生素KConstantStep1a性别抗生素KConstantStep2b性别病情轻重抗生素KConstantStep3cBS.E.WalddfSig.Exp(B)Variable(s)entered on step 1:抗生素K.a.Variable(s)entered on step 2:性别.b.Variable(s)entered on step 3:病情轻重.c.64.0241.877.0351.852.5431.46124.54417.1054.0473.256.9641.326.2091.6481.1951.2741.1231.289.5851.4443.6791.055.4271.5131.5221.2172.7071.100.0991.754.0281.8661.2941.255.2221.638.6241.430.0161.899.1321.71618.03616.322抗生素H抗生素I抗生素JOverall Statistics年龄分级年龄分级(1)年龄分级(2)年龄分级(3)基础激素平均激素累计激素最大抗生素A抗生素B抗生素C抗生素D抗生素F抗生素G抗生素H抗生素I抗生素JVariablesOverall StatisticsStep365()多分类无序反应变量()多分类无序反应变量LogisticLogistic回归回归*6667()多分类有序反应变量()多分类有序反应变量LogisticLogistic回归回归*6869练习 据报道目前全世界每年的自杀率为1010万,我国自杀率为2310万,我国高校自杀率则为210万。为了了解当代大学生综合素质现状、为了进行提高大学生综合素质的对策研究,利用中国现场统计研究会教育统计与管理专业学会设计的中国大学生综合素质调查问卷,采用分层整群抽样,选择了不同年级、不同性别、不同专业以及不同生源的医学大学生554名的调查问卷,其中129人有过自杀的意念。应用 Logistic回归分析,探讨大学生有自杀意念的影响因素。70部队3所院校,1121份有效问卷、地方3所院校1874份有效问卷。表8 各校有效问卷情况 单 位 有效问卷份数 军队:北京军医学院 554 海军工程大学 450 解放军信息工程大学 117 地方:同济医学院 778 中国科技大学 628 广西工学院 468 71 1.1.各项目的名称及量化方法各项目的名称及量化方法 在中国大学生综合素质调查问卷中又增加的2个小题记为A01,A02。基本情况A共有21项,分别记为A1,A2,A21。当有的项目中又分为2项时再分别赋予不同的名称,如A10父母亲文化程度分为:父亲文化程度、母亲文化程度。其它项目的名称以此类推。72 利用EXCEL将调查问卷各项进行量化:有序的项目按照顺序赋值0,1,2,;两分类无序项目赋值0和1;多项无序和多选项目,根据例数多少进行合并成两项或引进哑变量。去掉了几项人数少或不容易量化的个别多选题:父亲职业、母亲职业、B16加入WTO后大学生最应具备的素质、B17在当代大学生中你认为普遍欠缺的东西、对学习吃力的再回答、决定考研者进一步需回答、参与过科研或社会实践者进一步需回答的问题。最终确定的变量个数是:A类有22个、B类有17个、C类有38个、D类有32个、E类有20个,总计129个变量。73 大学生产生自杀念头的影响因素和程度按入选顺序依次是:抚养人对其关爱是不关爱方向的倍;考试作弊严重的是不作弊方向的倍;当认定一个目标能够尽力去做并持之以恒 的是时做时不做方向的倍;认为同学中考试作弊人数多的是少方向的 倍;对自己心理素质的评价高的是低方向的 倍;74 对自己各方面的综合评价高的是低方向的 倍;做事常半途而废是能坚持方向的倍;家庭幸福度自我评定高的是低方向的 倍;认为自己在学习上接受与理解能力强的是 不强方向的倍;身体健康状况较好是较差方向的倍。75 对自己心理素质评价低、身体健康状况差、做事常半途而废、认为同学中考试作弊人数多、认为考试作弊是严重的、抚养人对其不关爱、家庭不幸福、认为自己在学习上接受与理解能力强、身体健康状况差、当认定一个目标不能持之以恒者,容易产生自杀的念头。归纳起来主要是:个人精神健康问题、生长环境两大因素。76Logistic 回归的注意事项 1.变量的取值形式 在作危险性因素分析时,以定性资料的形式出现为好。2.样本含量要足够大 一般地:病例与对照研究应至少各有30-50例,且变量越多例数也要增多;配对资料样本的匹配组数应为纳入方程中自变量个数的20倍以上。3.3.大多数情况下模型的大多数情况下模型的常数项常数项没有多大的意没有多大的意义,所以不用对常数项作解释;义,所以不用对常数项作解释;4.4.条件条件LogisticLogistic回归不能用于预测回归不能用于预测.
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!