logistic回归分析及其应用

上传人:ch****o 文档编号:244662045 上传时间:2024-10-05 格式:PPT 页数:40 大小:236.99KB
返回 下载 相关 举报
logistic回归分析及其应用_第1页
第1页 / 共40页
logistic回归分析及其应用_第2页
第2页 / 共40页
logistic回归分析及其应用_第3页
第3页 / 共40页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,Logistic回归分析及其应用,潘发明,安徽医科大学,流行病与卫生统计学系,10/5/2024,1,概述,1967年Truelt J,Connifield J和Kannel W在Journal of Chronic Disease上发表了冠心病危险因素的研究,较早将Logistic回归用于医学研究。,一般概念,一元直线回归,多元直线回归,10/5/2024,2,一元直线回归模型,y,=a+b,x,+e,多元直线回归模型,y,=a+b,1,x,1,+b,2,x,2,+b,k,x,k,+e,10/5/2024,3,-4.00,-2.00,0.00,2.00,4.00,X:自变量,0.00,0.25,0.50,0.75,1.00,F(y):,因变量的logit值,如果一定要进行直线回归也可以做出结果,但此时效果不佳。当自变量取一定值时,因变量的预测值可能为负数。,10/5/2024,4,一般直线回归难以解决的问题,医学数据的复杂、多样,连续型和离散型数据,医学研究中疾病的复杂性,一种疾病可能有多种致病因素或与多种危险因素有关,疾病转归的影响因素也可能多种多样,临床治疗结局的综合性,10/5/2024,5,简单的解决方法,固定其他因素,研究有影响的一两个因素;,分层分析:按12个因素组成的层进行层内分析和综合。,统计模型,10/5/2024,6,寻找合适的模型,进行logit变换,logit(,p,)=ln(),p为,y=1,所对应的概率,logit(0.1)=ln()=ln(0.1/0.9),p,1 p,0.1,1,0.1,10/5/2024,7,logit(p)=ln()p=0或1时,此式失效,以 p=r/n 代之,logit(p)=ln (r+0.5)/(n r+0.5),此称,经验logistic变换,以Z代上式的logit(p),Z=a+b,1,x,1,+b,2,x,2,+b,k,x,k,称此为logistic回归模型,p,1 p,10/5/2024,8,P=e,z,/(1+e,z,),e,a+b1x1+b2x2+b,k,x,k,1+e,a+b1x1+b2x2+b,k,x,k,此为非条件logistic回归模型,应用于成组数据的分析,P=,10/5/2024,9,自变量取定一些值时,因变量取0、1的概率就是条件概率,对条件概率进行logistic回归,称为,条件logistic回归,表达式:,e,b1x1+b2x2+b,k,x,k,1-e,b1x1+b2x2+b,k,x,k,常用于分析配比的资料,P=,10/5/2024,10,概述小结,logistic回归,对因变量的比数的对数值(logit值)建立模型,因变量的,logit值,的改变与多个自变量的,加权和,呈线性关系,因变量呈二项分布,10/5/2024,11,Logistic回归分析的一般步骤,变量的编码,哑变量的设置和引入,各个自变量的单因素分析,变量的筛选,交互作用的引入,建立多个模型,选择较优的模型,模型应用条件的评价,输出结果的解释,10/5/2024,12,1.变量的编码,变量的编码要易于识别,注意编码的等级关系,改变分类变量的编码,其分析的意义并不改变。,牢记编码,使用,变量数值标识,(value labels),记录,编码内容,10/5/2024,13,变量的编码,变量名 变量标识 变量值 值标识,SEX 性别 1 男,2 女,EDU 教育程度 0 文盲,1 小学,2 初中及以上,10/5/2024,14,variable labels,qnum 问卷序号,rnum 录入序号,pnum 病人编号,hnum 住院号/门诊号,chname 患者中文姓名,drugroup 组别,name 患者姓名,sex 患者性别,age 患者年龄,value labels,sex 1 男 2 女,/hisc 1 是 0 否 9 无法判断,/nsex 1 正常 0 异常 9 未检,/demdx 1 有 0 无,/addx 0 无 1 危险性 2 可能 3 很可能,/edu 0 文盲 1 小学程度 2 初中及以上,10/5/2024,15,2.哑变量的设置和引入,哑变量,又称,指示变量,或,设计矩阵,。,有利于检验等级变量各个等级间的变化是否相同,但主要适合于无序分类变量。,一个k分类的分类变量,可以用k-1个哑变量来表示。,10/5/2024,16,哑变量的设置,教育程度,X1,X2,X3,文盲:0,0,0,0,小学:1,1,0,0,初中:2,0,1,0,高中:3,0,0,1,教育程度,:,文盲,小学,初中,高中以上,以文盲作为参考组,10/5/2024,17,教育程度,X1,X2,X3,文盲:0,1,0,0,小学:1,0,1,0,初中:2,0,0,1,高中:3,0,0,0,以高中作为参照,10/5/2024,18,SPSS提供的方法,Indicator:,默认。以第1 或最后1类作对照,其他每类与对照比较;,Sample:,以第1 或最后1类作对照,其他每类与对照比较,但反映平均效应。,Difference:,除第1类外各分类与其前各类平均效应比较;,Helmert:,除最后1类外各分类与其前各类平均效应比较;,Repeated:,除第1类外各分类与其前一类比较;,Polynomial:,假设类间距相等,用于数值型变量。,Deviation:,以第1 或最后1类作对照,其余每类与总效应比较。,10/5/2024,19,3.自变量的单因素分析,了解自变量与因变量的分布,检验是否符合建立模型的应用条件,偏离应用条件时,进行数据变换,各个自变量两组间的比较,计数资料,计量资料,双变量分析,10/5/2024,20,4.变量的筛选,变量筛选的原则,专业上考虑,测量上考虑,共线性问题:计算相关矩阵,相关系数,则选其一。,缺失数据少、测量误差低的优先选择,经验上考虑,双变量分析中有显著性的自变量(P.15),选择那些改变主效应的自变量,10/5/2024,21,变量的筛选,变量筛选的可用方法,逐步logistic回归:,自动选择有显著性的自变量,不仅用于自变量的剔选,也用于交互作用项是否显著的判断。,前进法:,逐个引入模型外的变量,后退法:,放入所有变量,再逐个筛选,理论上看,前进法选择变量的经验公式缺乏总体概念,当用于因素分析时,建议用后退法。当变量间有完全相关性时,后退法无法使用,可用前进法。,10/5/2024,22,5.交互作用的引入,交互作用的定义,当自变量和因变量的关系随第三个变量的变化而改变时,则存在交互作用,交互作用项的引入,基于临床实际认为对结果有重要影响,基于模型应用条件的分析,引入两个自变量的乘积项,交互作用的检验,交互作用的解释,10/5/2024,23,6.建立多个模型,饱和模型,自定义的模型,从饱和模型中选择自变量,再建立模型,10/5/2024,24,7.选择较优的模型,模型拟合优度检验,AIC(Akaike information criterion):,同一资料的多个模型的比较,此值越小,模型越合适。,SC(Schwartz criterion):同上,Score统计量,:同上,但不包括截距项。,-2logL(似然比检验,Omnibus Test),:检验全部自变量的作用是否显著。较为可靠。适用于含连续性变量的情况。模型拟合好,x,2,值大,P值小。,Hosmer-Lemeshow检验:,评价估计概率和观察概率接近的程度。适用于含连续性变量的情况。模型好,x,2,值小,P值大。,10/5/2024,25,8.模型应用条件的评价,残差分析,残差是观察值与估计值之差,合理的logistic回归模型也可能得到不理想的残差,这在自变量是二分类变量时更易出现。,增加交互作用项可能增加模型的效能,10/5/2024,26,9.输出结果的解释,模型中各个系数的显著性检验,Wald检验:,类似于直线回归系数的t检验,Wald x,2,检验:,同上,似然比检验:,自变量不在模型中与在模型中的似然值比较。,Score检验,10/5/2024,27,输出结果的解释,回归系数的解释,系数的正负值:,正(负)系数表示随自变量的增加因变量logit值的增加(减少)。,二分类自变量,系数为比数比的对数值,由此比数比=e,b,多分类自变量,以第i类作参照,比较相邻或相隔的两个类别。,连续型自变量,当自变量改变一个单位时,比数比为e,b,10/5/2024,28,输出结果的解释,模型拟合的优劣,自变量与结果变量(因变量)有无关系,确认因变量与自变量的编码,模型包含的各个自变量的临床意义,由模型回归系数计算得到的各个自变量的比数比的临床意义,10/5/2024,29,输出结果的解释,模型的预测结果的评价,敏感度、特异度和阳性预测值,正确选择预测概率界值,简单地以0.5为界值,但并不是最好的。,C指数,预测结果与观察结果的一致性的度量。C值越大(最大为1),模型预测结果的能力越强。,10/5/2024,30,非条件logistic回归,研究对象之间是否发生某事件是独立的。,适用于:,成组的病例-对照研究,无分层的队列研究或横断面调查,诊断性试验,10/5/2024,31,条件logistic回归,研究中有N个配比组,每组中n个病例配m个对照者。这时,各个研究对象发生某事件的概率即为条件概率。,适用于,配比设计的病例-对照研究,精细分层设计的队列研究,10/5/2024,32,logistic回归的应用,疾病影响因素的研究,校正混杂因素,疾病预后的估计,疾病诊断,10/5/2024,33,疾病影响因素的研究,病因学研究,病例-对照研究,队列研究,影响因素的研究,横断面调查,临床试验,10/5/2024,34,校正混杂因素,一般采用Mantel-Haenszel分层分析,分层较细或存在格子零频数时,M-H法无法采用。,logistic回归分析可综合校正多个混杂因素的影响,10/5/2024,35,疾病预后的估计,logistic回归模型作为一种概率模型,可用于预测某事件发生的概率。,logistic回归不要求在因变量,正态假设的前提下进行预测,。,10/5/2024,36,疾病诊断,疾病诊断的,判别,诊断性试验研究中,,敏感度和特异度的估计,logistic回归模型综合校正协变量的影响,充分利用数据提供的信息,可进行95%可信区间的估计,10/5/2024,37,logistic,回归的其他问题,多分类,logistic回归模型,因变量为二分类变量,因变量为多分类变量,多分类logistic回归,10/5/2024,38,其他问题,研究对象例数的确定,研究设计时样本含量的估计,经验方法:,模型中的每一自变量至少需要出现,10个结局,。,给定例数时自变量太多,删除变量,合并变量及变量的分类,10/5/2024,39,其他问题,logistic回归的局限性,理论上的不足:,自变量对疾病的影响是独立的,但实际情况及推导结果不同。,模型有不合理性:,“乘法模型”与一般希望的“相加模型”相矛盾。,最大似然法估计参数的局限,样本含量不宜太少:,例数大于200例时才可不考虑参数估计的偏性。,10/5/2024,40,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!