危险度分析和Logistic回归

上传人:gp****x 文档编号:243358293 上传时间:2024-09-21 格式:PPT 页数:47 大小:143.50KB
返回 下载 相关 举报
危险度分析和Logistic回归_第1页
第1页 / 共47页
危险度分析和Logistic回归_第2页
第2页 / 共47页
危险度分析和Logistic回归_第3页
第3页 / 共47页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,危险度分析和,Logistic,回归,第十七章,1,危险度分析和,LOGISTIC,回归主要用于研究影响肿瘤和其它各种疾病的发病因素或预后因素。,一般的相对危险度计算通常用于单因素分析。,LOGISTIC,回归可用于多因素分析。,第十七章危险度分析和,Logistic,回归,2,第一节 发病危险度比较的统计指标,病因分析(或预后分析)的目的:找出影响疾病发生(或预后好坏)的原因及其影响的强度。,如果某因素对疾病发生有影响,就称该因素与疾病发病有联系,而联系的强度则反映该因素对疾病发生影响的大小。,危险度分析就是分析某因素对疾病发生是否有关,以及关系的大小。,3,第一节 发病危险度比较的统计指标,危险度(,RISK):,通常指某个不幸事件发生的概率。危险度大表示发生的可能性大。,某病发病危险度:就是观察对象在观察期间发生某病的概率,即某病发病率。,研究,发病危险度的统计指标常有相对危险度,特异危险度和人群特异危险度。,4,一相对危险度,相对危险度(,relative risk),简记为,RR,人群总体中暴露于某因素者的发病率,P,1,与不暴露于某因素者的发病率,P,0,之比值称为该因素对于该疾病发病的相对危险度,即:,RR1,时,表示该因素为危险因素,使发病危险度增大;,RR,2,0.01,=6.635,故,P0.01,,拒绝,H,0,认为总体比数比不为1,患子宫内膜癌与绝经期使用过雌激素有关;并估计绝经期使用过雌激素的妇女患子宫内膜癌的相对危险度是不用者的3.71倍。,21,病例对照研究优点:,简单易行,不需长期随访,特别适用于研究发病率低的疾病。,病例对照研究缺点:,回顾性研究,从果到因,不合理,可靠性差。,一成组病例对照研究,22,二分层分析,有时在分析某危险因素与疾病之间的关系时, 有些额外因素会对所分析的问题起干扰作用,这些额外因素就称为混杂因素。它能部分甚至全部掩盖危险因素与疾病之间的真实关系,故必须设法排除。例如要研究卫生状况与某传染病发病之间的关系,但传播可能与居住密度有关 ,故居住密度对所研究的问题就成为一个混杂因素,如果结论中未排除该因素之干扰,将影响推断之可靠性。以下这个假设例说明混杂因素所起的干扰作用,假定混杂因素分为2个水平(,),23,表17.3 混杂因素干扰的假设例,混杂因素未分层 混杂因素分层分析, , , ,暴露 非暴露 暴露 非暴露 暴露 非暴露,病例 300 56 294 21 6 35,对照 700 944 606 79 94 865,二分层分析,24,但将混杂因素分为两层后,层的分别仅为1.83,1.58。 由此可见该混杂因素的干扰会导致不正确的推断。分层分析有助于克服混杂因素之干扰。,分层分析(,Stratified Analysis),是对可能的混杂因素(常常是性别,年龄,或其它有关条件)进行分层,使得每一层内混杂因素处于同一水平上,这样就可排除它的干扰。,二分层分析,25,K,层22表统计分析步骤:,以,P323,,例17.4为例,根据年龄分为5层,(1)计算各层的比数比,作显著性检验。,(2)检验各层的总体比数比是否相同。,如差异有统计学意义,结束。,(3)如差异无统计学意义,,计算公共比数比。,(4)检验公共比数比和1之间的差异是否有统计学意义。,26,三配对病例对照研究,在成组病例对照研究中,为了排除混杂因素的干扰可以使用分层分析,但当可能的混杂因素较多时,所分层次就会很多,而且必须调查较大的样本, 否则各层中频数就会太小,这种情况有时会给工作带来困难,一个较好的控制混杂因素的办法就是配对病例对照研究(,Paired Case-Contral Study)。,27,本方法的基本点就是对每一名病例, 选择一名或数名各种控制因素与病例相近的非病例作为对照者,在调查一开始就把他们配成对 ,然后一对对地进行比较分析。这样做可以使各对内部保持均衡,尽可能排除或减少混杂因素的影响,从而提高分析的效能。配对因素可以是按属性分类的变量,如性别、民族、血型、职业、既往病史等,也可以是连续性变量,如年龄、血压、某种生理、生化指标等。,三配对病例对照研究,28,Logistic,回归是一个较好的,目前常用的,控制混杂因素的多因素分析方法。,多变量分析中使用的多元线性回归模型,应变量,y,常取为一个计量数据。,Logistic,回归,中,y,呈现为二值变量形式。如发病与不发病,死与活,成功与失败,阳性与阴性, 等等。当应变量只取二个数值时常记为1与0,在,SAS,的,logistic,回归中最好记成1与2。,Y=1:,反应,如: 发病,死亡,成功,Y=2:,不反应,如:不发病,存活,不成功,第五节,Logistic,回归,29,Y:,反应变量(,response variable),X:,协变量(,covariate),解释(,explanatory),变量,,伴随变量等,X,可以呈现二值变量的形式,也可以计量的或等级的指标。,logistic,回归是一种概率模型。设,P,为,Y,呈现反应值为1的概率,P=P(Y=1),,则,Q=1-P,为呈现非反应值的概率,,Q=P(Y=2)。,P,与各协变量,X,i,之间的关系可用下式表示。,第五节,Logistic,回归,30,发病的概率:,P=exp(b,0,+b,1,x,1,+b,m,x,m,)/1+exp(b,0,+b,1,x,1,+b,m,x,m,),不发病的概率:,Q=,1-,P=1/1+exp(b,0,+b,1,x,1,+b,m,x,m,),P/(1-P)=exp(b,0,+b,1,x,1,+b,m,x,m,),定义,y=lnP/(1-P),为,logit,变换,它是比数的自然对数值,则有,y=lnp/(1-p)= b,0,+b,1,x,1,+b,m,x,m,第五节,Logistic,回归,31,SAS,的,Logistic,回归和多元回归一样,也可用逐步剔选的方法选择变量,使方程内变量都显著,方程外变量都不显著,称为逐步,Logistic,回归。,Logistic,回归模型既适用于队列研究又适用于病例对照研究。,第五节,Logistic,回归,32,1,. 在队列研究中用于预测,把各协变量代入方程,得到P值,即发病的概率。,2,. 因素分析,分析哪些因素(,协变量)对疾病的发生有显著作用。,对各偏回归系数作显著性检验,如显著,则说明在排除其它因素的影响后,该因素与发病有显著关系。,Logistic,回归的应用,33,3. 求各因素在,排除其它因素的影响后,对于发病的相对危险度(或比数比),如某因素X,i,的偏回归系数为,b,i,,则该,因素X,i,对于发病的,比数比为,exp(b,i,),(1),当,X,i,为二值变量时,如吸烟(1=吸,0=不吸),exp(b,i,),为吸烟对于发病的,比数比,Logistic,回归的应用,34,(2),当,X,i,为等级变量时,如吸烟(0=不吸,1=少量,2=中等,3=大量)。,exp(b,i,),为每增加一个等级,发病的,相对危险度,如,大量对于不吸其发病的,相对危险度为:,exp(3b,i,),(3)当,X,i,为连续变量时,如年龄(岁),exp(b,i,),为每增加一岁时,发病的,相对危险度,如60岁相对于35岁其发病的,相对危险度为,exp(25b,i,),Logistic,回归的应用,35,4. 比较各因素对于发病的相对重要性,比较各标准化偏回归系数,b,i,绝对值的大小,绝对值大的对发病的作用也大。,5,. 考察因素之间的交互作用,如考察,X,L,和,X,K,之间的交互作用是否显著,再增加一各指标:,X,LK,= X,L,*,X,K,,,如其偏回归系数,b,LK,显著,则,X,L,和,X,K,之间的交互作用显著。,6.,Logistic,回归也可用于二类间的判别分析。,Logistic,回归的应用,36,判别分类表,预测值,观察值 合计,不治愈 治愈,不治愈 17 6 23,治愈 5 87 92,合计 22 93 115,37,判别分类表,敏感性(,Sensitivity)=,实际不治愈病例中所预测不治愈比例,17/23=73.9%,特异性(,specificity)=,实际治愈病例中所预测治愈比例,87/92=94.6%,正确率(,correct)=,预测正确的病例数 / 总病例数,(17+87)/ 115=90.4%,假阳性率(,false positive rate)=,预测不治愈而实际治愈比例,5/22=22.7%,假阴性率(,false negative rate)=,预测治愈而实际不治愈比例,6,/,93,=6.,5,%,38,由此可得,LOGISTIC,回归方程为:,P/(1P)EXP(-17.96+3.63X5+1.60X6+1.91X7+2.57X8),方程内各偏回归系数都大于零,因此这些变量数值越大不治愈的概率越大。,根尖,X,线片有阴影的,换药次数多的,根管充填不密合或超填的,医生经验不丰富的病人不容易治愈。,39,对象和方法:,1)一般的样本描述:样本来源,例数,死亡数,存活数。性别和年龄构成情况等。,2)各指标含义及其数量化情况。,X1A:,胃癌位置,是否,胃底, 胃底=1, 非胃底=0。,。,YY:,手术后3年是否死亡,死亡=1,存活=0 。,3)统计方法:,用,SAS6.12,统计软件包进行数据处理和统计分析。,单变量分析时,计数资料用卡方检验,或确切概率计算比较各水平的死亡率;计量资料用,t,检验比较死亡组和存活组的均数之差异。,多变量分析用逐步LOGISTIC回归。以,手术后3年是否死亡(,YY),作为反应变量,其余指标为协变量。剔选变量的,P,值均取0.05。,40,结果:,1)单变量分析结果:,如需详细给出结果,可对每个变量给出一个,RC,表或四格表,包含各水平的死亡率和各水平死亡率比较的,P,值;对于计量指标给出死亡组和存活组的例数,均数和标准差以及两均数差异显著性检验的,P,值。,如只需给出简单结果,可仅给出对于是否死亡有显著作用的指标的情况。,2),LOGISTIC,回归结果:,给出最后一步方程内变量的情况。,41,指标 偏回归系数 标准误,P,值 标准偏回归系数,常数项 -2.8770 2.0954 0.1697 .,X3C 2.2844 1.0210 0.0253 0.519452,X5 1.0102 0.3147 0.0013 0.931773,X6 1.6321 0.5449 0.0027 0.837360,X8 -0.5764 0.1874 0.0021 -0.917033,X9 0.000386 0.000186 0.0384 0.392918,42,各指标的相对危险度:,大体类型为浸润对于非浸润3年内死亡的,相对危险度为:,e,2.2844,=9.82,胃癌深度级别每增加1级:,e,1.0102,=2.75,淋巴结转移级别每增加1级:,e,1.6321,=5.11,血色素每减少1,g/L: e,0.5764,=1.78,白细胞数每增加1000个/,mm,3,:e,0.386,=1.47,43,从,标准偏回归系数的绝对值大小可得:,胃癌深度级别,淋巴结转移级别和血色素对于手术后3年生存率的影响较大,胃癌的,大体类型和白细胞数,淋巴结转移级别和血色素对于手术后3年生存率的影响较小。,44,LOGISTIC,回归方程为:,y=ln(P/(1-P)= -2.8770+2.2844 ,大体类型为浸润,+1.0102,胃癌深度级别,+1.6321 淋巴结转移级别,-0.5764 血色素(,g/L),+0.000386 白细胞数(个/,mm,3,),45,用此,LOGISTIC,回归方程对于这98例样本进行回代判别,如,P,大于0.5判为死亡,,P,小于0.5判为存活,结果如下:,回归方程判别结果,实际情况 死亡 存活 合计,死亡 47 7 54,存活 9 35 44,合计 56 42 98,46,敏感性(,Sensitivity)=,实际死亡病例中所预测死亡比例,47/54=87.0%,特异性(,specificity)=,实际不死亡病例中所预测不死亡比例,35/44=79.5%,正确率(,correct)=,预测正确的病例数 / 总病例数,(47+35)/ 98=83.7%,假阳性率(,false positive rate)=,预测死亡而实际不死亡比例,9/56=16.1%,假阴性率(,false negative rate)=,预测不死亡而实际死亡比例,7/42=16.7%,47,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!