资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,*,生存分析,第一节,引言,第二节,生存分析的基本概念,第三节,非参数生存分析,第四节,Cox,模型,第五节,实例分析与计算机实现,1,第一节 引言,在医学研究中,常常用追踪的方式来研究事物发展的规律。如,了解某,药物的疗效,,了解,手术的存活时间,,了解某,医疗仪器设备使用寿命,等等。,对,生存资料,的分析称为,生存分析,。所谓生存资料就是描述寿命或者一个发生时间的数据。更详细的说一个人的生存时间的长短与许多因素有联系的,,研究因素与生存时间的联系有无及程度大小,称为生存分析。,生存分析在医学科学研究中具有广泛而重要的应用价值,它对,人群寿命的研究,,,各种慢性疾病,的现场追踪研究,,临床疗效试验和动物试验,等研究中随访资料的处理起着举足轻重的作用。,2,第二节 生存分析基本概念,一、基本概念,1,、失效事件与起始时间在生存分析随防研究过程中,一部分研究对象可观察到死亡,可以得到准确的生存时间,它提供的信息是完全;这种事件称为,失效事件(,failure event),也称之为死亡事件、终点事件。,起始事件(,initial event),是反映生存时间起始特征的事件,如疾病确诊、某种疾病治疗开始、接触毒物等。 。,3,生存分析的基本概念,2,、,截尾数据(,Censored data,) 但往往有一部分人或中途失防,或到观察结束时仍存活,对这些人无法知道准确的生存时间,对于这样的观测值,只知道其生存时间大于,而不知道其准确的生存时间。这种数据称为截尾数据(,Censored data,)。它提供不完全信息。,4,生存分析的基本概念,生产截尾值的原因:,1,)病人失访;,2,)病人的生存期超过了研究的终止期;,3,)在动物实验中,有时事先规定观察期限或动物数,5,生存分析的基本概念,3,、生存时间生存时间(,survival time),是指任何两个有联系事件之间的时间间隔,常用,t,表示。狭义的生存时间指患某疾病的病人从发病到死亡所经历的时间跨度,广义的生存时间定义为从某种起始事件到终点事件所经历的时间跨度。,6,生存分析的基本概念,4,、中位,(,半数,),生存时间中位生存时间(,Median survival time),是指寿命中位数,表示有且只有,50%,的观察对象还可以活这么长时间。由于截尾数据的存在,中位生存期的计算不同于普通的中位数,它可以利用生存函数公式或生存曲线图,令生存率为,50%,时,推算出生存时间,7,生存分析的基本概念,5,、,生存时间函数,1,)生存函数,生存概率又称为生存率,(,Survival Rate,),或生存函数,它表示一个病人的生存时间长于时间,t,的概率,用,S(t,),表示:,s(t,)=P,(,T,t,),如,5,年生存率:,s(5)=P,(,T,5,),以时间,t,为横坐标,S(t,),为纵坐标所作的曲线称为生存率曲线,它是一条下降的曲线,下降的坡度越陡,表示生存率越低或生存时间越短,其斜率表示死亡速率。,8,生存分析的基本概念,9,生存分析的基本概念,2,)死亡函数,概率密度函数,(Probability Density Function),简称为密度函数,记为,f(t,),其定义为,:,f(t,)=,lim,(,一个病人在区间,(,t,t+t,),内死亡概率,/t),它表示死亡速率的大小。如以,t,为横坐,f(t,),为纵坐标作出的曲线称为密度曲线,由曲线上可看出不同时间的死亡速率及死亡高峰时间。纵坐标越大,其死亡速率越高,如曲线呈现单调下降,则死亡速率越来越小,如呈现峰值,则为死亡高峰。,10,生存分析的基本概念,3,)风险函数,风险函数,(Hazard Function),用,h(t,),表示,其定义为,:,h(t,)=,lim,(,在时间,t,生存的病人死于区间,(,t,t,),的概率,/t),由于计算,h(t,),时,用到了生存到时间,t,这一条件,故上式极限式中分子部分是一个条件概率。可将,h(t,),称为生存到时间,t,的病人在时间,t,的瞬时死亡率或条件死亡速率或年龄别死亡速率。当用,t,作横坐标,h(t,),为纵坐标所绘的曲线,如递增,则表示条件死亡速率随时间而增加,如平行于横轴,则表示没有随时间而加速,(,或减少,),死亡的情况。,11,生存分析的基本概念,如急性白血病病人从治疗开始到复发为止之间的缓解期,冠心病病人两次发作之间的时间间隔,戒烟开始到重新吸烟之间的时间间隔,接触危险因素到发病的时间间隔等。生存分析中最基本的问题就是计算生存时间,要明确规定事件的起点、终点及时间的测度单位,否则就无法分析比较。,12,生存分析的基本概念,生存分析这个统计技术可以同时分析有结局的生存数据和没有结局的截尾数据,能较充分地利用资料信息。,如果改变出生,/,死亡的含义,可使生存分析得到更广泛的应用。如以开始暴露于某病的危险因素代替出生,以发生此病代替死亡可用生存分析来研究暴露于危险因子后在多少月或年内发病概率。再比如,以某病治疗代替出生,以死于该病作为死亡,生存分析来研究某病治疗后的生存时间,如此等等。,13,资料收集,二、资料收集一)随访内容,1,、明确开始随访的时间如住院时间、确诊时间、开始治疗时间等。,2,、随访结局和终止随防的时间,3,、记录影响生存时间的有关因素二)随访方式,1,、全体观察对象同时接受处理措施,观察到最后一例出现结果,或事先规定的随访截止时间。,2,、全体观察对象在不同时间接受治疗,完成一定数量随访病例后决定随访截止时间,可按事先规定的时间停止随访。,14,随访资料常见形式示意图,15,三)生存分析研究的主要内容,1,、描述生存过程(估计生存函数),2,、比较生存过程(比较生存函数),3,、影响生存时间的因素分析,生存分析研究目的,16,生存率,S(t,),的估计方法有参数法和非参数法。常用非参数法,非参数法主要有二个,即,乘积极限法与寿命表法,前者主要用于观察例数较少而未分组的生存资料,后者适用于观察例数较多而分组的资料,不同的分组寿命表法的计算结果亦会不同,当分组资料中每一个分组区间中最多只有,1,个观察值时,寿命表法的计算结果与乘积极限法完全相同。,生存率的估计方法,17,第三节 非参数生存分析方法,一,.,乘积极限法,(,Product-Limit Method),简称为积限法或,PL,法,它是由统计学家,Kaplan,和,Meier,于,1958,年首先提出的,因此又称为,Kaplan-Meier,法,是利用条件概率及概率的乘法原理计算生存率及其标准误的。,设,S(t,),表示,t,年的生存率,s(ti/ti-1),表示活过,ti-1,年又活过,ti,年的条件概率,例如,s(1),s(2),分别表示一年,二年的生存率,而,s(2/1),表示活过一年者,再活一年的条件概率,据概率的乘法定律有,: S(2)=S(1)S(2/1),一般地有,S(ti,)=S(ti-1)S(ti/ti-1),18,一、乘积极限法,一,.,乘积极限法,(Product-Limit Method),例,1,用某中药加化疗,(,中药组,),和化疗,(,对照组,),两种疗法治疗白血病后,随访记录各患者的生存时间,不带,+,号者表示已死亡,即完全数据,带,+,号者表示尚存活,即截尾数据,试作生存分析。时间单位为月。,中药组,10,2+,12+,13,18,6+,19+,26,9+,8+,6+,43+,9,4,31,24,对照组,2+,13,7+,11+,6,1,11,3,17,7,19,资料中药组积限法计算生存率,时间 状态 期初人数 死亡人数 条件生存率 累积生,di,di/ni(ni-di,),累积生存,ti,si,ni,di,(,ni-di)/ni,存率,S(ti)ni(ni-di,),率标准误, ,=,2,活,4,死,15 1 0.9333,0.9333,0.004762,0.004762,0.0644,6,活,6,活,8,活,9,死,11 1 0.9090 0.8485 0.009091 0.013853 0.0999,9,活,10,死,9 1 0.8889 0.7542 0.013889 0.027742 0.1256,12,活,13,死,7 1 0.8571 0.6465 0.023810 0.051551 0.1468,18,死,6 1 0.8333 0.5387 0.033333 0.084885 0.1570,19,活,24,死,4 1 0.7500 0.4040 0.083333 0.168218 0.1657,26,死,3 1 0.6667 0.2694 0.166667 0.334885 0.1559,31,死,2 1 0.5000 0.1347 0.500000 0.834885 0.1231,43,活,20,二,.,寿命表法,(Life Table Method),适用于随访的病例数较多,将资料按生存期进行分组,在分组的基础上计算生存率,本法也能用于不分组的资料,此时计算结果与积限法相同。,21,某医院,1946,年,1,月,1,日到,1951,年,12,月,31,日收治的,126,例胃癌病例,生存情况如表,2,试用寿命表法估计生存率。,表,2 126,例胃癌患者寿命表法估计生存率,时间,(,年,),期初例数 死亡例数 失访例数 截尾例数 有效例数 条件生存率 累积生存率,di,di/ni(ni-di,),累积生存,ti,ni,di,ui,wi,ni,S(ti/ti-1) ,S(ti,),ni(ni-di,),率标准误, ,=,0- 126 47 4 15 116.5 0.5966,0.5966,5.805,10-3,5.805,10-3,0.0455,1- 60 5 6 11 51.5 0.9029 0.5386 2.088,10-3 7.893,10-3 0.0479,2- 38 2 0 15 30.5 0.9344 0.5033 2.301,10-3 0.0102 0.0508,3- 21 2 2 7 16.5 0.8788 0.4423 8.359,10-3 0.0186 0.0602,4- 10 0 0 6 7.0 1.0000 0.4423 0 0.0186 0.0602,5- 4 0 0 4 2.0 1.0000 0.4423 0 0.0186 0.0602,22,寿命表法估计生存率步骤如下,:,1.,将观察例数按时间段,(,年,)0-,1-,2-,划分,分别计数期初例数,死亡,失访,截尾例数列入表,2,的,1-5,列。事实上,从第二个时间段开始,期初人数,ni,系由下式算得,:,ni=ni-1-di-ui-wi,例如第二行,即时间段,1-,有,n2=126-47-4-15=60,2.,计算各时间段期初实际观察例数,(,亦称有效例数,),ni,ni,=ni-ui/2-wi/2,23,3.,分别用,(22.5)(22.6)(22.7),式计算条件生存率,S(ti/ti-1),累积生存率,s(ti,),及其标准误。,计算结果已列于表,22.2,中,第,7,8,11,列,表中,9,10,二列系用于第,11,列的计算。,例如时间段,0-,中,S(ti/ti-1)=(116.5-47)/116.5=0.5966,S(ti,)=1,0.5966=0.5966,SE(S(ti,)=0.5966,5.805,10-3=0.0455,故一年生存率的估计为,0.5966,0.0455,同样二年生存率的估计为,0.5386,0.0479,由于寿命表法与积限法的累积生存率及其标准误的计算公式完全相同,所以,当分组资料中每一个分组区间中最多只有,1,个观察值时,寿命表法就是积限法。,24,生存率的比较,当有两个或两个以上的生存分布时,我们常需比较它们是否来自同一生存分布,此时的假设检验为,:,H,0,:,样本所来自的总体生存分布相同。,H,1,:,样本所来自的总体生存分布不相同。,可选用的检验方法有,:,Logrank,法,广义,Wilcoxon,法,和,Cox-Mantel,法等。当拒绝,H,0,时,认为几个生存分布不相同。,25,例 两组儿童横纹肌肉治疗后复发时间(月数)如下,对照为,“,摘除,+,放疗,”,,处理组为,“,摘除,+,放疗,+,化疗,”,,问在,“,摘除,+,放疗,”,基础上附加,“,化疗,”,是否可提高缓解率?对照组复发时间(月),2 3 9 10,10,12,+,15,15,+,16 18,+,24,+,30 40 45,+,处理组复发时间(月),9 12,+,16,+,19,19,+,20,+,20,+,24,+,24,+,30,+,31,+,34,+,42,+,44,+,53,+,59,+,62,+,(带,+,的数据均为截尾数据)。,26,复发时 对照组 处理组 小计 复发时 对照组 处理组 小计,间(月) 间(月),2,1(0.469) 0(0.513) 1 15 1(0.375) 0(0.625) 1,14 17 31 8 15 23,15 17 32 9 15 24,3 1(0.425) 0(0.548) 1 16 1(0.636) 1(1.364) 2,13 17 30 6 14 20,14 17 31 7 15 22,9 1(0.867) 1(1.133) 2 19 0(0.263) 1(0.737) 1,12 16 28 5 13 18,14 17 30 5 14 19,10 2(0.857) 0(1.143) 2 30 1(0.333) 0(0.667) 1,10 16 26 3 8 11,12 16 28 4 8 12,27,对于两组生存率的比较有近似法和精确法两种,上述法是近似法,其计算方法较为简便,但结果较为保守。两种方法的计算步骤相同,只是作统计量的方法不同,精确法计算卡方统计量的分母是对应的方差估计量,统计软件中常用精确法进行计算。两种方法在样本例数较小时稍有不同。,28,用,log-rank,检验对样本的生存率进行比较时,要求各组生存曲线不能交叉,生存曲线的交叉提示存在某种混杂因素,因此应采用分层的办法或多因素方法来校正混杂因素。别外,当假设检验推断有差别时,可以通过生存曲线、半数生存期及相对危险度等指标来评价其效果。,29,30,COX,回归用于研究各种因素(称为协变量,或伴随变量等)对于生存期长短的关系,进行多因素分析。,h(t,x)=h0(t)exp(,1,x,1,+ ,2,x,2,+,+ ,m,x,m,),X,1,,,X,2,,,,,X,m,是,协变量,1,,,2,,,,m,是回归系数,由样本估计而得。,I,0,表示该,协变量是危险因素,越大使生存时间越短,I,0,表示该,协变量是保护因素,越大使生存时间越长,第四节,COX,回归,31,h(t,x)=h0(t)exp(,1,x,1,+ ,2,x,2,+ ,m,x,m,),h0(t),为基础风险函数,它是全部,协变量,X,1,,,X,2,,,,,X,m,都为0或标准状态下的风险函数,一般是未知的。,h(t,x),表示当各协变量值,X,固定时的,风险函数,它和,h0(t),成比例,所以该模型又称为比例风险模型(,proportional hazard model),COX,回归模型不用于估计生存率,主要用于因素分析。,32,比例危险度:现举例说明在,Cox,回归中两个危险度的比值,即比例危险度的计算。某疾病的发病,受吸烟,X,1,与饮酒,X,2,的影响,对有关资料作,Cox,回归分析后,得回归方程为,X,1,与,X,2,的回归系数为,0.8755,与,0.5108,。,33,试求既吸烟又饮酒者发病与不吸烟不饮酒发病的危险度。既吸烟又饮酒者危险度为:,34,不吸烟不饮酒者的危险度为:二者的比值为:,35,COX,回归的应用:,和,LOGISTIC,回归相似,(,1,)因素分析,分析哪些因素(,协变量)对生存期的长短有显著作用。,对各偏回归系数作显著性检验,如显著,则说明在排除其它因素的影响后,该因素与生存期的长短有显著关系。,36,(,2,)求各因素在,排除其它因素的影响后,对于死亡的相对危险度(或比数比),如某因素X,i,的偏回归系数为,b,i,,,则该,因素X,i,对于死亡的,比数比为,exp(b,i,),当,X,i,为二值变量时,如转移(,1=,转移,,0=,不转移),exp(b,i,),为转移相对于不转移对于死亡的,相对危险度(或比数比),37,当,X,i,为等级变量时,如淋巴结转移,分,0,,,1,,,2,,,3,,,4,五个等级。,exp(b,i,),为每增加一个等级,死亡的,相对危险度,如等级3相,对于,等级0,其死亡的,相对危险度为:,exp(3b,i,),当,X,i,为连续变量时,如年龄(岁),exp(b,i,),为每增加一岁时,死亡的,相对危险度,如,60,岁相对于,35,岁其死亡的,相对危险度为,exp(25b,i,),38,(,3,)比较各因素对于生存期长短的相对重要性,比较各标准化偏回归系数,b,i,绝对值的大小,绝对值大的对,生存期长短,的作用也大。,(4),考察因素之间的交互作用,如考察,X,L,和,X,K,之间的交互作用是否显著,再增加一各指标:,X,LK,= X,L,*X,K,,,如其偏回归系数,b,LK,显著,则,X,L,和,X,K,之间的交互作用显著。,39,第五节 实例分析与计算机实现,一,生存分分析实例,二,利用,SPSS,进行生存分析,40,
展开阅读全文