资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,第21章 诊断试验的ROC分析,学习目标,熟悉诊断试验的常用评价指标;,熟悉ROC曲线的含义以及构建;,通过SAS实例掌握进行ROC分析的SAS程序;,概述,诊断性试验是对疾病进行诊断的试验方法,它不仅包括实验室检查,还包括各种影像诊断,如X-诊断、CT、核磁共振(MRI)、超声波诊断以及同位素检查、纤维内诊镜、电镜等诊断方法。诊断性试验(diagnostic test)的质量通常用敏感度和特异度来衡量。在同一试验中,如果取不同的临界值,则可得到不同的敏感度和特异度,将这些点在以敏感度为Y轴,以(1-特异度)为X轴的坐标上标出并连成线,就可得到一条ROC曲线。,概述,曲线上最接近左上角的一点的坐标就表示这一试验的敏感度和特异度。对同一检测指标的多个不同试验进行Meta 分析,可根据它们的比值比的权重,用一条ROC曲线表示出来,这条曲线称为SROC 曲线,从这条SROC 曲线得到该组研究的敏感度和特异度,这样的方法称SROC法或集成ROC法。自从八十年代起该方法广泛用于医学诊断性能的评价,如用于诊断放射学实验室医学癌症的筛选和精神病的诊断尤其是医学影像诊断准确性的评价。,诊断试验,对于诊断试验的评价,首先应知道受试者(人、动物或影像等)的真实类别,即哪些属于对照组(或无病组,正常组,噪声组等),哪些属于病例组(或有病组,异常组,信号组等)。划分病例与对照这两个组的标准就是金标准。医学研究中常见的金标准有:活组织检查、尸体解剖、手术探查和跟踪随访结果等。尽管金标准不需要十全十美,但是它们应比评价的诊断试验更加可靠,且与评价的诊断试验无关。,诊断试验,对于按金标准确定的二项分类总体,如病例与对照(分别记为D+与D-),采用诊断试验检测的结果可分别写成阳性与阴性(记为T+与T-),资料可列成表21-1的四格表形式。表中有四个可能结果,其中两个是正确的,即病例被诊断为阳性(真阳性,TP)和对照被诊断为阴性(真阴性,TN);两个是错误的,即病例被诊断为阴性(假阴性,FN)和对照被诊断为阳性(假阳性,FP)。,诊断试验,诊 断 结 果(,T,),金标准(,D,),合计,病例(,D,+,),对照(,D,-,),阳 性(,T,+,),TP(真阳性),FP(假阳性),TP+FP,阴 性(,T,-,),FN(假阴性),TN(真阴性),FN+TN,合计,TP+FN,FP+TN,N,诊断试验评价指标,评价诊断试验的常用指标有一致百分率、灵敏度、特异度、Youden指数、阳性似然比、阴性似然比、阳性预报值和阴性预报值。,一致百分率,一致百分率是病例正确诊断为阳性与对照正确诊断为阴性的例数之和占总例数的百分率。计算公式为:,其标准误为,一致百分率,一致百分率很大程度上依赖于患病率,如某病的患病率为5%,即使不采用诊断试验,且将所有研究个体划归为阴性,也可得到一致百分率为95%;其次,它没有利用假阴性和假阳性的信息,相同的一致百分率可能有十分不同的假阴性和假阳性;第三,它还受诊断界点的限制。因此,诊断试验评价只用该指标粗略地表达诊断试验的一致性,更常用的诊断试验评价指标是灵敏度、特异度等。,灵敏度,实际患病且被诊断为阳性的概率就是灵敏度,也称为真阳性率,即:,其标准误为:,该指标只与病例组有关,反映了诊断试验检出病例的能力。,特异度,实际未患病且被诊断为阴性的概率就是特异度,即:,其标准误为:,该指标只与对照组有关,反映了诊断试验排除非病例的能力。,灵敏度与特异度,灵敏度与特异度具有不受患病率影响的优点,其取值范围均在(0,1)之间,其值越接近于1,说明其诊断试验的价值越好。,当比较两个诊断试验时,单独使用灵敏度或特异度,可能出现一个诊断试验的灵敏度高、特异度低,而另一个诊断试验的灵敏度低、特异度高,无法判断哪一个诊断试验更好。由此,有人提出了将灵敏度和特异度结合的诊断试验评价指标,如Youden指数、阳性似然比、阴性似然比等。,Youden指数,真阳性率与假阳性率之差就是Youden指数,即:,其标准误为,Youden指数的取值范围在(-1,+1)之间,其值越接近于+1,诊断准确性越好。,阳性似然比,真阳性率与假阳性率之比,即灵敏度与误诊率之比就是阳性似然比(LR+),,的取值范围为(0,),其值越大,检测方法证实疾病的能力越强。,的标准误涉及到对数变换,这里不予给出;以下几个指标的标准误计算也较复杂,也不予给出。,阴性似然比,假阴性率与真阴性率之比,即漏诊率与特异度之比为阴性似然比,的取值范围为(0,),其值越小,检测方法排除疾病的能力越好。,阳性预报值,在通常的情况下,当要对某疾病作出诊断时,并不知道金标准的结果,只知道诊断试验是阳性或阴性。而临床医生更想知道的是:当诊断试验阳性时,受试者真正有病的概率有多大;阴性时又有多大把握排除此病。这就需要引入阳性预报值(PV+)与阴性预报值(PV_)的概念。,阳性预报值,试验结果阳性时,受试者实际为病例的概率就是阳性预报值,即,由上式可以看出,当灵敏度与特异度为常数时,增加患病率,将降低 ,增加 的值,从而整个分母的值减少,阳性预报值增加。,阴性预报值,诊断试验结果阴性时,受试者实际为非病例的概率就是阴性预报值(PV_),即,上式中符号的意义与前面相同。当灵敏度与特异度为常数时,增加患病率将降低阴性预报值。PV+和PV_的取值范围在(0,1)之间;对于相同的患病率,其值越接近1,检测方法的诊断价值越高。,正确百分率,是病例正确诊断为阳性与对照正确诊断为阴性的例数和占总例数的百分比,它很大程度上依赖患病率,如患病率为5%,完全无价值地诊断所有样本为阴性也可有95%的正确百分率;其次,它没有揭示假阴性和假阳性错误诊断的频率,相同的正确百分率可能有完全不同的假阴性和假阳性。第三 它也受诊断阈值的限制,更好的方法是计算灵敏度和特异度,它们的值越高诊断性能越好。灵敏度和特异度等指标均可不同程度反映了诊断的准确性和特异性。,ROC曲线,应用这对指标最明显的问题是比较两个诊断系统时可能出现一个诊断系统的灵敏度高而另一个特异度高,无法判断哪一个诊断系统更好,此时可将灵敏度和特异度结合改变诊断阈值获得多对灵敏度和(1-特异度)即TPR和FPR值,绘制ROC曲线,作ROC分析来解决这一问题。,ROC曲线,以假阳性率FPR为横轴,真阳性率TPR为纵轴,横轴与纵轴长度相等形成正方形。在图中将ROC工作点标出用直线连接各相邻两点构建非光滑ROC 曲线。构建光滑曲线需要假设对照组和病例组服从某种分布,用一曲线拟合技术估计参数,直接用参数产生。也可采用肉眼目测构建光滑曲线。注意无论资料类型如何曲线一定通过(0,0)和(1,1)这两点,这两点分别相当于灵敏度为0而特异度为1和灵敏度为1而特异度为0。,ROC曲线,理论上,完善的诊断有TPF=1,FPF=0,图中表现为ROC曲线从原点垂直上升到图的左上角,然后水平到达右上角;完全无价值的诊断有TPF=FPF,是一条从原点到右上角的对角线;一般ROC曲线位于正方形的上三角。图20-1就是ROC曲线的一个示例。,ROC曲线,ROC曲线,ROC曲线对诊断的准确性提供了直观的视觉印象,描述了相反两种状态间诊断系统的判别能力。曲线上的每一点代表了随着病例诊断阈值或置信阈变化的灵敏度与特异度的折衷。严格的标准产生较低的灵敏度和较高的特异度,ROC点位于曲线的左下方;宽松的标准产生较高的灵敏度和较低的特异度,ROC点位于曲线的右上方。如果比较的诊断系统曲线不交叉,则较高的ROC曲线具有较好的诊断性能。如果曲线交叉可在考虑费用与效益的前提下结合统计学检验判断其诊断性能。,ROC曲线,一般用ROC曲线下面积反映诊断系统的准确性。理论上这一指标取值范围为0.5至1,完全无价值的诊断为0.5;完善的诊断为1。该指标及其标准误的计算目前有非参数、半参数和参数方法。其中得到广泛应用的方法有Wilcoxon非参数法和最大似然估计双正态参数法。,本章小节,诊断性试验是对疾病进行诊断的试验方法,它不仅包括实验室检查,还包括各种影像诊断,如X-诊断、CT、核磁共振(MRI)、超声波诊断以及同位素检查、纤维内诊镜、电镜等诊断方法。评价诊断试验的常用指标有一致百分率、灵敏度、特异度、Youden指数、阳性似然比、阴性似然比、阳性预报值和阴性预报值。,本章小节,一致百分率是病例正确诊断为阳性与对照正确诊断为阴性的例数之和占总例数的百分率;实际患病且被诊断为阳性的概率就是灵敏度,也称为真阳性率;实际未患病且被诊断为阴性的概率就是特异度;真阳性率与假阳性率之差就是Youden指数;真阳性率与假阳性率之比,即灵敏度与误诊率之比就是阳性似然比;真阳性率与假阳性率之比,即灵敏度与误诊率之比就是阳性似然比;试验结果阳性时,受试者实际为病例的概率就是阳性预报值;诊断试验结果阴性时,受试者实际为非病例的概率就是阴性预报值。,本章小节,尽管前面所列的Youden指数、阳(阴)性似然比、阳(阴)性预报值等指标综合利用了真阳性率(TPR)与假阳性率(FPR)的信息,但这些指标都与诊断界点(或阈值)的选取有关。为了更全面地评价检测方法的诊断价值,必须考虑各种可能的诊断界点。,本章小节,在同一试验中,如果取不同的临界值,则可得到不同的敏感度和特异度,将这些点在以敏感度为Y轴,以(1-特异度)为X轴的坐标上标出并连成线,就可得到一条ROC曲线。该方法广泛应用于医学诊断试验性能的评价。通过改变诊断界点,获得多对TPR与FPR值,以FPR为横坐标,TPR为纵坐标,绘制ROC曲线,计算与比较ROC曲线下面积,以此反映诊断试验的诊断价值。,第22章 一致性检验kappa,学习目标,熟悉Kappa值的判断标准;,掌握Kappa值的计算以及检验方法;,掌握二分类资料和有序分类资料的一致性分析;,Kappa检验,在诊断试验中,研究者希望考察不同的诊断方法在诊断结果上是否具有一致性。诊断试验的一致性检验经常用于下列两种情况:一种是评价新的诊断试验方法与金标准的一致性;另一种是评价两种诊断试验方法对同一个样本或研究对象的化验结果的一致性、两个医务工作者对同一组病人的诊断结论的一致性、同一医务工作者对同一组病人前后进行两次观察作出诊断的一致性等。1960年Cohen等提出用Kappa值作为评价判断的一致性程度的指标。实践证明,它是一个描述诊断的一致性较为理想的指标,因此在临床试验中得到广泛的应用。,Kappa检验,Kappa是评价一致性的测量值。检验是否沿对角线格子中的计数(接收比率一样的零件)与那些仅是偶然的期望不同。设Po=对角线单元中观测值的总和,Pe=对角线单元中期望值的总和。则Kappa=(Po-Pe)/(1-Pe)。Kappa是测量而不是检验。其大小用一个渐进和标准误差构成的t统计量决定。一个通用的经验法则是Kappa大于0.75表示好的一致性(Kappa最大为1);小于0.4表示一致性差。Kappa不考虑评价人间的意见不一致性的程度,只考虑他们一致与否。,Kappa检验,对于用Kappa值判断一致性的建议参考标准为:,Kappa=+1,说明两次判断的结果完全一致;,Kappa=-1,说明两次判断的结果完全不一致;,Kappa=0,说明两次判断的结果是机遇造成;,Kappa0,此时说明有意义,Kappa愈大,说明一致性愈好;,Kappa0.75,说明已经取得相当满意的一致程度;,Kappa0.4,说明一致程度不够理想;,二分类资料一致性分析,前面我们已经介绍四格表资料的,2,检验,本节需要介绍的是Kappa检验。那么Kappa检验与配对,2,检验有什么区别呢?Kappa检验重在检验两者的一致性,配对,2,检验重在检验两者间的差异。对同一样本数据,这两种检验可能给出矛盾的结论。主要原因是两者对所提供的有统计学意义的结论要求非常严格所致。,KAPPA值的计算及检验,对两法测定结果一致部分进行检验,看一致部分是否是由偶然因素影响的结果,它叫做“一致性检验”,也称K
展开阅读全文