资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,诊断试验评价,徐涛,主要内容,评价诊断试验的常用指标,灵敏度、特异度,一致率、,Youden,指数、似然比,阳性预测值、阴性预测值,ROC,曲线,ROC,曲线的定义和用途,ROC,曲线下面积的估计和检验,何为诊断试验?,诊断试验(,Diagnostic test,)是指为给患者做出诊断所应用的各种实验室检查、医疗仪器检查及其它方法。,包括各种实验室检查诊断、影像诊断和仪器诊断等(如,X,线、超声波、,CT,扫描、磁共振及纤维内镜等)。,一项好的诊断试验,应具备疾病存在时能正确地发现疾病、疾病不存在时能正确地排除疾病的能力,即具有较高的诊断,准确度,。,如何评价诊断试验的准确度,诊断试验评价的基本方法是用所谓的“金标准”,确诊区分某病的病人和非病人,再应用待评价的诊断方法盲法测定这些研究对象,通过比较两者的一致性情况对新的测定方法进行评价。,金标准(,Gold standard,)是指当前医学界公认的最准确的诊断方法,如手术、病理学检查、生物标志物的检测等。,金标准,理论上,:,能检测出所有患者,同时又能排除所有非患者的检查方法或诊断过程。,方法应该,100%,准确,实际上:,当前医学公认的诊断疾病的最准确的方法,即标准诊断,通常比需评价的诊断试验更昂贵或更危险或更客观但不能及时做出诊断的检查,如组织活检、手术、尸检等。,有时只能将数年后的随访结果作为金标准,一些非自限性、在发现可疑征兆数年后疾病表现进展会更明显的疾病(如大部分癌症及退行性疾病)。,如何评价诊断试验的准确度,在实际工作中,必须按照某种原则选择一个诊断标准或阈值,据此判断检测对象是否患有某种疾病。,如高血压的诊断标准为:,140/90mmHg,但是患者与非患者的测量指标分布常有一定重叠,导致诊断不准确。,非患者,患者,阈值,漏诊,误诊,诊断试验可能出现两类错误,假阳性错误:实际未患病但检测结果为阳性,即误诊;,假阴性错误:实际患病但检测结果为阴性,即漏诊;,一个准确度好的诊断试验应将误诊和漏诊都控制在最小范围内。,评价诊断试验的常用指标,灵敏度、特异度,一致率、,Youden,指数、似然比,阳性预测值、阴性预测值,不同研究对象的诊断试验结果表,金标准,诊断试验结果,阳性,阴性,合计,患者,a,b,a+b,非患者,c,d,c+d,合计,a+c,b+d,a+b+c+d,灵敏度与假阴性率,灵敏度(,Sensitivity,,,Se,)是指真实患者中诊断结果为阳性的概率,也称为真阳性率(,True Positive Rate,,,TPR,)、敏感度,反映了正确诊断某种疾病的能力。,假阴性率(,False Negative Rate,,,FNR,)指患者被诊断为阴性的概率,也称为漏诊率。,特异度与假阳性率,特异度(,Specificity,,,Sp,)是指非患者中诊断结果仍为阴性的概率,也称之为真阴性率(,True Negative Rate,,,TNR,),反映了疾病不存在时正确排除疾病的能力。,假阳性率(,False Positive Rate,,,FPR,)是指非患者被诊断为阳性的概率,也称为误诊率。,灵敏度与特异度的可信区间,灵敏度和特异度实际上是一种概率指标,故当样本量较大时,其标准误和可信区间的计算可按照正态近似法利用率的标准误和可信区间进行。,当样本量较小、或灵敏度和特异度接近,1,时,可用精确概率法计算其可信区间。,(P u,/2,Sp , P + u,/2,Sp),灵敏度与特异度的标准误,灵敏度与特异度,例,70,例糖尿病患者及,510,例非患者在口服葡萄糖,2,小时后进行血糖试验,若以,6.7mmol/L,为阳性标准,试计算该血糖试验的灵敏度和特异度。,金标准,诊断结果,阳性,阴性,合计,患者,62,8,70,非患者,162,348,510,合计,224,356,580,灵敏度,灵敏度的,95%,可信区间为:,Se u,/2,SE(Se),=0.8857,1.960.0380=,(,0.8112,,,0.9602,),特异度,灵敏度的,95%,可信区间为:,Sp u,/2,SE(Sp),=0.6824,1.960.0206=,(,0.6420,,,0.7228,),灵敏度与特异度的关系,灵敏度只与真实的患者的检测结果有关;,特异度只与真实的非患者的检测结果有关;,研究对象中患者与非患者的比例对灵敏度和特异度的估计值没有影响。,随着诊断界值提高,灵敏度降低、漏诊率提高,但特异度提高、误诊率降低;,随着诊断界值降低,灵敏度提高、漏诊率降低,但特异度降低、误诊率提高。,非患者,患者,阈值,漏诊率,误诊率,特异度,灵敏度,灵敏度、特异度与诊断界值,当诊断试验的检测结果为定量指标或有序分类变量时,取不同的临界值作为诊断界值(,cut-off point,),试验将有不同的灵敏度和特异度。,灵敏度、特异度和诊断界值有关。,乳腺超声诊断乳腺肿瘤结果,金,标,准,乳腺超声,良性,1,可能,良性,2,可能,恶性,3,恶性,4,合计,良性,381,36,32,42,491,恶性,71,8,15,876,970,合计,452,44,47,918,1461,诊断界值,灵敏度,特异度,1,为阳性,1.000,0.000,2,为阳性,0.927,0.776,3,为阳性,0.919,0.849,4,为阳性,0.903,0.914,4,为阳性,0.000,1.000,(8+15+876)/970,381/491,两样本资料灵敏度、特异度的比较,这些指标实际上是一种概率指标,可以利用两个或多个率的比较方法,如用根据应用条件用卡方检验或精确概率法比较灵敏度和特异度等。,两样本资料灵敏度、特异度的比较,分别用,A,、,B,两种方法进行糖尿病诊断,试比较两种方法的灵敏度和特异度。,金标准,A,方法诊断结果,阳性,阴性,合计,患者,62,8,70,非患者,162,348,510,合计,224,356,580,两样本资料灵敏度、特异度的比较,金标准,B,方法诊断结果,阳性,阴性,合计,患者,58,12,70,非患者,112,398,510,合计,170,410,580,H,0,:两方法的灵敏度相同,H,1,:两方法的灵敏度不同,=0.05,诊断结果,阳性,阴性,合计,A,方法,62,8,70,B,方法,58,12,70,合计,120,20,140,P0.05,,两种方法的灵敏度的差异无统计学意义。,H,0,:两方法的特异度相同,H,1,:两方法的特异度不同,=0.05,诊断结果,阳性,阴性,合计,A,方法,162,348,510,B,方法,112,398,510,合计,274,746,1020,P0.05,,两种方法的特异度的差异有统计学意义。,一致率,一致率(,Agreement Rate,)指研究对象中诊断正确的例数占总例数的比例,即患者中检查结果为阳性和非患者中检测结果为阴性占总例数的比例,也称为符合率。,一致率,当对照组不是金标准时:,灵敏度称为阳性一致率、阳性符合率;,特异度称为阴性一致率、阴性符合率。,Youden,指数,Youden,指数(,Youdens,index,,,J,)是真阳性率(灵敏度)与假阳性率之差,即灵敏度和特异度之和减,1,;,Youden,指数越大,说明诊断准确度越高。,似然比,似然比(,Likelihood Ratio,,,LR,)为两个概率之比,包括阳性似然比,LR(+),和阴性似然比,LR(-),。,阳性似然比表示患者诊断结果阳性的概率是非患者诊断结果阳性的概率的多少倍。,阳性似然比实为真阳性率与假阳性率之比,阳性似然比越大,诊断准确度越高。,似然比,阴性似然比表示患者诊断结果阴性的概率是非患者诊断结果阴性的概率的多少倍。,阴性似然比实为假阴性率与真阴性率之比,阴性似然比越小,诊断准确度越高。,一致率、,Youden,指数和似然比,例,70,例糖尿病患者及,510,例非患者在口服葡萄糖,2,小时后进行血糖试验,若以,6.7mmol/L,为阳性标准,试计算该血糖试验的一致率、,Youden,指数和似然比。,金标准,诊断结果,阳性,阴性,合计,患者,62,8,70,非患者,162,348,510,合计,224,356,580,一致率、,Youden,指数和似然比,预测值,预测值表示当诊断试验为某种结果时,受试者能被确诊为病人或非病人的概率。,预测值与试验的灵敏度、特异度和受试人群中所研究疾病的患病率有关。,预测值包括阳性预测值和阴性预测值。,阳性预测值,阳性预测值(,Positive Predictive Value,,,PPV,,,PV+,)是指诊断结果为阳性时,实际为患者的概率。,P,0,为人群患病率,但研究样本为人群的随机样本时:,阴性预测值,阴性预测值(,Negative Predictive Value,,,NPV,,,PV-,)是指诊断结果为阴性时,实际为非患者的概率。,P,0,为人群患病率,但研究样本为人群的随机样本时:,ROC,曲线,当诊断试验的检测结果为定量指标或有序分类指标时,多个诊断界值可以得到多个灵敏度和特异度。,ROC,曲线也称为受试者工作特征(,Receiver Operating Characteristic,)曲线,可以综合考虑诊断试验在所有诊断界值时的灵敏度和特异度。,ROC,曲线是以(,1-,特异度)为横坐标,以灵敏度为纵坐标绘制而成的曲线,它用线段连接每个诊断界值对应的,(,1-,特异度),灵敏度,点。,机会线,机会线,(chance line),曲线下从原点到右上角的对角线称为机会线,(chance line),,表示无论取何诊断界值,灵敏度,=1-,特异度,及真阳性率,=,假阳性率,即无论患者还是非患者都有相同的“机会”被诊断为阳性。,ROC,曲线的应用,综合评价某种检查方法的灵敏度和特异度,并最终确定临床诊断时的最优切分点。,一般选择位于,ROC,曲线的肩部所在的分界点为最优切分点(敏感度,+,特异度最大)。,ROC,曲线下的面积,ROC,曲线下的面积(,Area Under the ROC Curve,,,AUC,,,A,)可用于综合反映诊断试验的准确度。,ROC,曲线越接近机会线,即曲线下面积越接近,0.5,,表明试验区分患者和非患者的能力越差,越接近,1,,表明试验的诊断准确度越强。,ROC,曲线下的面积,AUC,及其标准误可以通过参数法(如双正态模型等)或非参数法计算,现常用,Hanley,和,McNceil,提出的非参数法,可通过,SPSS,软件中的,ROC,分析模块完成。,可用,u,检验对,AUC,进行假设检验,实际上是检验,AUC,是否为,0.5.,ROC,曲线下的面积,例:现用,A,技术检测病人血清钠水平,想了解血清钠对洛基山猩红热(,RMSF,)是否有诊断作用。共,45,位病人,一组确诊有,RMSF,,另一组没有患病,但也有发热、头痛和蚊虫叮咬史。试进行,ROC,分析。,ROC,曲线下的面积,两样本,ROC,曲线下面积的比较,可利用,AUC,的标准误进行,u,检验(,Z,检验)比较两个,ROC,曲线下的面积。,两样本,ROC,曲线下面积的比较,现用,A,、,B,两种技术检测病人血清钠水平,想了解血清钠对洛基山猩红热(,RMSF,)是否有诊断作用,以及哪种检测技术更准确。共,45,位病人,一组确诊有,RMSF,,另一组没有患病,但也有发热、头痛和蚊虫叮咬史。请做出两者的,ROC,曲线,并比较曲线下的面积。,两样本,ROC,曲线下面积的比较,两样本,ROC,曲线下面积的比较,H,0,:,A,1,=A,2,H,1,:,A,1,A,2,=0.05,U0.05,,按照,=0.05,的水准,不拒绝,H,0,,不能认为两检测技术的,ROC,曲线下面积的差异有统计学意义。,诊断试验评价的注意事项,金标准的选择,研究对象的选择 研究对象的代表性,诊断结果的判断 盲法判断,配对设计和完全随机设计,小结,评价诊断试验的常用指标,灵敏度、特异度,一致率、,Youden,指数、似然比,阳性预测值、阴性预测值,ROC,曲线,ROC,曲线的定义和用途,ROC,曲线下面积的估计和检验,
展开阅读全文