011-GP10-A使用ROC曲线评价临床试验准确度中文

资源描述

GP10-AVol.15 No.9Replaces GP10-TVol.13 No.28使用ROC曲线评价临床试验的准确度：批准指南(GP10A)翻译：赵艳红审核：批准：目录1范围32术语33 评价过程概述：43.1 定义临床问题（见4.1部分）43.2 选择代表研究样本（见4.2部分）43.3 建立每个受试者的“真实的”临床状态（见4.3部分）43.4 检验被研究受试者（见4.4部分）43.5 评价检验的临床准确性（见4.5部分）54 设计基本的评价研究54.1 定义临床问题54.2 选择代表研究样本54.2.1 选择偏差64.2.2 回顾研究64.2.3 检验前的选择64.2.4 流行疾病64.2.5 商讨统计74.3 建立每个受试者的“真实的”临床状态74.3.1 评价的有效性74.3.2 真实临床亚群74.3.3 分类途径74.3.4 独立分类84.3.5 伪装评价（masked evaluation）。84.4 检验研究受试者84.4.1 进行伪装研究84.4.2 一致样品94.4.3 检验模式94.5 评价检验的临床准确性94.5.1 诊断或临床敏感性和特异性94.5.2 ROC曲线104.5.2.1 概述104.5.2.2 生成ROC曲线；连接114.5.2.3 ROC曲线定性释义124.5.2.4 单个ROC曲线下的区域134.5.2.5 多种检验的统计比较134.5.2.6 其他ROC统计144.5.2.7 ROC13曲线的优点144.5.2.8 ROC曲线的缺点145 ROC 曲线的使用：临床实验室文献中的案例146 总结15使用ROC曲线评价临床试验的准确度：批准指南1范围本指南概述设计一个先期的研究来评价临床实验室试验内部诊断准确度的步骤和原则，例如，它的基本能力是正确区别在健康的供选择几种状态之间的灵敏性和特殊性。对每一步骤都做了详细的描述，包括它执行的原理和建议。相同的概念也可以应用到已经产生的数据的重要评价之中。2术语临床准确度（诊断准确度）：诊断试验在两个或更多的临床状态中的区别的能力，例如，区别风湿性关节炎和全身红斑狼疮，区别风湿性关节炎和“无关节疾病”，区别慢性肝炎和“无肝部疾病”，区别风湿性关节炎和其他关节疾病的“混合疾病”。临床状态：一种健康或者疾病的状态，是被诊所或其他独立参考标准确认过的。关于临床状态的例子包括“未发现病症”，“病症1”（1代表第一个被考虑的临床状态），“病症2”（2代表第二个被调查的临床状态），等等。判断临界值（也是判断水平，cutoff（截断）：一个试验分数被用作是“阳性试验”的判断标准。所有在其中或者超过这个试验分数的被认为是“阳性的”；不在其中或未达到分数的被认为是“阴性的”。在一些案例中，低的试验分数被认为是“异常的”，例如，L/S 比例或者血红蛋白。在另外一些案例中，高的试验分数被认为是“异常的”，例如，心肌酶或者尿酸浓缩物。诊断试验：测量或检查，将病人分成特定的组或者临床状态。有效性：数据的实际有效值，例如，临床目的的有用性。假阴性结果（FN）：受试者出现阴性试验结果，发现疾病或病情。假阳性结果（FP）:受试者出现阳性测试结果，未发现疾病或病情。假阴性分段（FNF）：患有疾病的受试者的比例，但是对有疾病的受试者测试结果为阴性；FN/(FN+TP)；同（1-敏感性）。假阳性分段（FPF）: 未患疾病受试者的比例，但是对无疾病受试者的测试结果为阳性；FN/(FN+TP)；同（1-特殊性）。流行率：对特定人群，特定临床状态的预测可能性；在给定时间点，感兴趣人群的疾病发生频次。受试者工作特征曲线（ROC）:测试结果的图形描述，代表真阳性分段（敏感度）和假阳性分段（1-特异性）之间的关系。通常，真阳性分段绘制在垂直轴上，假阳性率（或，真阴性分段）绘制在水平轴上。临床准确性，也就是敏感度和特异性，显示的是全光谱决断水平。敏感度（临床敏感度）：在疾病测试中为阳性结果；真阳性分段；在特定判定临界值正确检测疾病的能力。特殊性（临床特异性）：在健康测试中为阴性结果；真阴性分段；在特定判定临界值正确检测无疾病的能力。研究组：一组感兴趣的临床定义人群，代表一组样品。感兴趣的人群是用于测试评价的目标组，将其分别应用到实践当中。研究的亚群被定义为属于特殊的临床状态，适用于标准（见正文）。真阴性结果（TN）：受试者无疾病，测试结果为阴性。真阳性结果（TP）：受试者患有疾病，测试结果为阳性。真阴性分段（TNF）：无疾病受试者比例，对于无疾病的受试者来说测试结果为阴性；TN/（TN+FP）；特异性。真阳性分段（TPF）：患有疾病受试者的比例，对于患有疾病的受试者来说测试结果为阳性；TN/（TN+FP）；敏感度。3 评价过程概述：3.1 定义临床问题（见4.1部分）使用以下程序定义临床问题：（1）描述受试人群的特性。（2）描述所做的管理决定。（3）在做决定时，定义检测的任务。3.2 选择代表研究样本（见4.2部分）使用以下程序选择代表研究样本：（1）预期选择统计有效样本，包含在上面3.1中提出的代表群体的受试者。（2）选择独立与测试结果的样本。（3）计算数据不全的病体数量。3.3 建立每个受试者的“真实的”临床状态（见4.3部分）使用以下程序建立每个受试者的真实的临床状态：（1）对于每个相关的临床状态采用独立的外部标准或者诊断真实性标准，这样可以尽可能的正确归类每个受试者，也可以建立在严格诊断工作组或者临床过程或结果评估的基础上。（2）不使用被评价的试验来区分受试者，例如未知试验结果，不包括标准中的试验结果。3.4 检验被研究受试者（见4.4部分）使用以下程序检验被研究的受试者：（1）在未知受试者分类的情况下进行检验。（2）在比较多个检验时，对所有受试者进行检验，最好以批的模式，而且在临床过程使用同样的点。3.5 评价检验的临床准确性（见4.5部分）使用以下程序评论检验的临床准确性（1）描绘受试者工作特征曲线图来评价检验准确性。（2）在ROC曲线和分析的基础上比较可选择的检验。4 设计基本的评价研究4.1 定义临床问题实验室检验需要提供对治疗病人有帮助的信息。通常情况下会有一系列的临床问题。定义临床问题是最基本的要求，因为它提出了特定病人的护理问题，并用评价法处理。CK-2浓缩物可否用于区别心肌梗死（AMI）和其他原因导致的胸痛之间的不同，病人是否有心肌梗死的病史并曾被急救过？几个检验中，在区别乳腺癌的检验时，一些受试者对特定化学治疗有反应，另外的一些没有反应，最好的区别方法是什么?在一些检验中，在之前尚未发现贫血的老年病人中，在区别铁缺乏症和其他导致贫血的原因时，那种方法更准确？一个给定的检验可能因不同的临床设置而不相同。实施良好的试验可以帮助区别表面看起来健康的未患有前列腺疾病的年轻人和患有前列腺癌的中年之间的不同，但是可能对区别患有良性前列腺疾病的中年人和患有恶性前列腺疾病的中年人之间的不同的帮助不大。后者的差别显示出适用于中年人症状的相关临床问题，而前者的差别显示出不同的项目，可能与临床根本不相关。通常情况下，临床问题或目的包含表面相似的受试者群组（在检验前使用评价法获取信息的基础上的群的集合），也应该进一步细分为相关的管理亚群。检验的结果应该指出个体受试者是属于哪个管理亚群的。例如，对于使用化学发光免疫法（RIA）检验血浆血管紧张肽-转换酶活性的试验预计可以回答以下问题：“在患有高血钙的病人中，谁患有结节病？”表面症状相似的病人有高血钙的常见症状。检验帮助其分为亚群：患有结节病的分为一组，由于其他原因导致高血钙（例如恶性肿瘤或甲状旁腺功能亢进）的分为另外一组，原因不同，使用的管理方法也不相同。对于前面提到的案例，必须小心定义目标群，包括性质/种类，延续时间和质量条件的重要性。例如，这可能包括在相距一周时间里血清钙的浓度大于“X”的两种情况，年龄差距，性和其他表象（例如，胸部X光），对于在群组中包含或不包含受试者的这些要求。4.2 选择代表研究样本清楚的定义临床问题的过程实际上是为识别检验与评价相关的群来服务的。在这些临床群体中，选择用于研究的受试者。这些受试者应该选择作为可以代表临床感兴趣的大量的群体，并得出关于它的结论。结果的意义是建立在相关的群的识别和选样的关注程度之上的。所得的结果可以从问题的定义和选取受试者研究的性质中得出。在通常的实验室实习中，采用或建立相关间隔是很常见的，经常可以用来辅助解释病人检查结果。这些间隔常常从以下检验结果中搜集数据：献血者，实验室工作人员，学生或其他门诊患者，“健康的”志愿者。注意：这个群体可能和本指南中描述的诊断准确性评价法不相关。在将评价作为检验准确度的筛选工具时，应使用筛选群体代表样本。例如，考虑到结肠癌的粪便隐血。如果检验的目的是评价在无特殊症状的中年受试者中发现隐形癌症，样本应该全都在这种群体中选取。在无癌症人群、健康的志愿者和确认已经患有结肠癌的人群中选择样本，则是不适合的。同样的原则也适用于在检验，但不是在筛选时，而是在区分有症状的病人间的疾病状态的情况下。如果是检验有病史和症状的急性胰腺炎病人，指出其患有胰腺炎的可能性，样本的选取应该包括这类人群。因为检验不是为了区分健康的志愿者和确认有胰腺炎病人之间的区别，所以研究使用这类的受试者是不合适的。所得出的结论也不符合试验目的。4.2.1 选择偏差为避免选择偏差可能破坏研究有效性或者提出的相关问题，请慎重选择受试者。例如，特别是对于那些隐性的症状或早期的受试者，使用确认的或临床症状明显的病人样本。同样的道理，使用年轻的健康志愿者的样本对于检验预期的应用来说是不适合的。这里使用的测量方法是受目标群体和样本的疾病光谱的影响的。受试者预期适合的重要性将在文献2-6中详细讨论。4.2.2 回顾研究不允许检验结果或检验程序影响受试者的选择。排除未预料到的、模棱两可的或不一致的受试者的结果可以让检验更加有用。回顾研究只得出病人的检验数据报告，不包括病人因为不同原因而未成功检验测试，从而扭曲了检验的绩效。4.2.3 检验前的选择在检验结果直接或间接影响到受试者的选择时，在检验开始前选择受试者，作为预防偏差的措施。为预防任何偏差，筛选符合定义的所有的感兴趣的临床组，直到获得预定数量的受试者。一旦选取，不应放弃研究的受试者。如果一些病人没有完成研究（因为技术错误，分析干扰，死亡或未跟上进度的原因），在最终的分析结果中，也应包含他们的数据信息。因丢失受试者导致不确定性和可能的偏差，必须考虑和报告体现研究结论中。4.2.4 流行疾病这里描述的途径是独立于流行疾病的，所以不必须有反应实际流行的样本。有大约相当数量的感染疾病的受试者和未被感染的受试者是可取的方式。4.2.5 商讨统计在计划定义，尺寸和研究群体的选取时，建议与专业的统计学家商讨，这可以应用于检验性能的重要评价。样本尺寸应适合评价目标，提供有效的ROC曲线和检验作比较。在这个不可能的时候，应清晰描述选择的标准。4.3 建立每个受试者的“真实的”临床状态对于临床准确性的客观评价需要比较结果，结果是由一些独立的，真实的外部定义的检验机构提供的。以上定义的临床问题，确认了“真实”（健康的状态）的分类是什么，与评价方法有关。标准适用于将单个人归类到他们各自的真实组中。标准可能包括活体检视数据，外科或尸体剖检发现数据，显像数据和长期跟踪数据。可惜的是，归类单个人样本到有差别的组中可能导致运行有缺陷。标准可能不可信和/或产生偏差6.其中一些可能不会清楚的适合定义的健康状态。Metz 建议说“真实是一个哲学上的概念，当然，如果比评价法的诊断体系（检验）更可信赖的话，真实的标准对现实的目的来说是充分的。”4.3.1 评价的有效性在评价检验临床准确性时，评价的有效性是受准确性的限制的，受试者是用准确性来归类的。一个完美的检验可能运行的很简单，因为没有正确的对每个病人制定其“真实性”，因此，检验结果和表面看起来的“真实”诊断是不相符合的。在另一方面，当检验结果与不正确的分类一致时，检验看起来运行的比实际“更好”。因此，尝试着尽可能的区分单个人是很重要的，同时也要考虑到由于区分计划导致的结果上可能的偏差。与真实性分类越接近，在评价任何检验的时候的表面现象的偏差会越小。4.3.2 真实临床亚群对于评价研究来说，通常的临床诊断并不适当。决定病人的真实临床亚群可能需要用到如下的程序，活体检视，外科考察，尸体剖检，血管造影术或长期跟踪，对治疗和临床结果的反应。尽管这些程序对评价可能造成经济上的成本增加，但是小成本检验，如果其错误结论导致不合适的检验的使用或者不适合的病人的管理，在长期来看，通常临床评价法的花费将更大。4.3.3 分类途径在很多临床情况下，获得独立的，正确的病人“真实性”临床条件分类是很困难的。在识别真实的健康状态时，形成了几种策略来处理这些难点。一种策略是按照测量临床结果7来定义诊断问题。第二种方法是使用达成几种共识，多数原则或专家回顾来减少错误倾向识别过程8。第三种解决方案是对几种正确检验做比较的假定，即假定在未知混合组中有患病和未患病的人群，然后去估计这个混合组的参数和其他参数9. 第四种方法，不是定义分配每个这样的病人到其中的一组中去，例如“患病的”或“未患病的”分配到0到1之间的每个值，并与（受试者）假定相对应，这个病人属于这个患病组（这可以完成逻辑退化）。因此，在组的分配是模棱两可的情况下，没必要将数据从这个模糊的案例中除去。尽管诊断分类经常预示并发症和治疗反应，但是对于检验来说最好的评价是关于其指出临床反应或结果的能力，而不是分配诊断的能力。例如，可能将疑似患有前列腺疾病的病人归类到那些患有癌症组里面，未患有癌症组里面是建立在活体检视结果的基础上的。因此，将他们按照病人明显疾病症状来区分将更有作用。如果评价的目的是假定血清制造者在区别需要干涉的病人和不需要干涉的病人方面的准确性上，对于知道哪个病人会进一步发病比知道哪个病人疾病有组织学证据更加恰当。这个案例是真实的案例，它出现在原始的临床创立任务之前，是在评价法检验的技巧上的。因此，缺少及时定义诊断类别不是阻止检验临床准确性的必要条件。事实上，在建立正确的诊断比较容易的时候，关于临床过程相关联的检验结果可以比单独研究病人诊断关联结果更加能提供有用的临床评价。4.3.4 独立分类为避免在评价检验临床准确性时的偏差，真实的临床状态应该不受调查结果或使用对比的影响。很明显，新的检验不应该包含在区分受试者的标准中。例如，如果RIA的CK-MB是为诊断AMI来评价的，因为区分研究受试者，CK-MB的电泳技术或者免疫抑制作用都应被包含在“金标准”组里面。进一步说，如果CK-MB试验的性能是为了直接与LD-1/LD-2同工酶率做比较，则LD同工酶结果不应被包含在诊断标准里，因为表面性能将会在任何检验中有偏差，它也是“真实标准”的一部分。4.3.5 伪装评价（masked evaluation）。为确保分类不受评价法下检验结果的影响，需要做伪装,也就是未知检验结果。进一步说，归类每个病人到管理亚群的标准要尽可能的客观。在归类是建立在临床或形态学受试者评价的基础上时，例如放射性核素或者骨髓涂片，对于每个病人的判断应当反应专家的一致意见，这些专家对每种伪装材料的解释及其相互间的独立性。4.4 检验研究受试者4.4.1 进行伪装研究使用评价法进行检验的人应该做伪装，也就是说，未知受试者的临床状态。理想的情况是，检验应该在临床问题得到回答之前来做。已知临床问题的结果可能导致微小的偏差。不适合临床状态的结果可能在假定技术困难或干扰因素的基础上选择性的重复或排除。4.4.2 一致样品在比较两个或更多检验时，检验的受试者和样品的一致性是很重要的。不正确使用这些受试者来评价每个检验可能导致因为样品错误引起的结论错误。进一步说，细小的偏差可能影响不同组的受试者的选择。因此，在检验表现上显示的表面不同可能反应的是检验组的受试者的不同。如果一些受试者有晚期的，假定，更加容易发现的疾病，而只做了一些检验，这些检验相对于其他检验来说灵敏度更高。相反，受试者疾病轻微，可能很难发现，这将可能减小在这些受试者身上的检验灵敏度，这是与使用受试者检验相比较而言的。对所有受试者做全部检验确保灵敏度和特异性的不同，而不仅仅是诊断标准适用范围的不一致。简单的说，在病人患病不同的时间，如果两个或者更多的检验可以适用于相同的受试者，这些检验的一个明显的优势是在易检验的疾病中，这个事实是成立的。因此，所有的检验都应在每个受试者患病的相同阶段来进行。对于所有的检验使用区别样本，避免以上的失误。4.4.3 检验模式在同一批次分析所有样本，在可能的情况下，建议减少分解的分散干扰。因此，注意通过特殊存储条件保持分析物的稳定性。4.5 评价检验的临床准确性通过检验临床准确性来评价检验的性能，也就是说，其有能力将单个人归类到两个亚群组里，例如，一个亚群组的人患上某些疾病（因此需要治疗），第二组未感染疾病。如果两个检验组的检验结果没有重叠，则这个检验可以正确鉴别受试者并区别两个亚群。然而，如果两个亚群的结果有重叠，说明检验鉴别能力不强。在其他的案例中，希望有一种方法来代表和测量来区别准确性。4.5.1 诊断或临床敏感性和特异性一项检验区别或认知已经患病的能力就是其诊断敏感度；其区别没有患病的能力就是其特异性。两者都是测量准确度并可以用百分比、比率或小数部分来表示。完美的测试是达到了100%或1.0的敏感度和特异性。然而，检验很少是完美的，通常情况下，两者不会同时达到100%。诊断敏感性（真阳性比率或部分）定义如下：或 (1)这里指的是受试者确实感染了疾病并显示阳性结果诊断特异性（真阴性部分）定义如下:或者 (2)这部分是真正未感染疾病的人，检验结果为阴性。通常情况下，检验有其特殊的敏感度和特异性。因此，对于一个检验来说，没有单一的敏感度和特异性；或者说有连续的敏感度和特异性。改变判定临界值（或判定水平，正常上限，置信区间值或参考值），可以得到敏感度值的范围在0到100%区间，每个值都有一个对应的特异性。对于每个用于区分受试者是阳性或阴性的判定临界值是建立在检验结果的基础上的，敏感度和特异性只有一个单一连接。这些参数是成对出现的，检验的准确性是由发生的光谱来反应的（特异的检验不都是成对出现的）。在任一检验中，两组受试者的结果分布重叠，在敏感度和特异性之间不可避免的存在“trade-offs”。因为判定临界值在观察区间不同，敏感度和特异性将向相反的方向移动。一个值增大，则另外一个值减小。对于每个判定临界值来说，都有成对的敏感度和特异性对应。哪个值描述了检验的正确性？所有的都能。只有敏感度/特异性组的全部光谱才提供检验准确性完整图示。在图示1中（第13页），在临界值是6g/L时，CK-BB显示的敏感度是100%或1.0。所有的50受试者的acute mycocardial infarction (AMI)都正确的归类为“阳性的”或“受感染的”。同样的，相同的临界值，20个受试者中的9个未患有AMI的都被错误的归类为阳性，所以特异性只有55%（55%真阴性，45%假阳性）。然而，在判定临界值是12g/L而不是6时，敏感度降到96%（0.96），因为在50个受试者中只有48个的AMI被正确的归类为“阳性”。进一步说，因为所有的非-AMI受试者现在都被正确的归类为未受感染，特异性增加到100%（100%真阴性，0%假阳性）。因此，在临界值由6g/L变为12g/L，导致了敏感度的降低和特异性的增加。注意敏感度全部使用感染（AMI）的受试者来计算，而特异性是用未受感染的亚群计算的。进一步说，检验在一个临床条件下只有一组敏感度-特异性，在另外的一个临床条件下，使用不同组的受试者，产生不同组的敏感度-特异性。如果CK-BB是在疑似患有AMI的postoperative的病人中检测，而不是在急诊部门的病人检测（见第13页，图示1）敏感度-特异性组将会不同。在检验中的光谱对决定了其特殊临床条件下的基本的准确性。4.5.2 ROC曲线4.5.2.1 概述在敏感度和特异性间的trade-offs 光谱用ROC曲线14来表示很方便。ROC方法理论是建立在统计决定理论的基础上的，在电子信号探测方面得到了发展，产生周围的症状，在20世纪中叶使用了雷达接收器6。ROC类型曲线在1950s使用，用来决定自动papsmear分析仪的性能，减少smears和无malignant cells之间的不同。ROC曲线使用特定的感染的和未受感染的样本组，用图解演示出检验性能的全部光谱。它就是一个“检验性能曲线”，代表检验基本临床准确性，使用从全部的获得结果中的选择的连续的变化的判定临界值画出所有敏感度-特异性组的曲线。曲线的重要部分在于判定临界值在范围内变化，这个范围是感染和未受感染受试者重叠的结果值。在重叠区域之外，全部的敏感度或特异性是1.0并且不变化；在重叠区域内，没有一个值是1.0，而且两个值都随着判定临界值的变化而变化。在Y轴上绘制敏感度，或者真阳性部分（TFP）。在X轴上，绘制假阴性部分（FPF）(或1-特异性)。这部分是真正受感染的受试者，测试结果为阳性；因此，它就是特异性测量。另外的选择是在X轴上直接绘制特异性（假阴性部分）。这个值在从左到右的“抛物线”，给出上面图示的镜像。因此，如果在X轴从右到左（不是从左到右）标记0到1.0，曲线不会翻转的。如上所述，对于敏感度和特异性来说，TP 和FP部分是随着判定临界值变化连续变化的，并且是的重叠结果范围之内的。每个判定临界值都有一组TP（敏感度）和FP（1-特异性）部分与之对应。比例也取决于临床设置，也会受所选择的研究组影响。FP部分是受研究组中未被感染的受试者影响的。例如，如果未受感染的受试者都是健康的献血者，没有任何症状，检验结果的FP部分会比较低，这是与感染的受试者做比较而言的，感染的受试者是指事实上已经患病的人。同样，TP部分也取决于所选择的研究组，用于发现癌症的检验可能TP部分值较高，在适用于有活性或晚期疾病的病人比病情稳定或限度的病人方面，对于前者的检验很有效。在研究数量时，TP和FP部分的相关性是一个原因，这个原因是ROC曲线必须因为每个临床状态而生成的。在ROC曲线中，敏感性和特异性的不同组合，对于检验来说在给定设置的条件是很容易显现出来的。同样明显的是，“trade-offs”也会影响检验的判定临界值。在判定水平改变时，敏感度变化是以特异性的变化为条件的，或者相反。这个可以直接从曲线中看到。注意，尽管已知判定临界值，但是它并不是曲线的一部分。因此，选择的判定临界值可以在对应的敏感度和特异性出现的交叉点显示出来。由于真、假阳性部分都是完全独立计算出来的，使用的是两组不同亚群（感染的，未受感染的）人的检验结果，ROC曲线是独立于疾病样本和感兴趣的条件的。因此，如上面提到的，TPFs和FPFs, ROC曲线仍然是受样本中受试者类型（光谱）的影响的。ROC曲线提供了一般的，全球的性能评论，但是并不是由一个或多个已知的敏感度-特异性提供的。使用检验性能数据绘制的ROC曲线也可以用于在检验的特定临床条件下选择判定临界值。检验性能的几个元素来决定对于可能的敏感度-特异性组（对应的判定临界值）来说，哪个更适用于给定病人的护理：（a）相关成本或未预测的错误，例如假阳性和假阴性归类（可以考虑正确归类的优点）；（b）不同结果（死亡，治愈，延长生命或改变生活质量）的值（效用）；和（c）健康两种状态的相关比率，检验的目的是减小其不同（条件或疾病的流行）。在选择判定结果值时通常要求使用病人管理检验，这一重要步骤在本指南的范围之外。关于这个问题的讨论可以在其他地方找到3，16-19。4.5.2.2 生成ROC曲线；连接通常，临床数据以两种形式出现：不连续的或连续的。大多数的临床实验室数据是连续的，是从测量仪器中、使用充足的分辨率提供连续的观察到的。电解质，治疗药品，激素，酶和肿瘤表示浓缩物的测量基本上是连续的。另一方面，dipstick，是不连续的数据，快速诊断怀孕检验设备也是一样的，都给出阳性/阴性结果。在诊断比例中也通常提供不连续的（比例）数据，例如“确定不正常”，“可能不正常”，“模棱两可，”“可能正常”和“确定正常”。在实验室数据中的连接，是患病组成员的检验结果与未患病组成员的结果相同。这种连接常常出现在只有几个数据组的时候（例如，几个不同的结果），例如粗略的不连续数据（例如：dipstick 数据），而不是在不同结果数量很大的时候，例如连续的数据。这些结果来源于组的或者“binning”数据到目的大类。在临床实验室里，在观察连续的数据的时候，连接不是很相似（除非有意识的分组到“bins”），理论上说，如果测量足够精确，在连续数据里没有两个人的数据会有相同的结果。因此，临床实验室结果的清晰度经常不是很好，来预防此类情况发生，而且在连续的数据里，也会有连接。进一步说，刻意的将连续数据binning也会增加连接的机会。这种情况是发生在促性腺激素结果被描述为整体数量，即使实验提供的浓度为0.1一个单位。它也发生在所有结果的在间隔组之内时，例如0-50，51-100等等。连接可能是由于刻意的binning of data引起的，也可能是由于分析清晰度等级的观察方法引起的。对于连接和不连接的数据，仅仅绘制计算的（1-特异性，敏感度）点与所有实验中可能的判定临界点（观察值）。（这个可以限制到结果重叠区域的临界值；见4.5.2.1部分）。这些点的图解就是ROC曲线。对于没有连接的数据，临近点可以在水平和垂直线处连接，以独特的方式给出梯状图（见图2，第14页），在临界点改变时，真阳性结果的内含体在判定规则下生成垂直线；假阳性结果的内含体在判定规则下生成水平线。两个组中人数增加时，梯形部分的阶梯变小，图形经常呈现锯齿状。因为ROC曲线是直接使用所有的数据信息，通过使用混合样品的检验结果的等级，也可以被称为是非参数ROC曲线。术语“非参数”这里是的是缺少模拟曲线性质的参数，与参数方法相比，它依赖于有估计参数的模型。在连续数据中有连接时，真阳性和假阳性部分同时变化，导致从最后点的垂直和水平方向上点的错位。连接这些临近点在曲线图上生成对角线（非垂直，非水平）。在ROC曲线上的对角线部分指示出连接。如上所述，为将结果间隔，可能将连接刻意的放入检验结果列中。文献中通常采用的方法是使用几个判定临界点和连接相近点的直线部分来绘制ROC曲线。所有在临界点之间的点都被看做是连接点。尽管这个bin方法在绘制图形方面有优势，但是它舍弃了很多数据并在数据中引入了很多连接。如果点很少并且彼此间距离很远，这种近似值是不准确的，而其可能不代表实际的曲线。4.5.2.3 ROC曲线定性释义有良好的临床性能的检验可以达到高的TPFs(敏感度)，并且有低的FPFs（与高的特异性对应）。有良好的诊断准确性的检验，ROC曲线的点与左上角接近，左上角的位置即为TPFs值高而FPFs值低的位置。检验的准确性很好，可以很好的区分受感染和未受感染的人群， TPF值在一个或多个判定临界点达到1.0（100%敏感度），FPF值是0.0（100%特异性）。这条ROC曲线通过点（0，1.0）于图形的左上角。Thumb的简单原则是，曲线与这个点越接近，临床准确性通常越准确。检验并不区分真正受到感染和未受感染的亚群，ROC曲线在从点（0，0）到（1.0，1.0）有个45度的角度。沿着这条线，TPF和FPF所有的点相等，与判定临界点无关。（见图示2“X”，第14页）。所有检验的曲线都在45度对角线和左上角理想值之间。曲线与左上角越接近，检验的区别能力越高。可视验收曲线提供了直接定性的准确性评价。图示2（第14页）的ROC曲线准确性中等。此处的曲线处于中间位置，在45度对角线和左上角理想值中间。图示3（第15页）的ROC曲线准确性高。注意曲线是如何通过左上角，该处敏感度最高而FPF（1-特异性）最低。图示4（第16页）显示ROC曲线的3个检验结果值都来自于同一人的样本。这提供了准确性的方便的对比。淀粉酶的曲线在上面，磷脂酶（PLA）的曲线在左面。因此，在敏感度（TPF）最高时，淀粉酶的FPF(高特异性)比PLA要低。相反，在FPFs最高时，淀粉酶的的TPF（好的敏感度）比PLA要高。淀粉酶和酯酶有相近的ROC曲线，指出实际上相同的区别能力。两者看起来都比PLA更准确。4.5.2.4 单个ROC曲线下的区域确定实验室诊断准确性的一个简单的方法是用单一数字表示其性能。最常用的测量是在ROC曲线下面的区域。通常情况下，这个区域是0.5（如果不是的话，可以更改判定规则使其为这个值）。值的范围是1.0（完美的区分两组检验值）和0.5（两组检验值之间没有表面分布的不同）。这个区域并不依赖于曲线的特定部分，例如与左上角临近的点或一些选定特异性时的对应的敏感度，而是整条曲线。这是一个定量，说明表达，是关于ROC曲线是如何与完美区域接近的（区域=1.0）。统计师很容易指出，ROC曲线区域作为非参数两个样本统计的Mann-Whitney版本，是有化学家Frank Wilcoxon引入的。例如0.8的区域，意味着从患病组中随机抽取的人员的实验室检验值要比从未患病的组中随机抽取的人员的值大80%。但是这并不是说阳性结果发生的可能性是在0.8或者阳性结果与患病可能性间有80%的几率。在患病组和未患病组之间没有关联时，从曲线中很容易计算出这个区域，因为矩形的数量是在这个图表里的。用于计算这个区域的分析公式可参考Bamber20和 Hanley 及McNeil21的报告。这个区域可以直接从Wilcoxon 的rank-sum统计中获得。计算此区域的参数方法，使用一些模型来适应曲线，在文中也有描述。参数方法和非参数方法在公开评论13，23中都有讨论和比较。在ROC曲线下，在此区域使用国际指标，会有信息的缺失。因此，只考虑区域而没有可视检验ROC曲线本身是不理想的。4.5.2.5 多种检验的统计比较在临床实验室里，多种诊断检验的直接统计比较是很普遍的。通常情况下，在同一项目中，split-sample比较上进行两个（或多个）检验。在单个观察的或者理论上敏感度和特异性方面24-26，检验之间是可以做比较的。可以替代的是，ROC曲线的一部分可以用作是比较检验。27国际方法是使用所有测量，例如曲线下区域来比较整条ROC曲线；这个可以用参数比较，也可以用非参数比较。13 对于实验室来说这个特别有诱惑性，因为其比较并不是建立在特殊判定临界点（应考虑流行和成本trade-off信息）的选择上。因此，使用在比较检验时应经常视觉检查ROC曲线，而不是依赖于区域上，简单的收集信息形成单个的数字。4.5.2.6 其他ROC统计对于需要估计置信区间13的人来说，可以使用参数和非参数的方法来估计在一个点或ROC曲线上点的置信区间。对于被研究（“fuzzy”案例）的客体来说，在“真实的”诊断是不可知的情况下，可以指定给出病人应属于的特定的诊断组，可以构造“fuzzy”ROC曲线。4.5.2.7 ROC13曲线的优点ROC曲线有以下的优点：它简单，使用图表，并且可视化。它综合的代表真正的临床准确性，例如，在检验全部区域的区别能力。它不需要选择特殊的判定临界点因为整个系列的可能的判定临界点都包含在内。它独立于流行：不用获取代表流行的样本，事实上，两种情况下，通常有数量相等的受试者。它在平常的检验间提供了直接的视觉效果。它不需要数据分组或binning,很容易得到特异性和敏感度。4.5.2.8 ROC曲线的缺点ROC曲线有几个缺点：在曲线上不出现实际的判定临界点（尽管它们是已知的并用来产生图形）。受试者的数量并不是曲线的一部分。没有计算机辅助，曲线的生成和分析变得很麻烦。（见附件可以获得软件包）。5 ROC 曲线的使用：临床实验室文献中的案例Van Steirteghem et al 28 比较了肌红蛋白，CK-BB,CK-MB和总CK在区别人是否患有严重的霉菌心肌梗死疾病的准确性，其作为典型的胸腔疾病出现在急诊部门。ROC曲线可以在任何获取样本时间描绘，ROC 曲线可以使用任何样品采集时间来描绘，测量在发病阶段的疼痛的获取的多个、接近连续的血清样品。Leung et al29对总CK和CK-2进行了相似详细的评价，他是在310个有胸痛疾病并接受心脏治疗的病人中进行的。这些作者也使用ROC曲线来描述改变的临床准确性，是在疼痛开始后的不同时间间隔进行的。其他的一些作者也以不同的方式使用ROC曲线。Carson et al30 调查了四种不同的前列腺酸磷酸酶的实验能力，用以区别患有前列腺癌的受试者，或其他患有泌尿系统异常的受试者及确诊的泌尿系统异常的受试者。Hermann et al31 比较了甲状腺检验的商业实验的两个版本的临床准确性，在区分甲状腺机能正常和甲状腺机能亢进方面，新的实验更好一点。Kazmierczak et al32 使用ROC曲线研究酯酶，淀粉酶和磷脂酶A的临床准确性,在区分急性胰脏炎与其他151个连续病人疼痛病状的不同。Flack et al33 shiyong ROC 曲线和区域比较尿自由皮质醇能力和17-羟基类固醇抑制试验区别柯兴病和其他导致柯兴病的病因。Guyatt et al34 研究七个实验的能力，包括铁蛋白，转铁蛋白，饱和，平均细胞量和红血球原卟啉，区别65岁以上受试者被诊断为贫血是因为铁缺乏贫血和其他导致贫血导致的疾病。Beck35,在研究铁缺乏贫血时，也使用ROC曲线比较了4个检验。6 总结在设计研究评价临床准确性检验的第一步是清楚并明确的建立临床目标。基本的一条是确认检验描述的病人管理的结果，以下指南是给临床检验评价或者诊断试验的建议。仔细定义临床问题或目标选择研究的受试者可以代表临床人群可以应用的实验。建议进一步咨询统计学家。对于来自于相同受试者的的相同样本进行所有评价；在其临床过程相同点进行单个受试者的所有检验。归类受试者为“受感染”或“未感染”，或其他相关管理亚群，使用严格完整的方法来确保与真实诊断或成果特别接近。诊断过程在通常的临床实践惯例之外或者广泛使用后续跟踪，可能是因为评价目的要求的。所有分类标准应当独立于检验或者被研究的检验。使用ROC曲线评价和比较临床准确性，关于在判定临界点的敏感度和特异性。15

展开阅读全文

011-GP10-A使用ROC曲线评价临床试验准确度中文

最新文档