第五节 肿瘤标志物的验证和评价指标
肿瘤标志物作为新型生物标志物在肿瘤患者的检测和管理中发挥着越来越重要的作用。一个新发现的候选肿瘤标志物从实验研究推进到临床应用,需要经过四个关键步骤:分析性验证、临床验证、临床价值证明和监管审批。此节主要针对单个标志物的检测,且主要针对前三个步骤进行描述。另外,还对验证过程中常用的指标、应注意的问题、标志物的注册和报告进行阐述。
一、生物标志物检测的分析性验证
(一)分析性验证的必要性
目前每一种肿瘤标志物可能存在多种检测方法,因此有必要开发和验证出针对每一种标志物的特异性检测方法应用于临床检测。如对于血清中的蛋白生物标志物的测定,通常采用定量免疫测定(如全自动ELISA);针对组织来源的生物标志物,主要通过免疫组织化学(IHC)检测其蛋白表达水平,而DNA表达水平则通过原位杂交(ISH)技术进行检测。另外,一些新的实验技术应用于核酸标志物的检测,如单基因、基因组、全外显子测序和全基因组测序技术用于检测DNA变异,RT-PCR(如安可待乳癌基因检测)和microarray(如70-基因标记检测)用于检测mRNA。
(二)分析性验证的评价指标
无论何种检测方式,新的生物标志物检测都需要进行分析性验证,即技术上的验证。分析性验证不仅包括确认生物标志物检测方法的准确性、精确性、特异性、稳健性和稳定性,还包括定量分析方法的评价,如ELISA或qRT-PCR,包括样品稀释、平行度、添加分析物后的回收率和功能的敏感性。相关术语的定义请参见表2-5-1。
然而,对于界定以上变量的界值尚无共识性标准。美国国家临床生物化学研究院指出,对于临床上使用的基于血清的免疫分析,应该将不同批次间检测的变异性(CV)控制在10%以下,同批次内CV控制在5%以下。在临床决策浓度时,可接受的精确度显得尤为重要。对于免疫组织化学检测,再现性通常用K统计量或2名评估人员的一致程度来分析。通常认为,大于等于85%的一致度是可以接受的。关于计量规范的更多信息,可以参阅斯德哥尔摩共识声明(Stockholm Consensus Statement)中关于实验室药物测试质量要求的信息。
对于新型生物标志物检测方法,在其开发过程中,应该相对较早地进行分析性验证,从而确保为临床使用提供必要的准确性和稳健性。为了评估伴随诊断生物标志物(用于评价治疗产品的安全性和有效性的标志物),美国FDA建议开发及验证生物标志物应和其伴随药物研究同步进行。
表2-5-1 肿瘤标志物定量测量方法的分析性验证常用指标

二、生物标志物检测的临床验证
(一)临床验证的评价指标
临床验证是为了确保生物标志物的检测结果可以区分不同的人群,如有无某种疾病,预后是否良好。对于诊断性实验,临床验证通常以诊断其准确性进行报告。用于描述生物标志物检测准确性的指标包括敏感性、特异性、阳性预测值、阴性预测值、似然比和ROC分析。相关术语的定义请参见表2-5-2。
表2-5-2 描述生物标志物检测准确性的指标

注:预测值在使用时应注意适用人群,因为其受患病率的影响。
理想情况下,新的生物标志物应旨在填补临床上关于肿瘤检测和/或患者管理中的一些空白。或者,它至少应该具有目前常用生物标志物不具备的一些优势,以用于解决临床问题,如检测方法更准确、更简单、更快速,能通过减少影像学检查的频率等手段降低花费等。
临床验证比分析性验证更加苛刻和耗时。在临床验证的开始之前,就应该界定使用新的生物标志物的特定情况,如检测肿瘤的类型,以及生物标志物的用途,即是否将其用于早期筛选、辅助诊断、确定预后、治疗预测、患者监测。后一个问题很重要,因为它决定了在临床验证阶段所用的研究对象、统计方法及确定可接受性的标准,所选择的研究对象应该类似于将来应用该标志物检测的目标人群中的疾病状况。
(二)临床验证中的常见问题
1.偏倚
临床验证中一个最常见的问题,就是在诊断研究中各组之间比较时产生的偏倚或系统差异,例如患者组和对照组。偏倚是指从研究设计、实施到数据处理和分析的各个环节中产生的系统误差,以及结果解释、推论中的片面性,导致研究结果与真实情况之间出现倾向性的差异,从而错误地描述标志物与疾病之间的联系。因此,偏倚的存在可能会产生与临床实际无关的阳性结果,导致结果的不可再现。为了消除标志物临床验证研究中的偏倚,建议进行巢式病例对照研究。在确定诊断之前,前瞻性地收集样品,采用盲法回顾性评估(prospective specimen collection,retrospective blinded evaluation,PRoBE),在获得结局数据之后,再从研究对象中选择病例和对照样本。这种回顾性和随机性方法最大限度地减少了基线不对等的问题,由于在不了解疾病状态或结局的情况下收集样本,对于研究对象和样本的选择才是完全客观的。此外,对病理和对照样品进行类似的处理,也有助于消除系统偏差。PRoBE设计可用于筛选、诊断和预后生物标志物的评估。
2.过度拟合
在蛋白质组学和基因组学的研究中,通常对小样本患者的数千个变量进行同步测量,所产生的海量数据被用于对疾病进行建模。这些模型随后又被用于预测各种临床参数,如生存时间。一些基于回归的统计方法通常被用于多变量建模,但变量的数量是通过高通量技术产生的,它远远超过了所检测样本的数量,因此易于产生过度拟合,这可能导致不能再现研究人群中所获得的预测模型结果。也就是说,通过一个研究人群所推导出来的一种模型,在另外一批不同的人群中可能无法得到验证。不过,适当地进行内部和外部的验证研究可以避免这种模型过度拟合。
3.多样性
除了在调查大量生物标志物时可能出现的问题之外,由于其他多样性的存在,还可能出现进一步的统计问题,如疾病分层分析和使用几个不同研究终点(总生存期、无进展生存期、客观反应率、反应持续时间)。多样性是普遍存在的,但在实际工作中经常被忽视或不进行报告。为了最大限度地减少多样性的潜在问题,必须先设计操作流程,然后根据研究目的和方法进行研究。并且,所有计划进行的步骤和已完成的步骤都应进行报告。
三、临床价值证明
(一)临床价值证明的重要性
分析性验证和临床验证还不足以将一种肿瘤标志物检测应用于临床。除以上要求之外,生物标志物检测还应该具有临床价值(效用),即进行检测的患者较不进行检测的患者有更好的预后。尽管大量的生物标志物经过了分析性验证和临床验证,但只有少数的标志物被证实具有临床价值。在将来的研究中,应将对新的肿瘤标志物的临床价值评价作为其进入临床实践的必要条件。此外,建议将有临床价值的标志物检测费用纳入医保范畴。
(二)获得标志物临床价值证明的方法
1.前瞻性研究
对于一种生物标志物或生物标志物谱的检测,如果有高水平证据,表明进行检测的患者较未进行检测的患者有更好的预后,就可以证明其具有临床价值。为了较理想地证明标志物的临床价值,就必须表明生物标志物的检测有助于临床管理,提高疾病的总体生存率,而不会对患者产生不良影响。为了达到这一结果,需要对大样本量患者进行研究,昂贵且耗时。因此,其他一些生存测量指标被广泛应用,包括延长无疾病间隔时间;降低护理成本(如由于早期诊断,减少住院或门诊患者就诊次数;更少的侵入性处理手段;更少使用有毒性的疗法以提高生命质量)。但是,目前针对这些生存测量指标尚无可被广泛接受的定义。例如,一种生物标志物的检测是否应该使某种治疗方法延长患者存活期3个月,6个月或更长时间。
临床价值的证明,无论是临床意义,还是统计学意义,最基本要求是使患者获得足够大的益处。达到这个目的理想做法是,进行高级别的证据等级(level of evidence,LOE)的研究,即LOE Ⅰ研究。获得LOE Ⅰ证据的金标准是在前瞻性随机试验中进行生物标志物的检测,而且生物标志物的评价是该研究的首要目的。前瞻性随机试验的设计取决于生物标志物的预期用途。如果评价用于疾病筛查的生物标志物,目标人群中被检测出具有或不具有感兴趣的生物标志物是随机的。预后生物标志物应该在未接受系统辅助治疗的患者中进行评估,如果无法达到这个要求,至少应该选择接受标准治疗的肿瘤患者。尽管在分析性验证中,采用统计功效足够高且没有偏倚的回顾性研究也可以被接受,但是最好还是要进行前瞻性研究。
2.前瞻-回顾性研究
虽然在随机前瞻性研究中进行验证,一直被认为是用于证明临床价值的金标准方法,但这种方法耗时,需要大量研究参与者,并且价格昂贵。如果没有条件在随机前瞻性研究中进行验证,而在先前已经完成的前瞻性研究中,进行前瞻-回顾性研究以采集标本,也可以实现LOE Ⅰ证据。但是,使用这种方法时有一些注意事项,研究者必须确保满足以下条件:
(1)必须有足够量的可用的组织标本以满足统计学效力的要求(建议在相关的前瞻性研究中,至少三分之二的研究对象可以用于肿瘤标志物的检测)。
(2)参加生物标志物分析的研究对象能够代表参与前瞻性研究的人群。
(3)前期已经利用档案组织标本对生物标志物进行了严格的分析前验证和分析性验证。
(4)在对档案组织进行检测之前,应事先确定标志物评价的标准流程(包括样本量和统计学检验)。
(5)使用至少一个相关临床试验对档案样本获得的结果进行验证。
3.系统回顾研究
获得新型生物标志物的LOE Ⅰ证据的另一种方法是对文献进行系统回顾,然后进行Meta分析或汇总分析。理想的系统回顾应包括已发表和未公布的数据,可获得的个体患者的数据,以及验证分析的研究结果。纳入未发表的研究数据尤为需要,因为这样可以减少可能的发表偏倚,一般来说阳性结果的研究比阴性结果的研究更有可能发表出来。有文献指出,临床有效性的Meta分析应该和系统评价结合起来进行。评估独立研究质量的综合检查表诊断准确性研究的质量评估(quality assessment studies of diagnostic accuracy,QUADAS)已经出版,当进行标志物检测准确性研究的系统回顾时应该用该表格进行评价。
四、生物标志物研究的注册和报告
(一)进行生物标志物研究注册和报告的必要性
目前许多生物标志物研究的设计和报告质量很差,原因包括缺乏患者和对照选择和/或样品处理选择的详细信息,检测方法质量不高,样本数量不足,以及统计学分析不恰当。优先发表阳性结果所产生的发表偏倚也是一个原因。研究发现几乎所有已发表的关于预后标志物的报告都是阳性结果。
为了解决这个问题并提高生物标志物研究的质量,Andre等建立了一个标志物注册系统,并呼吁研究者进行生物标志物研究的注册。该注册数据库目的是给研究者提供肿瘤标志物相关的已完成和正在进行的研究数据,并使研究人员能够明确哪些为已完成但尚未发表的研究。重要的是,该数据库还纳入未发表的具有阴性结果的生物标志物研究,这有助于减少汇总分析研究和系统评价中的偏差。强烈建议进行LOE Ⅰ证据的标志物试验的研究人员在上述数据库或相关数据库进行注册和登记。
(二)生物标志物研究注册和报告常用指南
通过改善研究报告的内容,也可以提高生物标志物研究的质量和透明度。许多医学期刊编辑呼吁在临床生物标志物研究报告中对实验方法和样品处理进行全面描述。这些信息应包括所分析的样本类型及如何收集和存储样品,分析用的仪器和使用方法,在研究过程中的分析性能(例如,不精确,可报告的范围)及参数的可信区间。所有相关的原始数据也应公开提供,以便其他的研究人员对其数据进行重新分析和重新解释。
表2-5-3列举了近年来已发表的一些补充指南和清单。从初步研究到随机试验,进行所有水平的生物标志物研究,都强烈建议遵循这些指南。无论作者、编辑,还是审稿人,都需要遵循指南里的这些标准。
表2-5-3 肿瘤标志物研究相关报告规范

注:BRISQ:Biospecimen Reporting for Improved Study Quality;
STARD:Standards for the Reporting of Diagnostic Accuracy Studies;
REMARK:Reporting Recommendations for Tumor Marker Prognostic Studies;
MISFISHIE:Minimum Information Specification For In Situ Hybridization and Immunohistochemistry Experiments;
QUADAS:Quality Assessment of Diagnostic Accuracy Studies。
五、小结
综上所述,本节全面阐述了肿瘤标志物验证的关键步骤,从分析性验证和临床验证到临床有效性证明,以及报告(出版)和注册,并最终在临床实践中采用。可以看出,开发一种临床可用的生物标志物是一项长期而昂贵的任务,需要研究人员、医师、临床实验室、生物统计学家、监管机构,以及诊断和制药公司多方面人员进行多学科合作。在将来的工作中,严格地应用以上介绍的这些方法和规则,可以帮助研究者更加高效、有效地开发肿瘤标志物,以使利益相关者受益,特别是患者。
(代丽萍)