第六节 临床生化检验项目的临床应用评价

任何一个生化检验项目用于临床之前都必须经过方法评价和临床应用评价。方法评价主要是解决技术问题,明确方法的测量误差,即检验项目的方法是否准确可靠。该检验项目能否用于临床,还必须通过临床应用评价。临床应用评价主要是评价其临床应用的效能(efficiency),换句话说,评价该检验项目在临床诊断和治疗决策中到底能起多大作用。

诊断试验(diagnostic test)是对一种新的诊断方法,包括症状、体征、检验和特殊检查的评价。诊断性能评价是评价一个检验项目在判断受试者“有病”与“无病”的能力。临床上已经建立了一系列诊断试验的研究和评价方法。

一、诊断准确性评价指标

诊断准确性(diagnostic accuracy)对临床来说是至关重要的,临床上有一系列指标来评价诊断准确性,包括灵敏度和特异度、预测值、ROC曲线以及似然比等。

(一)灵敏度和特异度

用于诊断的任何试验必须具备敏感性和特异性两个基本特征,二者缺一不可。

1.灵敏度(sensitivity, Se)

即真阳性率(true positive rate,TPR),是用“金标准”判断为患病的人中,诊断试验为阳性者的百分比。它反映的是使用该试验可以检出某种疾病的性能。

Se(TPR)=TP/(TP+FN)×100%

1-Se称为假阴性率(false negative rate,FNR),即在“金标准”判断为患病的人中,诊断试验为阴性者的百分比。

2.特异度(specificity, Sp)

即真阴性率(true negative rate,TNR),用“金标准”判断为无病的人中,诊断试验为阴性者的比例。它反映的是使用该试验不致将非本病误诊为本病的性能。

Sp(TNR)=TN/(TN+FP)×100%

1-Sp称为假阳性率(false positive rate,FRP),用“金标准”判断为无病的人中,诊断试验为阳性者的比例。

3.诊断试验结果与疾病的关系

理想的诊断试验应该具有绝对的敏感性和特异性,阳性只出现在患有本病的患者中,不存在本病的一定是阴性。但是,在目前的条件下,由于存在生物个体差异和疾病过程的多样性,对于绝大多数诊断试验而言,患本病与未患本病的受试对象检查结果分布总是有不同程度的重叠现象(图1-5)。也就是说,大部分本病患者检验结果呈阳性,即真阳性(true positive,TP),但有少部分呈阴性,即假阴性(false negative,FN);而未患本病的大部分呈阴性,即真阴性(true negative,TN),但有少部分为阳性,即假阳性(false positive,FP)。这种交错分布关系常用四格表来表示(表1-14)。

4.诊断临界点水平与敏感度和特异度

对于某些诊断试验,如果健康人的分布与患者的分布没有重叠,这时假阳性和假阴性均为0,这是一种理想的模式,目前还没有这样的检验项目。实际上,许多检验项目在健康人和患者间结果分布是交叉的,此时确定诊断临界点就非常重要。诊断临界点(cutoff point)就是指诊断试验中用以划分阳性和阴性的分界值,因此又称为诊断临界值(cut-off value)。

图1-5 患本病与未患本病的受试对象检查结果分布

表1-14 临床检验诊断试验评价中的四格表

如图1-5所示,当诊断界值向右移时,假阳性减少,假阴性增加,灵敏度降低,而特异性增加;反之,当诊断界值向左移动时,假阳性增加,假阴性减少,灵敏度增大,而特异度减少。由此可见,诊断界值的高低直接影响检验项目的诊断评价。

划分诊断临界点的总原则是选择能够区分本病患者与非本病患者的最适水平。在实际工作中,通常依据该指标在本病患者与非本病人群的试验结果的不同分布情况,采取不同的诊断临界点确定方法。对于试验结果分布重叠面积较小,如假阳性与假阴性面积均接近5%左右时,可将重叠区的中间值定为诊断临界值,如肿瘤标志物的检测项目,相当部分属于这种情况。对于试验结果分布重叠面积较大,如血中激素及其他生物活性物质的含量,大多属于这种类型,可采取设立两个诊断临界点的办法,在两个诊断临界点之间属于可疑区间,应改用其他试验或定期复查的办法。另外,在确定诊断临界点时,还应考虑检验项目是用于筛查、诊断、疗效,还是预后等不同临床目的。作为筛查指标,其敏感度要求较高;而作为诊断指标,其特异度要求较高。如前列腺特异性抗原(PSA)在前列腺增生和前列腺癌时均出现升高,但是提高诊断临界值,如从4μg/L升高到10μg/L,可以提高前列腺癌诊断的特异度,但是降低了其敏感度(图1-6)。

(二)概率性指标

对于诊断试验结果的判断,一般认为阳性表示本病存在,阴性表示本病不存在。实际上,由于诊断试验的局限性,这种看法是不准确的。在大多数情况下,诊断试验阳性只代表本病存在的概率增加;阴性仅仅代表非本病的概率增加。因此,引入一些概率性指标可以更全面地评价检验指标的诊断性能。

1.患病率(prevalence, P)

指某特定时间内总人口中某病新旧病例所占比例。患病率通常用来表示病程较长的慢性病的发生或流行情况,如冠心病、肺结核等。例如通过对患病率的分析,年龄超过50岁男性患前列腺癌的概率大大增加。患病率也称为验前概率(pre-test probability)。

2.预测值(predictive value, PV)

表示诊断试验能作出正确判断的概率。有阳性预测值和阴性预测值之分。预测值也称为验后概率(post-test probability)。

(1)阳性预测值(positive predictive value, PPV):

指某检验项目的真阳性在全部阳性病例中(真阳性和假阳性)所占比例。确定患病的把握度。

PPV=TP/(TP+FP)

图1-6 前列腺特异性抗原两个不同诊断临界点与前列腺癌的诊断

(2)阴性预测值(negative predictive value, NPV):

指某检验项目的真阴性在全部阴性病例中(真阴性和假阴性)所占比例。排除患者真正无病的把握度。

NPV=TN/(TN+FN)

预测值受诊断试验本身敏感度和特异度的影响。在相同患病率时,随着灵敏度的升高,阴性预测值上升;随着特异度的升高,阳性预测值上升。另外,当灵敏度和特异度一定的时候,预测值受患病率的影响。随着患病率的增加,阳性预测值提高而阴性预测值下降;随着患病率减少,阳性预测值下降而阴性预测值提高。

3.比值比(odds ratio, OR)

指人群中患某种疾病的概率与不患此疾病的概率之比。它反映的是特定疾病在人群中的患病率。

比值比=患某种疾病的概率/(1-患某种疾病的概率)

4.似然比(likelihood ratio, LR)

LR是反映真实性的一种指标,属于同时反映灵敏度和特异度的复合指标。即患病者中得出某一筛检试验结果的概率与无病者得出这一概率的比值。因检验结果有阳性与阴性之分,似然比可相应地区分为阳性似然比(positive likelihood ratio,PLR)和阴性似然比(negative likelihood ratio,NLR)。

PLR=TPR/FPR=Se/(1-Sp)

NLR=FNR/TNR=Sp/(1-Se)

LR可用于评价诊断试验区分“有病”和“无病”的能力。LR为1,说明没有诊断价值。PLR越大,说明其诊断价值越大。NLR越小,其排出价值越大。当PLR > 10或NLR < 0.1时,非常有价值。

5.验后概率(post-test probability)

验后概率是指某一诊断试验结果为阳性时,预估该患者患某病的概率。根据贝叶斯定理(Bayes’theorem),事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的。然而,这两者是有确定的关系,贝叶斯定理就是这种关系的描述。贝叶斯定理是关于随机事件A和B的条件概率的定理,其公式如下:

p(A|B)=[p(B|A)p(A)]/p(B)

在诊断试验评价中,假设A代表某种疾病,B代表检测阳性结果,p(A|B)代表检验结果为阳性时疾病发生的可能性,即验后概率;同样,p(B|A)代表疾病发生时检验结果阳性的可能性,即诊断试验的敏感度;p(A)是不考虑任何B的因素时的概率,即该疾病的患病率(P),也称为验前概率(pre-test probability);p(B)是不考虑任何A的因素时的概率,即检测阳性结果的总概率。于是,贝叶斯公式可转化成:

p(A|B)=[Se×P]/[Se×P+(1-Sp)×(1-P)]

(三)受试者工作特征曲线

受试者工作特征曲线(receiver operator characteristic curve,ROC曲线)是以敏感度为纵坐标,1-特异度为横坐标作图所得的曲线(图1-7)。ROC曲线反映了灵敏度和特异度间的平衡,通过ROC曲线,可以观察敏感度和特异度之间的关系,一般来说,敏感度增高,则特异度降低,反之亦然。

理论上说,一个完美的诊断试验的ROC曲线需要通过左上角,左上角代表敏感度是100%,假阳性率是0,称为完美位点。这样的诊断试验可以区分所有的患者和非患者。如果一个诊断试验的ROC曲线是一条从左下角到右上角的直线,称之为机会线,则说明这个诊断试验的敏感度和特异度均为0,完全没有能力区分患病还是无病,说明是无用诊断试验。

图1-7 受试者工作特征曲线

ROC曲线下面积(area under curve,AUC)是试验准确性的重要指标。在ROC曲线内,如果曲线沿着左边线,然后沿着上边线越紧密,则试验准确度越高,如果完全一致,说明是完美试验;如果沿着机会线越紧密,则试验准确度越低。

ROC曲线的应用主要包括:①确定诊断试验的临界值:ROC曲线上距离完美位点最近的点对应的值;②诊断效率分析:利用ROC曲线的曲线下面积来评价不同检验项目或者不同检测方法对某种疾病的诊断价值,AUC越大,其诊断价值就越大;③对检验结果进行评价:从ROC曲线可知,诊断试验的灵敏度和特异度随着诊断临界点的升高或降低而发生变化,而且预测值也随之发生改变。

二、评价检验项目诊断准确性的方法

(一)确定研究目标

检验项目的临床评价必须明确研究目标,包括评价的项目、观察的内容、研究的临床意义等。应特别注意一些影响研究目标实现的因素,如临床研究设计方案,meta分析最优,随后是随机对照试验、病例-对照试验等。

(二)确定诊断试验的“金标准”

“金标准”(gold standard)指当前临床医学界公认的诊断疾病的最可靠、最准确、最好的诊断方法,包括组织病理学检查(活检、尸检)、手术发现、影像诊断、病原体的分离培养和长期随访所得的结论等。

(三)试验对象的选择和样本量的确定

纳入研究的受试对象包括两组,一组是被“金标准”诊断为患有某种靶疾病的病例组,另一组为“金标准”确定为无病的对照组。受试对象的选择应有广泛的代表性,而且样本量也应该足够,否则影响结果的真实性。

(四)诊断试验的数据简化

将诊断试验的数据根据不同的临床目的分成阳性(患病)和阴性(无病)两类,列四格表,四格表是诊断试验分析和评估的基本形式。

(五)盲法比较诊断试验结果

诊断试验与“金标准”诊断应同期进行,诊断试验研究者应该不知道“金标准”的诊断结果或临床信息。

三、提高检验项目诊断准确性的方法

除症状体征外,实验室检验也是临床诊断的重要依据。对于每个患者,不仅面临如何选择诊断试验,而且涉及如何提高诊断试验准确性的问题。

(一)提高诊断试验的预测值

由于预测值是由敏感度、特异度和检前拟诊率三者共同确定的,因此在面对具体受检对象时,每项诊断试验的预测值不仅取决于该试验的敏感度和特异度,而且与检前拟诊率有关。所谓检前拟诊率(pretest likelihood of disease),在流行病学调查与健康普查中,就是该人群中本病的患病率;对于每个就诊患者就是根据病史、症状、体征及其他检查,初步估计本病存在的可能概率。通过提高检前拟诊率,可以提高试验的预测值。

1.设立专科门诊

医院设立专科门诊或针对某一疾病的门诊,必然使就诊人员中患有此类疾病的检前拟诊率大大提高。

2.选择高危人群

许多疾病的患病率与性别、年龄等因素相关。如女性胆囊炎的患病率是男性的3倍,65岁以上的男性比30岁以下的大15倍。汽车司机的消化道溃疡发病率是办公室人员的3倍。许多疾病与遗传相关,如有糖尿病家族史的人群糖尿病的患病率较普通人群高。某些疾病的发生与生活习惯及嗜好有关,如吸烟者易患慢性支气管炎,肺癌患病率也比普通人群高,经常酗酒的人易患肝硬化。此外,有些疾病的发生率与职业相关。因此,针对高危人群进行检查,其诊断预测值可以得到提高。

3.选择有特殊临床表现的人群

特殊的临床表现是决定选择何种诊断试验的重要依据,因此根据试验目的,有意识地选择具有特殊临床表现的人群,可以提高试验诊断效率。同样是“胸膜炎”的症状,如果有口服避孕药史并伴有小腿肿痛,则患肺栓塞的可能性大,否则可能性极小。

(二)应用联合试验

在临床实践中,很少根据一个试验或检查的结果肯定或否定某一诊断。为了确定诊断,往往需要采用多个诊断试验,以提高诊断的敏感度和特异度。

1.并联试验

同时作两个或多个诊断试验,故又称平行试验(parallel test)。在并联试验时,只要这些试验中的任何一个呈阳性,即被接受为阳性;两个或多个均为阴性,才接受为阴性。并联试验提高了诊断的灵敏度,降低了特异度。并联试验一般用于需尽快做出诊断的情况,如危重患者的确诊等。

2.串联试验

采用一系列诊断试验,故又称系列试验(serial test)。在串联试验中,要求每一个试验均是阳性,才被接受为阳性;其中有一项为阴性,即被视为阴性。这种联合提高了特异度,降低了敏感度。凡无需急速作出诊断的情况均可采用串联试验,如一些慢性病或者是进展性疾病。

(三)灵活运用临界点

对于绝大多数诊断试验,其灵敏度和特异度均非100%,由于临界点不同,同一试验的敏感度和特异度也是不同的。如果为了筛选或排除某一疾病,应该用高敏感度但特异度相对较低的临界点;如果为了确诊某一疾病,则必须采用高特异度但敏感度相对较低的临界点;在急于做出基本诊断的情况下,便可运用灵敏度、特异度兼顾的临界点。

(四)注意临界点的个体化

制定参考范围是从总体考虑的。但由于个体差异的存在,一项检验结果虽然在群体参考范围之内,可能已经反映了病理过程,因此临床工作者必须注意参考范围的相对性。在诊断学上,个体参考值更有价值。遇到具体患者,医生可将就诊时的检查结果与他(她)过去健康状态良好时的检查数据(个体临界点)相比较。

(五)进行动态观察

重复检查,进行动态观察,这样相互对照参考,便可以了解病理过程的变化。对于可疑疾病或某些慢性疾病进行定期检查或长期观察,提高试验诊断的准确性。

四、诊断试验的成本效率分析

价-效医学(cost-effective medicine)就是让患者花较少的钱而得到有效治疗,这已在全世界引起政府部门以及医务人员的广泛重视。价-效医学是一整套诊断、治疗策略,目的是用最低的费用达到治疗目的。因此,在临床生化检验项目的临床应用评价也应注意进行成本效率分析,为降低疾病诊断的费用做出努力。

(黄 玥)