第五节 测量方法选择和评价

近年来,临床生物化学检验发展迅速,新的项目、新的方法以及与测定方法有关的新仪器、新的试剂盒不断涌现,许多旧的方法正在逐步淘汰。因此,每个临床实验室都必须根据临床要求和实验室的条件,选择合适的测量方法。对于实验室所选择的方法,无论文献报道如何详细,最好都通过本实验室进行评价试验才能用于临床。一个测量方法的特性主要是误差的大小,方法本身的误差是不能通过质量控制加以限制的。测量方法的评价(evaluation of measurement methods)就是根据临床需要,通过实验途径来测定误差、分析方法的技术性能,并评价其可接受性。其目的在于明确候选方法的误差大小、分析其是否能够满足临床的需要。一个新的测量方法应用到常规检验之前必须对其性能进行完整的评价,包括一系列方法评价步骤(图1-4)。

图1-4 临床检验方法评价流程

美国临床和实验室标准化协会(CLSI)制定了一系列与方法学评价有关的文件:如EP5-A——临床化学设备操作精密度评价;EP6-A——定量分析的线性评价;EP7-A——临床化学干扰试验;EP9-A2——用患者样本进行方法对比及偏差评估;EP10-A2——定量临床实验室方法的初步评价;EP12-A——定性实验评价;EP14-A——基质效应的评价;EP15-A——精密度和准确度性能应用;

EP17-A——确定检测低限和定量检测限的方案等。

一、临床需求和方法性能标准

(一)新的测量方法进入常规检验的原则

方法的选择和评价必须始于临床需要,包括①临床医生建议增加新的诊断试验;②新的方法与已经采用的方法相比,能够改进方法的准确度或/和精密度;③新的方法在TAT、费用、劳动强度、环境保护等方面能够得到改进。

(二)方法性能标准

为了客观地选择和评价候选方法,必须根据临床需要首先确定性能标准。性能标准(performance standard,PS)也称分析目标,是根据不同的应用目的(筛选、诊断、预后、监测)而采用不同的允许误差。一般由医学决定水平和允许总误差这两项内容决定。

1.医学决定水平(medical decision level)

是临床判断结果具有临床意义的被分析物浓度,用XC表示。对于每一医学决定水平都应规定相应的性能标准,即在一定XC值下的TEA值。

2.允许总误差

(1)总误差(total error, TE):

测定结果与真值的差异,是随机误差和系统误差的总和。可用TE=1.96s+Bias表示(95%允许误差限)。

(2)允许总误差(allowable total error):

所选用的检测方法的总误差必须在临床可接受的水平范围内,只有这样的检测方法才能用于临床常规检测。上述所指的临床可接受的水平范围,即为允许总误差,用TEA表示。

(3)允许总误差的制定:

制定允许总误差既应反映临床应用的要求,又不能超过实验室所能达到的技术水平。因此,需要由临床医学家和临床化学家共同研究制定。Tonks于1963年从理论上研究此问题,提出根据参考值与参考值范围而设定,其公式是:允许总误差(%)=(1/4)[(参考值上界-参考值下界)/参考值均值]×100%。目前一般根据生物学变异制定标准或者以室间质量评价的准则作为分析质量的要求。例如国际上推荐根据生物学变异制定不精密度标准。生物学变异(CVB)包括个体内变异(CVI)和个体间变异(CVG)。通过生物学变异可以导出临床实验室检查项目的不精密度、不准确度和总误差等性能参数。在实际应用中,生化检验项目通常参考美国实验室改进法案(CLIA’88)中能力验证推荐的允许总误差。我国国家卫生健康委员会临床检验中也推荐使用上述标准。

二、候选方法的选择和改进

方法选择的目的是将精密度和准确度符合临床要求,快速、简便,而且成本低的分析方法应用到临床生物化学检验。对所选择的方法可以根据临床需求和自身实验室的技术条件进行改进。

(一)方法选择的原则

IFCC认为,常规方法应具有适用性和可靠性两方面的性能指标。适用性指一般应具备微量快速、操作简便、费用低廉、安全可靠等特点;可靠性指一般具有较高的精密度和准确度,以及较大的检测能力。至于某一项具体分析方法所应具有的性能标准,可由临床化学家根据采用这一试验的目的决定。

(二)测量方法选择的程序

1.提出要求

为满足临床需要实验室根据设备条件、人员技术水平等具体情况提出某项新的检测方法,或为提高实验诊断准确度和灵敏度对实验室的方法性能进行改进,提出检测方法要求的设想。

2.收集资料

在本实验室工作基础上,查阅相关文献等资料,充分了解各种方法特点,根据方法选择的要求对已发表的各种检测方法进行比较与检验,确定哪些方法有充分的科学根据及真实的使用价值。

3.选定候选方法

初步选定所采用的方法即候选方法。候选方法确定后,要熟悉该法的原理、性能指标及相应的条件等。

4.进行初步试验

即评价候选方法所有的性能指标。通过初步试验使分析工作人员熟悉有关技术;掌握各分析步骤的特征,操作是否可以改进或简化,实验中得到的一切资料用于确定是否有必要作进一步的研究。如需要在技术上进行某些改进,应在评价试验前做好。

三、测量方法性能确认和实施

(一)方法评价试验

1.测量正确度(measurement tureness)

简称正确度(tureness),无穷多次重复测量所得量值的平均值与一个参考量值之间的一致程度。表示测量结果中系统误差大小的程度。用偏倚(bias)表示。测量正确度不是一个量,不能用数值表示。测量正确度与系统测量误差有关,与随机误差无关。应特别注意的是术语“测量正确度”不能用“测量准确度”表示,反之亦然。评价正确度的方法:①与参考方法比较;②与标准物质比较:如回收试验;③与标准实验室比较:如实验室间比对或能力验证。

2.测量精密度(measurement precision)

简称精密度(precision),是在规定条件下,对同一或类似被测对象重复测量所得示值或测得值间的一致程度。规定条件可以是重复性测量条件、中间精密度测量条件或复现性测量条件。测量精密度通常用不精密程度以数字形式表示,如在规定测量条件下的标准偏差、方差或变差系数。一种好的定量分析方法,首先应该具有较高的精密度。精密度反映的是随机误差。“测量精密度”不能代表“测量准确度”。

测量精密度可以用于定义测量重复性、中间测量精密度或测量复现性。

(1)测量重复性(measurement repeatability):

简称重复性(repeatability),它是同一实验室、相同条件、同一操作人员在短时期内测定所得结果的精密度。

(2)中间测量精密度(intermediate measurement precision):

简称中间精密度(intermediate precision),也称为室内精密度,它是同一实验室、不同条件、不同操作人员在较长时间所得结果的精密度。

(3)测量复现性(measurement reproducibility):

简称复现性(reproducibility),也称为室间精密度,它是不同实验室、不同条件、不同操作人员所得结果的精密度。

一般用批内精密度、日内精密度或批间精密度、日间精密度表示。当测定样品的精密度要求不明确时,可通过与标准方法或文献方法的精密度比较,判断该定量分析方法的相对优劣。

3.测量准确度(measurement accuracy)

简称准确度(accuracy),被测量的测得值与其真值间的一致程度。概念“测量准确度”不是一个量,不给出有数字的量值。当测量提供较小的测量误差时就说该测量是较准确的。一个检验方法用于测定标本时测定值与标本中所含的该成分的真值一致或接近,则说明该方法的准确度好;相反,准确度就差。在实际工作中,不可能得到标本中某待测物质的真值,常用决定性方法、参考方法、可比较的方法均值、参考实验室均值,以及同组的均值来表示“真值”。

临床生化检验中,精密度是基础,一个方法精密度不好,即使是正确度高,也不能用于临床。准确度包含了检测结果正确度和精密度两方面的要求。常用误差表示。一个检验方法,良好的准确度来自良好的精密度和正确度。误差(TE)可以通过计算获得:

TE=|B|+1.65CV(90%置信区间)

TE=|B|+1.96CV(95%置信区间)

4.检测能力(detection capability)

它是指临床检测系统或者方法对低浓度分析物的分析能力。可用3个参数评价:①空白限(limit of blank,LOB):测量空白样本时可能得到的最高检测结果。表示方法:空白样本测定20次,得到的标准差(SD)乘以3。②检测限(limit of detection,LOD):又名检测低限(lower limit of detection,LLD),检测方法可检测出的最低被测物浓度。③定量限(limit of quantitation):指在精密度和正确度可接受的情况下,检测系统能够得到可靠结果的被测物最低浓度。一般来说,LOB、LOD和LOQ的关系应符合LOB < LOD≤LOQ。

灵敏度与检验报告有着密切的关系:①如果检测结果低于LOB,检验报告应为“分析物未检出(阴性)”;②如果检测结果介于LOB和LOQ之间时,检验报告应为“检出分析物,浓度小于LOQ值”,同时提示临床医生有高不确定度的可能;③如果检测结果大于LOQ,检验报告应为“检出分析物(阳性)”,临床医生可以放心使用结果用于临床诊断和治疗。

5.分析范围(analytical range)

又称线性范围(linearity range),是指检测信号(响应值)与样品浓度成线性关系时对应的样品浓度范围。理想的定量分析方法应该具有较宽的线性范围。通常把响应值相当于10倍空白响应值标准偏差的样品浓度定为方法线性范围的下限,工作曲线上端弯曲处对应的样品浓度作为方法线性范围的上限。也可以利用系列标准溶液进行实验,对实验数据进行统计分析,求得线性范围。

临床可报告范围(clinical reportable range)是指患者样本经过预处理(稀释或浓缩等),检测方法能够测定出的待测物的浓度(或活性)范围。它是根据方法的分析范围确定的。临床生物化学检测时,可通过样本稀释或浓缩等方法使得待测物浓度在分析测量范围内,否则,测定的准确度将得不到保证。

6.分析特异性(analytical specificity)

简称特异性(specificity),用于描述检测程序在样本中有其他物质存在时只测量被测量物的能力。特异性与准确度相关,例如GOD法检测葡萄糖,只对葡萄糖起反应,其他类似的己糖如半乳糖、果糖等均不参加反应,显示酶对底物的高度特异性。邻甲苯胺法对葡萄糖的特异性略差,因为它对其他糖也有弱反应,使结果略偏高,但因临床上存在其他糖的机会很少,故影响不严重。其他如胆红素、血红蛋白和脂类等由于导致颜色、浊度和其他特征的改变而致潜在的误差,称为干扰(interference)。应通过干扰试验等进行评价,包括不同干扰物和交叉反应物。

7.基质效应(matrix effect)

基质(matrix)指的是样品中被分析物以外的组分。基质效应是指基质对分析物的分析过程有显著的干扰,并影响分析结果的准确性。例如,血清/血浆成分对于待测物。去除基质效应的方法:通过已知分析物浓度的标准样品,同时尽可能保持样品中基质不变,建立一个校正曲线(calibration curve)。

8.参考区间的确立和应用

医学中的参考区间(reference interval)指在特定条件下,对健康人群抽样的个体进行某个检验项目测定,其测定值分布的一个百分位数区间。通常包括抽样的95%的参考个体。参考区间也称参考范围(reference range),是指从选择的参考群体上获得的所有检验结果,用统计方法建立界限时所得到的范围。

(1)参考区间的确立:

临床实验室应为检验项目提供可靠的参考区间,才能使临床对健康普查者的检验结果作出判断,对患者的检验结果有大致的了解,从而发挥检验报告的作用。因此,获得检验项目的可靠的参考区间是实验室的重要任务。

参考区间建立的步骤包括:①选择参考个体,组成参考人群;②由参考人群选定参考样本组;采集处理样品;③通过测定参考样本组的样本,获得参考值;④统计分析参考值,明确参考分布;⑤计算参考限,建立参考区间。

(2)参考区间的表示:

参考区间常见有两种表示方法,包括①双侧参考限:参考下限~参考上限(通常包括抽样的95%的参考个体)。如果呈正态分布,则是“均值±1.96标准差”,如果偏态分布,非参数统计,用P2.5~P97.5表示。②单侧参考限:根据检验结果的临床意义确定,一般采用参考上限(upper reference limit,URL),如ALT的参考上限为40U/L。

(3)参考区间的转移和验证:

临床实验室给临床提供检验项目可靠的生物参考区间,才能使临床对患者或健康体检者的诊断治疗有明确的指引。临床实验室必须保证给临床提供的生物参考区间正确适用,否则会导致误诊,甚至错误的治疗。一般采用以下两种方式确立不同临床实验室的参考区间:

①参考区间转移(transference of reference interval):当某一检验项目检测方法改变时,将原参考区间进行转换的过程。一般需要进行方法对比研究。

②参考区间验证(validation of reference interval):将其他参考区间用于本地或者本实验室的过程。

一般来说对于已经使用的检验项目,实验室可以采用行业标准、教科书、其他实验室或者厂商已经建立的参考区间。但是,需要进行参考区间转移的可比性评估,评估内容主要包括两个方面:检测系统的可比性和受试人群的可比性。

(4)参考区间的应用:

生物参考区间是临床判断健康与否的标准,是解释检验结果、分析检验信息的一个基本尺度和依据。参考区间的使用应该注意以下问题:①参考区间是一个统计学概念。根据参考区间的定义,有5%的健康人群排除在外,因此一个健康人在某项检验中出现异常结果的概率是5%。表1-11列出一个健康人在多项检验中出现异常结果的概率。②参考区间用于区分“健康人群”和“患者”。大于上限或小于下限意味着“异常”。如果测定值在参考区间上限、下限附近,不要轻易下正常或异常的判断,可能发生误诊或者漏诊,最好进行复查,动态多次测定结果比单次结果更具临床意义。检验结果异常程度更有临床意义,异常程度越高,其临床意义越大。另外,多项检验结果异常比单项异常更具临床意义。③参考区间是医生诊断的重要依据,检验报告必须注明参考区间。不同的测定方法有不同的参考区间。

表1-11 一个健康人在多项检验中出现异常结果的概率

(二)方法性能确认和实施

通过上述各种方法评价试验可以明确此方法各种误差(表1-12)。方法性能确认和实施就是通过试验途径来确定该方法的分析误差是否可被接受,其具体内容和过程大致可分为3步:预试性评价试验、正式评价试验、评价后试验。每一过程都是为了确认方法的性能。

表1-12 评价试验与误差类型间的关系

某一测量方法的总误差由系统误差和随机误差组成。通过一系列试验,如重复试验、回收试验、干扰试验、方法比较试验等,可以明确误差的大小,即对每一类型的误差可获得定量的值。这些值可以与规范的允许误差进行比较,其误差大小是否可接受应该遵循一定准则(表1-13)。

1.预试性评价试验

(1)评价前试验:

主要研究候选方法的最佳条件。对文献报道的最适条件可作必要的验证,如欲改变条件,则需要通过实验证明改变的条件比原来条件为优。最适条件包括试剂的浓度、缓冲液的种类、离子强度和pH、选择标准品、反应温度和时间、波长选择等。在初步熟悉操作方法的基础上,分析一系列不同浓度的标准液及适当稀释的异常高值或低值的患者标本,以试验其分析范围。如分析范围达不到,则需改进方法或排除该方法。

(2)初步评价:

做重复试验(批内与天内重复试验)、回收试验及干扰试验。用正常或异常的混合患者标本或质控血清做批内和天内重复试验,并估量其可接受性。

2.正式评价试验

当预试验证明某种方法无较大的误差时,即可进行如下的正式评价试验:

(1)天间重复试验:

进行天与天之间的重复试验,采用正常及异常浓度的控制物进行。所选择的控制物应能继续用于质量控制系统中。

表1-13 不同评价试验估计的误差判断其可接受性准则

注:S是重复试验确定的标准差,表示不精密度;是回收试验确定的平均回收率;B是干扰试验确定的偏倚;a和b是采用方法比较实验数据由回归分析确定的y轴上的截距和斜率;Xc为医学决定水平;SABATEA分别为允许不精密度、允许偏倚和允许总误差。

(2)方法比较试验:

用候选的试验方法和对比方法对许多患者标本同时进行对照分析。

(3)方法性能的可接受性判断:

当积累起足够的实验数据后,就可进行评价该方法的分析误差,判断其方法性能是否可接受。如果误差太大,不能接受时,或排除该方法,或研究造成误差的原因,采取措施减少误差,再进行评价。

(4)临床相关研究:

如果得出方法性能为可接受的结论,就可进行临床相关研究,包括确定参考值、特殊患者标本的测定、取得正常人测定值变化的范围及各种患者标本结果的资料。

3.评价后试验

如果候选方法被得出可接受性的结论,那么接着就要进行评价后试验,包括参考区间的制定,制定的参考区间应符合以前公认的调查报告;质控观察,应符合室内质控的要求;临床病例的观察等。最后进入方法应用阶段。

四、常规分析和质量控制

某分析方法一旦被判断为可接受,即可引进到常规工作中应用。一经评价合格的方法不一定产生高质量的结果,还须建立质控系统,以便随时发现合格的方法在实施过程中出现的问题,要善于发现其中还存在的不足并进一步研究解决使其日臻完善。

(黄 玥)