第十六节 临床实验室大数据和人工智能

回顾我国检验医学近百年发展历史,从手工操作时代,到半自动、全自动化分析时代,近年来大数据和人工智能技术爆炸式发展,检验医学正迈入智能化时代。2017年国务院印发了《新一代人工智能发展规划》,提出了要发展智能医疗,推广应用人工智能治疗的新模式新手段,建立快速精准的智能医疗体系。本节从临床实验室大数据及挖掘、人工智能与检验医学两方面,结合具体示例,展现检验医学智能化的发展现状和未来趋势。

一、临床实验室大数据及挖掘

(一)大数据简介

随着信息技术的高速发展,各行各业都在进行信息化改革,努力发现和利用数据的价值。2009年,互联网公司提出“大数据”的概念。大数据(big data)指大小超过常规数据库工具可以捕捉、管理和处理的数据集,其不仅数量大,而且往往包含着海量、高增长率和多样化的信息资产,有待进一步挖掘和探索。

大数据概念自提出以来不断发展演变,其技术应用也已遍布各行各业,渗透人们的日常生活中。维克托和肯尼思在《大数据时代》中提出了大数据的4V特征:第一,规模性(volume),指数据量庞大,现在各企业的数据正在向着PB(petabyte,千万亿字节)、EB(exabyte,百亿亿字节)或ZB(zettabyte,十万亿亿字节)计算机存储单位级别进发;第二,多样性(variety),指结构化、非结构化和半结构化数据一起飞速发展;第三,价值性(value),指挖掘和分析海量数据下更有价值的信息;第四,高速性(velocity),指大数据正以越来越快的速度产生,时刻有海量数据在商业、互联网和社会网络中产生。这些特性使大数据区别于传统的海量数据概念,后者只强调数据数量的多少,而前者不仅描述海量数据,更包括在体量和类别特别大的数据集中深度挖掘分析获取有价值信息的能力,这是在大数据新时代需要关注的重点。

(二)大数据技术发展

大数据发展至今,涌现了大量的新技术手段,有益于大数据的获取、存储、处理分析和可视化。图2-54展示的是一个典型的大数据技术集合,底层是硬件平台,包含计算资源、内存管理、存储中心和网络等基础设施,上层是数据存储和管理、计算处理、数据分析、可视化以及应用服务等系列技术流。同时,这些技术集合中有两个领域垂直打通上述各技术层,一是编程和管理工具,通过机器实现全流程自动化;二是数据安全,保障整个技术集合的信息安全。

图2-54 大数据技术集合

数据分析是大数据技术中最核心的技术,包含数据可视化分析、数据挖掘、预测性分析、语义引擎和数据质量管理。其中数据可视化分析是借助图形化手段,清晰地传达和沟通信息,当前常见的数据可视化分析工具有Tableau、Infogram、ChartBlocks、Google Charts等;数据挖掘是通过创建数据挖掘模型对数据进行分析计算的方法,常见的数据挖掘算法有决策树、K-Means算法、Adaboost算法、Apriori算法等;预测性分析是通过机器学习方法对不确定事件进行综合性分析预测,常见的机器学习方法有支持向量机、主成分分析、线性回归、随机森林等。

大数据技术中的常用技术还有:分布式文件系统(hadoop distributed file system,HDFS),是一个文件管理系统,用于处理流式的数据访问,并存储海量数据文件;分布式计算框架MapReduce,可以进行海量数据的离线运算,具有非常好的扩展性和容错性;大数据分析引擎Spark,基于内存计算,可以提高大数据环境下数据处理的实时性,同时提供多种计算语言接口和80多种数据处理算法库,帮助用户快速实现数据处理。

(三)临床实验室大数据的特征

临床实验室作为医院里最重要的医技科室之一,每天通过医院信息系统(hospital information system,HIS)和实验室信息系统(laboratory information system,LIS)等产生海量的临床实验室大数据,这些数据具有如下特点:

1.数据体量巨大

随着卫生信息化的建设,临床实验室数据也在急剧增加,LIS每秒钟都能收到庞大的电子化数据,数据体量从MB(megabyte,兆字节)到GB(gigabyte,千兆字节)、TB(terabyte,万亿字节)、PB(petabyte,千万亿字节),这对检验大数据处理和分析的实时性、有效性提出了更高要求。

2.数据类型繁多

常规检验数据通常为文本和数字,处理相对方便,但形态学检验中存在许多微生物、细胞、组织等形态学图像数据,部分检验项目中甚至存在视频数据、动态监测数据等,这些半结构化和非结构化数据在检验中越来越重要,传统的统计学方法已无法充分分析这些数据,因此合理、有效利用这些繁杂的医疗数据是临床实验室大数据的重要挑战。

3.数据信息复杂

临床实验室数据信息丰富,临床价值巨大,但目前尚未被充分研究、发掘。尤其是一些复杂的、毫无数据特征、无显著规律的医疗数据,传统的统计理论已经无能为力,而大数据分析方法擅长于分析海量非结构化数据。目前,已有许多学者开始在该领域开展广泛的研究和应用。

(四)大数据分析在临床实验室中的应用

伴随着临床实验室数据信息的爆炸式增长,大数据在该领域的研究正逐渐从学术探索走向临床应用。

1.基于数据挖掘的辅助诊断

临床实验室数据是临床疾病诊断的重要辅助依据,随着其数量的激增和复杂度的提升,传统的数据分析方法已经无法满足真实世界研究的需求,而大数据挖掘技术可以从海量数据中学习到检验数据与疾病之间的潜在联系,有助于生成疾病诊断建议,可以作为临床医生的诊断参考。拉梅赞哈尼(Ramezankhani)等人通过关联规则挖掘(association rule mining,ARM)识别了2型糖尿病发病的风险模式,相比于传统的logistic回归方法,ARM能够挖掘大量既往数据中隐藏的信息,帮助医师识别糖尿病发病的风险;德明昌(Tak-Ming Chan)等人提出了一种基于迭代增强的数据挖掘分类算法,将过采样和欠采样分别应用于少数类和多数类样本,并将采样策略集成到算法中,从而有效地处理急性冠脉综合征患者的心脏不良事件失衡问题,能够在大量电子病历数据中进行心脏不良事件预测。

2.基于数据挖掘的相关因素分析

相关因素分析是发现医疗数据中隐藏的关联信息最有效的技术。医院病案信息库中存储着大量患者的病历和信息,包含年龄、性别、居住地、职业、生活情况等,对数据库中的信息进行相关因素分析可以发现有意义的关联因素。对某种疾病的相关发病危险因素进行分析,有助于指导疾病的预防。阿贝尔(Arbel)等人使用以色列一家大型医疗组织的数据库,在5年间对23 949起重大心血管疾病发生事件和5 236例心血管疾病死亡患者的大数据建立多变量模型,发现红细胞体积分布宽度(red cell distribution width,RDW)越高,全因死亡风险和心血管疾病发病风险也越高,RDW大于等于12%与心血管疾病发病率和死亡率的增加显著相关,证明了RDW在很多非血液系统疾病中具有重要的临床价值。

3.基于大数据的自动报告审核

报告审核是临床实验室工作中的重要环节。精准、高效的报告审核是检验医学追求的目标,但是当前的医疗现状是实际工作中多采用人工方式审核报告,耗时耗力,对审核人员的资质和经验要求较高,而且长时间工作容易导致审核失误。为了解决这些问题,人们持续探索报告的自动化审核,而大数据的出现为自动化报告审核系统的优化带来了新的机遇。施木青(Mu-Chin Shih)等人收集了569 001例患者检测信息作为数据库,通过LIS建立信息传递系统并且开发了一套自动验证算法,包括危急值检查、差值检查(delta check)和与其他相关结果的一致性检查。该算法消除了测试结果验证中的个体差异,缩短了样本周转时间,从而使医疗技术人员能够投入更多的时间和精力来处理算法筛选出的测试报告。

二、人工智能与检验医学

(一)人工智能技术发展

人工智能(artificial intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。人工智能的概念诞生于1956年的达特茅斯学术会议,它作为研究机器智能的一门综合性高技术学科,是计算机学科的一个重要分支。经过半个多世纪的发展,人工智能目前已在知识处理、模式识别、自然语言处理、专家系统和智能机器人等多个领域取得举世瞩目的成果,成为当前全球最热门的话题之一,是21世纪引领世界未来科技领域发展和生活方式转变的风向标。

机器学习(machine learning)是人工智能的一个重要研究领域,是使计算机具有智能的根本途径。机器学习是一种利用数据训练模型,然后使用模型进行分析预测未知数据的方法。根据数据的标注情况,机器学习可分为有监督学习、无监督学习和半监督学习。有监督学习中所有训练数据都给定了标签或标注,无监督学习中所有的训练数据都未经标注,而半监督学习中训练数据大部分未被标注,只有少量数据被标注,通常研究者会使用未标注数据进行模型训练,然后使用已标注数据进行模型微调。

深度学习是机器学习中最重要的一个分支,区别于传统的机器学习和浅层人工神经网络,深度学习拥有多个隐含层,通过组合底层特征形成抽象的高层特征,发现数据的分布式特征表示。其中卷积神经网络(convolutional neural network,CNN)是深度学习最典型的一种网络结构,包含卷积层(负责抽象特征和提取特征)、池化层(负责特征融合和特征降维)、激活层(负责增加系统非线性)和全连接层(负责逻辑推断)等。2012年,在ImageNet图像识别大赛中,辛顿(Hinton)等人采用深度学习模型AlexNet(图2-55)夺冠,AlexNet采用了两块GPU(Graphic Processing Unit,图像计算单元)运算CNN网络,同时,AlexNet使用数据增强和Dropout(一种参数正则化方法)抑制过拟合,使用线性整流函数(Rectified Linear Unit,Relu)作为激活函数,超越了以往所有的机器学习方法,证明人工智能技术存在无与伦比的优势。

图2-55 AlexNet网络结构

随着人工智能技术的不断发展,2016年,谷歌(Google)旗下DeepMind公司基于深度学习开发的围棋算法AlphaGo以4:1的比分战胜了国际围棋冠军李世石,人工智能开始进入大众视野,宣告了人工智能在部分领域开始超越人类。

同时,人工智能的发展也离不开众多软件平台的支持,最常见的开源深度学习算法框架有TensorFlow、Caffe、Keras、Pytorch、MXNet等。近几年国内的深度学习算法框架研究也取得了不错的进展,如PaddlePaddle、Jittor、MegEngine、NCNN等,这些算法框架极大地提高了人工智能与深度学习的研究效率。

(二)人工智能在检验医学中的应用

近年来,人工智能在检验医学领域大放异彩。临床检验运用物理、化学和生物学等实验方法对各种标本进行定性或定量分析,而人工智能和检验结合能够提高形态学检验、细胞分析、核型分析等的准确性和工作效率,有效减少检验人员的工作时长和主观因素干扰导致的错误判断,已经创造了很多非常有价值的临床应用。

1.尿液有形成分智能分析

人工尿液镜检受到操作不规范、个人经验因素等影响容易产生误差,智能化自动化设备的出现提供了一种有效解决方案。早在1983年就有尿液有形成分分析设备通过图像学方法对尿液细胞进行检测,而近年来更有多款智能化的尿液有形成分分析设备相继被推出,基于显微镜检的“金标准”,对镜下的尿液有形成分进行数字化拍摄,并通过人工智能识别十二种有形成分,这一过程由计算机实现,无需人工操作,检验人员只需通过屏幕审核后发报告即可,显著提高了实验室效率,且分析结果更客观。

2.血细胞形态智能分析与测定

血细胞形态学检验是血常规检查中最重要的环节之一,传统方法为人工显微镜检。人工镜检对检验人员的形态学识别能力有较高的要求,且费时费力,导致很多医院的形态学检验工作开展不理想。人工智能的出现可以代替检验人员完成部分形态学检查工作,降低了工作强度,提升了工作效率。妮莎(Nisha)等人设计了一个基于深度学习的两步血细胞识别方法,第一步通过检测最大曲率精准判断细胞核发育程度,第二步利用细胞质和细胞核区域的信息设计卷积神经网络对血细胞进行分类,在白细胞常规五分类中达到总体准确率93.9%。新之介(Shinnosuke)等人提出了一种新的向量特征,在原有基础特征向量中额外增加两个特征向量,通过使用随机森林做分类器来提高白细胞的分类精度,最终在十三类白细胞的分类任务中取得87.6%的准确率(图2-56)。

图2-56 白细胞分类的多特征随机森林网络结构

3.检验标本智能采集

近年来,实验室分析环节已经基本实现自动化,但是检验标本采集和处理环节仍需由人工完成。其中,血液样本采集流程简单却重复率高,每年有20%以上的护士会受到针刺伤害;且大量样本采集时可能发生操作失误产生检验误差,而应用人工智能可以解决上述问题。例如全自动智能采血机器人,采用人工智能技术实现首针穿刺准确率达到95%左右,比人工穿刺高出20%,可以实现检验科血液标本采集标准化、自动化和信息化,也保护了护士免受穿刺伤害、降低了感染风险。

4.基于检验项目的病症预测

尿酸是人体嘌呤代谢的最终产物,经由肾脏随尿液排出体外。健康成人体内尿酸含量约为1.1g,尿酸的浓度升高往往是由于产量增加或排泄减少所致,持续的高浓度尿酸会导致针状晶体析出并引起病理反应。痛风就是一种嘌呤代谢紊乱所致的疾病,其主要表现为血液中尿酸浓度过高;而在急性白血病中,持续的白细胞破坏也会导致尿酸浓度增高。对于痛风和急性白血病而言,这两种疾病的发病机制不同,因此需要不同的治疗方案,但是治疗药物和方案的选择取决于尿酸水平的监测,因此需要根据尿酸测量区分两种疾病。托马斯(Thomas)等人使用高斯过程回归判断的纵向概率密度,通过深度学习模型和尿酸测量值的结合,在4 368个血清尿酸样本的间断性测量序列中找出了尿酸测量序列特征,准确区分了痛风和急性白血病,其ROC曲线下面积达到了97%(图2-57)。

图2-57 痛风和急性白血病患者尿酸浓度变化

(上图:急性白血病患者,下图:痛风患者)

5.基于人工智能的医学专家系统

医学专家系统是一个具有大量专业知识和经验的程序系统,它应用人工智能技术,根据多个人类专家提供的知识和既往经验进行推理和判断,模拟人类专家的思维活动和决策过程,得出与人类专家接近的判断(图2-58)。目前医学专家系统能够解决的问题包括:解释、预测、诊断和提供治疗方案等。最近,IBM公司的研究团队基于人工智能技术设计了一套学习医生如何诊疗的人机互动系统WastonPaths,在该系统的辅助下,医生可以判断系统对于病例的推论是否合理,然后将有效的信息和见解输入到系统中,以帮助系统更新矫正。纪念斯隆-凯特琳癌症中心和IBM公司合作开发了基于该技术的交互式肿瘤诊疗技术,通过向系统传输大量与病情、诊疗方案和诊疗结果相关的数据,可以找出其中的相关性,进而帮助肿瘤医生获得患者最新的治疗信息和最佳的诊治建议。

图2-58 基于人工智能的医学专家系统

6.蛋白质结构预测

蛋白质是由氨基酸链组成的大型复杂分子,其作用取决于自身独特的三维结构(图2-59)。蛋白质的形状与其功能密切相关,很多人类无法克服的挑战都与蛋白质相关,如开发疾病的治疗手段或寻找分解工业废物的酶等,因此,预测蛋白质结构对于理解其功能和工作原理至关重要。其中,探究蛋白质折叠的形状被称为“蛋白质折叠问题”,在过去50年一直是生物学领域的重大挑战。每个蛋白质的折叠问题都可能需要研究者们使用磁共振、X射线、冷冻电镜等技术进行反复试验,耗费数年的时间和高昂的设备费用。2018年,谷歌(Google)DeepMind团队的AlphaFold参加了国际蛋白质结构预测竞赛(critical assessment of structure prediction,CASP)并获奖。当时其全局距离完全测试(global distance test,GDT)总分只有58分。GDT是指氨基酸残基在阈值距离内与正确位置的百分比,通常认为GDT达到90分是人类实验方法的水平。2020年,谷歌利用人工智能技术创建的AlphaFold 2系统在“蛋白质折叠问题”上取得了重大突破,他们创建了一个基于注意力的神经网络系统,并用端到端的方式训练网络,同时基于其构建的图结构进行推理。该方法使用进化相关序列、多序列比对和氨基酸残基对的表示来细化蛋白质折叠的空间结构,通过迭代,该系统能够非常准确地预测蛋白质的底层物理结构。这套人工智能算法系统在2020年的国际蛋白质结构预测竞赛中得到了前所未有的精确度。GDT的总体得分中位数为92.4,与人类实验水平相差无几(图2-60)。

三、未来与展望

我国是一个人口基数大、人口老龄化逐渐加剧的发展中国家,医疗服务需求快速增长,然而我国医疗资源总体匮乏且分配不合理,远不能满足人民群众对健康的需求。

大数据、人工智能技术与检验医学的紧密结合有望大幅改善这些问题。随着研究的不断推进,诸如智能化复检、人工智能辅助诊断、个体化诊断等技术开始逐渐从实验室走向临床,已在部分领域得到了良好应用,并且更多更深入的研究也在持续进行中,必将为检验医学的发展提供更多助力。

图2-59 蛋白质折叠结构

图2-60 国际蛋白质结构预测竞赛预测成绩演变

(祁 欢 王齐耀)