2022-07-21
Nat Biomed Eng | 医疗领域机器学习模型部署机会与挑战
原创 mumu 图灵基因 2022-07-21 07:05 发表于江苏
收录于合集#前沿生物大数据分析
撰文:mumu
IF= 29.234
推荐度:⭐⭐⭐⭐⭐
亮点:
作者介绍了医疗保健领域中,深度生成模型、联合学习模型、自然语言处理在数据收集、组织、保护、移动和审查方面的应用和挑战。
2022年7月4日,目前斯坦福心血管研究所在读的Angela Zhang博士在《Nature Biomedical Engineering》上发表了一篇名为“Shifting machine learning for healthcare from development to deployment and from models to data”的综述。在过去的十年中,机器学习(ML)在医疗保健中的应用推动了医生任务的自动化,以及临床能力和获得护理机会的增强。这一进展强调,从模型开发到模型部署,数据发挥着核心作用。在这篇综述中,作者提供了一个以数据为中心的观点,介绍了医疗保健ML的创新和挑战。讨论了深度生成模型和联邦学习作为增加数据集以提高模型性能的策略,以及使用Transformers模型来处理更大的数据集、增强临床文本的建模。针对ML部署中以数据为重点的问题,强调需要高效地向ML模型提供数据,以及时进行临床预测,并考虑可能会不利于模型性能的数据迁移。
在过去的十年中,用于医疗保健的ML取得了快速的进展。已经为许多医疗需求奠定了初步基础,这些需求承诺改善患者护理、减少医疗工作量、简化医疗流程。随着ML系统开始在临床环境中部署,ML在医疗保健中的决定性挑战已经从模型开发转移到模型部署。在缩小两者之间的差距的过程中,出现了另一个趋势:数据的重要性。由于数据可获得性、患者隐私和机构数据框架的异质性的临床限制,很难获得丰富的数据集。同样,随着ML医疗系统的部署,实施中最大的挑战来自数据问题:如何高效地将数据交付到模型,以促进工作流集成并做出及时的临床预测?此外,一旦实施,面对医生和患者行为自然变化的必然性,如何保持模型的健壮性?事实上,从模型开发到部署的转变也标志着焦点的转移:从模型到数据。这篇综述采用以数据为中心的方法来回顾ML在医疗保健方面的最新创新。首先讨论以深度生成模型和联邦学习为策略,创建更大和增强的数据集;随后讨论了近期用于处理较大数据集的转换器模型;最后,重点介绍了部署面临的挑战,主要关注如何处理可用原始数据并将其交付给模型,以及数据迁移如何影响已部署模型的性能。
图1中介绍了过去十年深度学习领域最令人兴奋的创新之一:生成对抗网络(GANs)。它们提供了创建大量合成但现实的数据的能力。在医疗保健领域,GANs已被用于扩充数据集,提高模型性能并将患者数据匿名化,缓解隐私受限和不平衡数据集的问题,并执行图像通道到图像通道的转换和图像重建。值得一提的是,GANs的一个新兴应用是使用它们系统地探索临床场景和疾病表现的整个领域。事实上,GANs可用于生成合成数据,以对抗域移动的模型恶化。此外,GANs可用于创建模拟各种临床情景和疾病表现的数据,从危险和罕见的临床情景(如不正确的手术技术),到模拟脑瘤表现谱,再到探索神经退行性疾病的疾病进展。然而,GANs可能会受到训练不稳定以及图像多样性和质量较低的影响。这些限制可能会阻碍GANs在临床实践中的部署。此外,在使用基于合成数据培训的ML医疗模型时,可能存在监管障碍。由于目前无法有力地评估和控制GANs及其生成的合成数据的质量,这一点更加复杂。尽管如此,在与医疗保健无关的领域,GANs已经被用来对已部署的模型进行切实的改进。这些成功可能会为GANs在医疗保健中的实际应用奠定基础。
在一般使用多机构数据集时,模型培训通常集中执行,也就是说孤立在各个机构中的数据需要聚合到单个服务器中。然而,在这种“集中训练”中使用的数据只是可用于模型开发的海量临床数据的很小一部分。并且公开共享和交换患者数据受到许多法律、伦理和行政限制。事实上,在许多司法管辖区,患者数据必须保持本地化。为了解决这一问题,当分散的数据可在中央服务器的协调下协作使用时,出现了联合学习训练ML模型的范例。集中式培训要将来自不同位置的数据移动到单个服务器来培训模型,而联合学习与集中式培训不同,可允许数据位置不变。无论何时数据都不会离开特定地点或机构,只有与机构关联的个人才能直接访问其数据。图2中是医疗保健领域跨竖井联合学习的过程和特点。当每个机构通知中央服务器它们打算参加当前一轮培训时,联合学习就开始了。在通知、批准和认可该机构后,中央服务器将该模型的当前版本发送到该机构(步骤1)。然后,该机构使用可获得的数据在本地训练该模型(步骤2)。在完成本地培训后,机构将模型发送回中央服务器(步骤3)。中央服务器将已经由每个单独机构在本地训练的所有模型聚集成单个更新的模型(步骤4)。在每一轮培训中重复这一过程,直到模型培训结束。在任何一轮培训期间,患者数据都不会离开机构(步骤5)。联合学习的成功实施需要促进培训的特定于医疗保健的联合学习框架,以及用于与中央服务器通信和对模型进行本地培训的机构基础设施。这减轻了人们对侵犯隐私的担忧,最大限度地降低了与数据聚合相关的成本,并允许训练数据集在大小和多样性方面快速扩展。
除了跨竖井联合学习允许多个机构协作培养一个ML模型,还有跨设备联合学习处理来自个人的健康数据。在智能设备产生连续、被动和个性化的健康数据宝库的基础上,利用这些数据训练ML模型,并为每个用户提供个性化的健康洞察。不过作者也提到一些联合学习目前存在的问题,例如:联合学习的实施要求各机构在联合学习过程的每一步都进行高度协调;医疗数据在训练前需要进行规范化和标准化,这无疑对各机构在收集、存储、标记和划分数据的方式上提出了挑战;还需要每个单独机构对各自的精简和验证过程各自负责;模型开发人员无法在模型开发期间直接检查数据。
利用自然语言处理(NLP)实现文本的自动理解一直是ML在医疗保健中的一个长期目标。作者主要概述了Transformers和NLP的迁移学习在医疗保健中的应用。图3介绍了Transformers模型的过程和特点。随着NLP中Transformers的成功,它们处理临床文本的潜力很快得到了评估,因此也被用于对临床事件的顺序性质进行建模。
过去十年,ML在医疗保健领域的研究主要集中在模型开发上,而下一个十年将从模型开发转到模型部署。作者讨论了模型部署中的两个以数据为中心的障碍:如何高效地将原始临床数据提供给模型,以及如何监控和纠正会降低模型性能的自然数据迁移。
在模型开发过程中,经过预处理的结构化数据直接输入到模型中。但是在部署期间,为了最大限度地减少获取原始数据和交付结构化输入之间的延迟,需要一条熟练的数据管道,以便从其来源收集数据,并摄取、准备和转换数据(图4)。将数据传递给模型是获得及时有效推断的关键瓶颈。ML模型需要组织、标准化和标准化的输入数据,通常采用表格格式。因此,建立一条组织和存储异质临床数据的管道至关重要。数据管道涉及从各种数据源收集、摄取和转换临床数据。数据可以存放在数据湖中、数据仓库中或两者兼而有之。数据湖是中央存储库,用于存储所有形式的原始数据和已处理数据,而不需要任何预先确定的组织结构。数据湖中的数据可以以二进制数据(例如图像)、结构化数据、半结构化数据(例如表格数据)和非结构化数据(例如文档)的混合形式存在。相比之下,数据仓库使用预先确定的组织结构存储经过清理、丰富、转换和结构化的数据。
如何解决数据转移的部署?在医疗保健领域,数据转移很常见,主要存在于机构差异(如当地临床实践或不同的工具和数据收集工作流程)、流行病学转变、时间转变(例如,医生和患者行为随时间的变化)和患者人口统计差异(如种族、性别和年龄)的轴线上。这种数据转移可能会导致模型性能下降。所以多机构数据集的训练模式可最有效地应对此种模型恶化,直接解决训练数据中的现有偏见也可减轻其影响。还有一些涉及在模型开发期间主动解决数据转移的方案,或通过在模型部署期间监测数据转移来追溯解决这些问题。不论采用哪种方式,都需要大家拿出对认识和处理潜在的偏见和数据转移的积极主动态度。
最终作者也提出了一些目前ML在医疗保健领域面临的挑战。例如:应用于医学图像的GANs目前受到图像分辨率和图像多样性的限制,并且在训练和扩展方面可能具有挑战性;联合学习虽然有望缓解与小型单一机构数据集相关的问题,但它需要强大的框架和基础设施;在大型公共数据集上训练的NLP可以包含种族和族裔偏见。另一个挑战是如何处理医疗保健应用程序的ML模型的监管评估。尽管存在这些挑战,但其他领域的数百万个人每天都在使用类似的ML技术,尤其是在智能手机、搜索引擎和自动驾驶汽车领域,这些实例也给我们在医疗保健领域部署和监管ML带来了极大的信心。
作者介绍
Angela Zhang目前是斯坦福大学医学院斯坦福心血管研究所一名在读研究生,师从Joseph C. Wu。他们的实验室专注于新型细胞和基因疗法的转化。主要应用工具来研究干细胞的生物学,更好地了解干细胞的免疫原性和致瘤性,从成体细胞中提取干细胞,并确定新的治疗靶点。近年来,该实验室在《Science》、《Cell》、《Nature》等知名杂志及其子刊发表了多篇刊物。
参考文献
Zhang, A., Xing, L., Zou, J. et al. Shifting machine learning for healthcare from development to deployment and from models to data. Nat. Biomed. Eng (2022).https://doi.org/10.1038/s41551-022-00898-y