化学数据的质量和复杂性

2018-12-29  本文已影响455人  Athlon_BE

原文出处:Technology Networks

原文标题:Helping Analytical Chemistry Embrace Big Data

原文作者:Ruairi J Mackenzie

原文链接:https://www.technologynetworks.com/informatics/articles/helping-analytical-chemistry-embrace-big-data-308404

最近的很多研究进展都着眼于最大化我们所能产出的数据量,在这个数据存储成本急速下降的时代,这么做是合情合理的。不过,正如同一个用未校正过的移液器做了几个小时移液实验,或者看了所有29季《辛普森一家》的人将告诉你的一样:质量远比数量重要。(译者按:《辛普森一家》是美国电视史上播放时间最长的剧集,但近年来被不少观众批评其质量下降严重。)很多公司已经认识到了这一点,这些公司被一堆胡乱堆放占据了TB级别存储空间、且无法与其它孤立数据相互同步的数据所埋没。对于分析化学来说,数据比日常的电子表格要复杂且有价值得多,需要使用能够匹配这种复杂性的工具才能使得数据恢复原状。

位于多伦多的分析软件商ACD/Labs的创新和信息战略副总裁Andrew Anderson说:“如果没有正确的数据,那么对于任何下游的用户,包括你自己在内,都无法使用它来获得你最初想要得到的结果。”Anderson认为,现在这种对正确性的需求从数据生命周期的开始到最终正逐步被认可:“像FDA这样的机构要求药企和药品生产商拥有安全、有效和优质的药品,以及它们用来表征这些药物、且符合数据完整性原则的数据。”这一要求从一开始直到最后都具有实际的推动力。如果你打算在市场上推出一个让人们可能受益的产品,大家的期望是什么?如果产品的表现和期望不同,那么将可能产生非常严重的后果。

Anderson的观点是,从设计到药物,数据完整性在研究工作流中的所有阶段都很重要。这种观点现在变得十分重要,因为技术的发展已经使得从多个数据源头记录大容量的数据成为可能:“工业创新中的一个趋势就是从数据中挖掘和利用所谓的次级或者三级价值。从历史上来说,如果你看一下工业界如何利用分析数据,它们还仅仅是问题和回答,输入和输出。现在人们已经认识到,拥有数据,你可以推断出趋势,可以把数据用作训练集,或者用于预测性分析和机器学习之类的东西。如果我要用分析数据来发布一个用于药物或者商业环境的物质,发布的数据被用来开绿灯,说‘对,你可以发布这个批次用于预期的用途。’如果你在每一个已发布的批次上都保留了数据,那么你就可以查看趋势,并以此在操作优化上进行决策——例如,我在不同生产基地的产品质量的差异上看出来什么趋势吗?”

虽然有着这些潜在的好处,但令人惊讶的是,和其他领域相比分析化学接受大数据技术的速度相对较慢,可用的数据集和算法往往不能达到分析复杂化学数据的要求。Andrew的同事、ACD/Labs的战略合作伙伴关系总监Graham McGibbon说,数据的复杂性和容量是简单采用自动化技术的最大障碍:“你有跨越波长范围的光谱谱图,你进行了面向全采样频率而不是仅仅特定采样频率的实验。运行这些实验需要时间——一次色谱实验可能需要半个小时。如果你在这半个小时内一直在采集数据并且你有台联用的质谱仪,那么数据将有数千或者数百万个数据点。此外,你还可以有多维度的信息,以此可以探究原子和原子是如何连接在一起。人们想要知道哪些峰代表着哪些原子或者特征,这种复杂性确实是化学数据的关键所在。我认为,它比人们在其它领域存储的某些其它数据要复杂和繁杂得多。”

Andrew指出,那些从事大规模化学分析的实验室或者公司最终可能会得到令人难以想象的数据量:“如果我们要进行大数据分析,我们每天产生1TB的数据,这意味着过段时间你将拥有PB级别的数据量。如果你不能通过某种方式压缩数据容量,那么要做出我们希望做到的数据分析将变得十分困难。”

如此海量的数据,听起来显然是公司不愿意在全公司范围更换数据系统的一个很好的理由。不过Andrew坚信,即使采用大数据技术不是一条坦途,但其它的选择会更糟:“我个人很熟悉食品和饮料公司处理杀虫剂时所面临的一种处境,当一种杀虫剂受到监管时他们必须对此作出反应。他们花了18个月的时间,对他们的商品和原材料供应链进行危害评估。如果你拥有大数据系统,需要做的只是一个查询。一边是一个简单的查询,一边是因为没有大数据系统而必须进行的繁重工作。他们必须采集样本,重新分析并以此为起点。如果你打算在分析化学中采用大数据技术,请考虑价值提案——人们常常以此证明投资数据中心的合理性。如果你建议和安置一个数据中心,并以正确的方式构建它,你将得到回报,你将避免花那18个月的成本来解决问题。”

尽管推进大数据技术的需求似乎已经很明朗了,但公司选择何种方式采用这些技术却往往比较模糊。在公司中谁必须推广更多地以数据为中心的战略?“背负这样的创新战略似乎并不是单一的某个部门,而应该让所有的利益相关部门都参与进来,”Andrew说,“你必须有个协调一致的计划,从现有的战略能力组合转移到新的能力组合中。所以,我不会把某一个部门置于枪口之下,或者说,让这个部门负起全部责任来建立类似这样的战略;相反,这样的转移必须是一个跨部门的职能。”

现代的信息学解决方案显然拥有改善整个行业处理数据和淘汰过时做法的能力。同样显而易见的是,实施这些解决方案需要进行深度的、但物有所值的努力。Andrew总结了那些希望改进处理和分析数据能力的公司所面临的任务:“如果有人可以进行数据挖掘,我认为这很好,但和他们着手做的事情相比,其附加的价值存在着不确定性。我认为认识到这一点很重要——即,数据是在何处汇集的,在获得完整、准确的数据和使用数据之间,有哪些权衡和取舍。”

译者评论:

2016年,FDA发布了数据完整性(data integrity)的行业指南,虽然没有上升到GxP的高度,但这个指南对药企中数据的产生、记录、更改、存储、审核等方面进行了具体的指导性要求,说它是GDP,Good Data Practice也不为过。数据的完整性,不仅仅是药企合规的要求,而且对于分析数据的质量来说也是最基本的要求。

化学数据的复杂性,在于化学数据相对而言是很精确的,它必然遵循数据背后的化学和物理的规律。比如核磁共振中的化学位移,严格地和原子所在分子中的位置和结构相关。化学数据本身不会是随意的,反过来说,数据上的任何误差都将给对数据的解释和从数据提取有价值信息的工作带来障碍,因此和其它学科相比,分析化学对数据准确性的要求也相对较高。

关于数据质量的一个误区是人们常常把对数据质量的要求和对方法鲁棒性的要求混为一谈。有些人认为,有意无意地保留数据采集中存在的误差可以提高方法的鲁棒性,好比老人常说的:不干不净,吃了没病。这种误解尤其容易出现在近红外光谱的方法开发之中,在使用参考测试方法时,因为偶然的人为误差,比如振荡时间不足造成个别药片解析不完全,造成最终分析结果存在偏差并被引入化学计量学模型。持有错误观点的人认为,只要该模型最终能够通过方法验证,那么就不会带来质量上的问题。这种观点,从狭义上来说是不了解近红外光谱方法的特殊性,从广义上来说,是不符合数据完整性行业指南的行为。

对于大型药企来说,大数据技术无疑是很有吸引力的,不过现实中这一方面的进展仍然相对缓慢。就我的理解,一方面是因为药企中的技术资源储备不足,不仅缺乏具有大数据技术相关背景的专门技术人员,而且管理层也缺乏对大数据技术的理解和支持;另一方面,虽然数据资源丰富,但数据的质量并不高,数据的通用性较差,数据和数据之间的引用缺失,因此在短期内很难取得具有较大附加值的应用成果。这两个方面互相影响,尚未进入到一个正反馈、快速发展的通道之中。

参考出处:

题图来源:https://www.informationweek.com/big-data/big-data-analytics/8-ways-to-ensure-data-quality/d/d-id/1322239

文/Athlon_BE
2018.12.28

上一篇下一篇

猜你喜欢

热点阅读