机器学习

[Paper] || 打开黑盒子:遗传学家的可解释机器学习Ope

2020-07-11  本文已影响0人  葵sunshine

由于机器学习拥有在高维空间和异质数据中发现复杂模式的能力,它被用来理清隐藏在基因和遗传数据背后的含义。ML模型的复杂性使得它变得强大,但同时也使得模型难以解释。这篇文章主要讨论了以下三个方面的问题。

可解释机器学习(Interpretable ML)的重要性

  1. ML模型很少在不进行调整或排除故障的情况下表现良好,理解如何做出预测对于识别输入数据中的错误或偏差以及如何训练模型是至关重要的;
  2. 只有在模型可解释的情况下,才能识别出生物学上的新模式
  3. 增加模型可信度,比如当模型可解释时,才可以消除医生使用基于ML诊断模型的担忧。

可解释机器学习策略的分类

分类法一:

分类法二:

三种常用可解释机器学习的策略

图1:可解释性机器学习策略总览
  1. 敏感性分析(Sensitivity Analysis)
    解释:修改输入特征并观察其对模型性能的影响。主要分为每次去除一个特征(leave-one-feature-out)或是每次扰乱一个特征(例如将所有值替换为平均数)。改变后模型性能的减少量可以作为评估每个特征对预测贡献度的直观分数。因为干扰一个特征不仅影响的是这特征也会影响与其相作用的其他特征,所以敏感性分析会捕捉特征间的相互影响。
    然而,如果特征集中存在相关性,敏感性分析可能会遗漏重要的特征。比如,如果特征X和特征Y高度相关,X被移除或干扰后Y会补偿它对预测的作用,掩盖X潜在的重要性。

    在图2A中,分别展示了去除位置3的特征和改变位置3特征的排列后模型表现的变化,可以看到最终得分都有所下降,得到的解释就是位置3的特征对图片中的问题(转录因子的结合)比较重要。
  2. 假设分析(What-if Analysis)
    解释:假设分析衡量的是当对一个或多个特征的输入值变化时,特定实例的预测如何变化,而不是整个模型的表现。主要分为两种方法:partial dependency plots (PDPs) 和 individual conditional expectation (ICE) plots。
    PDPs展示的是一个特征输入值的变化对预测结果的影响,它忽略了其他所有特征的影响,即假定特征间是相互独立的。显然,当特征间有相互作用时,PDPs容易漏掉重要特征,而ICE图本质上是为数据集中的每个单独实例生成的PDP。两种图的趋势相同,但是ICE中可以看到所有样本点的预测情况。

    如图2B的左边是PDP,位置3的碱基C增加了TF结合的可能性。图2B的右边是ICE图,显示了数据集中的所有实例(用点表示)的预测得分,当位置3是C时,TF结合可能性为双峰分布,这里是由于当位置2为T时,增加了TF结合亲和力。因为ICE图可以看到每个实例的结果,从而可能揭示具有生物学重要性的相互作用或群体特定效应。

    PDPs和ICE的局限性是不能同时可视化两个以上的特征(都是二维图像),它们通常仅作用于具有少量特性的模型或某种重要特征子集。

未来挑战及发展方向

可解释性对机器学习在遗传学和其他领域的应用至关重要,在未来几年将看到实质性的进展。正如没有一种通用的最佳ML算法一样,也没有一种可解释性ML策略可以在所有数据或问题上都取得最佳效果。相反地,解释策略应该根据人们想从ML模型中学习的内容进行调整,并且当多种方法都能得到相同的解释时,就增加了可信度。表1列出的是一些用户友好型做ML可解释性分析的工具。


表1:可解释性机器学习的平台和软件

另外需要注意的是,从可解释ML模型中学习到的见解受到用于生成模型的数据的内容、质量和数量的限制,在选择数据和特征时,应该注意避免将生物噪声等干扰因素引入模型,从而引入解释程序。

原文Link:Opening the Black Box: Interpretable Machine Learning for Geneticists
上一篇下一篇

猜你喜欢

热点阅读