[Paper] || 打开黑盒子:遗传学家的可解释机器学习Ope
2020-07-11 本文已影响0人
葵sunshine
由于机器学习拥有在高维空间和异质数据中发现复杂模式的能力,它被用来理清隐藏在基因和遗传数据背后的含义。ML模型的复杂性使得它变得强大,但同时也使得模型难以解释。这篇文章主要讨论了以下三个方面的问题。
- 可解释机器学习的重要性
- 三种解释策略
- 未来挑战及发展方向
可解释机器学习(Interpretable ML)的重要性
- ML模型很少在不进行调整或排除故障的情况下表现良好,理解如何做出预测对于识别输入数据中的错误或偏差以及如何训练模型是至关重要的;
- 只有在模型可解释的情况下,才能识别出生物学上的新模式;
- 增加模型可信度,比如当模型可解释时,才可以消除医生使用基于ML诊断模型的担忧。
可解释机器学习策略的分类
分类法一:
- 模型无关(model-agnostic):此种解释策略适用于所有机器学习算法
- 模型专用(model-specific):此种解释策略适用于一种或一个子集的算法
分类法二:
- 全局解释(global interpretation):基于整个模型来解释特征(features)和标签(labels)之间的整体关系
- 局部解释(local interpretation):侧重于解释实例或实例子集的预测
三种常用可解释机器学习的策略
图1:可解释性机器学习策略总览-
Probing Strategies —— 剖析ML模型内部结构
解释:通过检查一个训练好的ML模型学习到的结构和参数,更好地理解哪些特征或特征的组合在驱动模型的预测上起到关键作用(如图1B)。
例如:在SVM中,一个被分配到权重的绝对值更大的特征对预测结果作用更大;在决策树中,基尼不纯度越接近于零的节点,特征越好;在神经网络中,可以通过累加每层间权重、计算梯度等方法比较特征重要性。 -
Perturbing Strategies —— 干扰输入数据
解释:更改一个或多个输入特性的值(例如,将所有值设置为零),并度量模型性能(敏感性分析)或特定实例的预测标签(假设分析)的变化(如图1C)。
图2:干扰ML模型的输入数据
- 敏感性分析(Sensitivity Analysis)
解释:修改输入特征并观察其对模型性能的影响。主要分为每次去除一个特征(leave-one-feature-out)或是每次扰乱一个特征(例如将所有值替换为平均数)。改变后模型性能的减少量可以作为评估每个特征对预测贡献度的直观分数。因为干扰一个特征不仅影响的是这特征也会影响与其相作用的其他特征,所以敏感性分析会捕捉特征间的相互影响。
然而,如果特征集中存在相关性,敏感性分析可能会遗漏重要的特征。比如,如果特征X和特征Y高度相关,X被移除或干扰后Y会补偿它对预测的作用,掩盖X潜在的重要性。
在图2A中,分别展示了去除位置3的特征和改变位置3特征的排列后模型表现的变化,可以看到最终得分都有所下降,得到的解释就是位置3的特征对图片中的问题(转录因子的结合)比较重要。 - 假设分析(What-if Analysis)
解释:假设分析衡量的是当对一个或多个特征的输入值变化时,特定实例的预测如何变化,而不是整个模型的表现。主要分为两种方法:partial dependency plots (PDPs) 和 individual conditional expectation (ICE) plots。
PDPs展示的是一个特征输入值的变化对预测结果的影响,它忽略了其他所有特征的影响,即假定特征间是相互独立的。显然,当特征间有相互作用时,PDPs容易漏掉重要特征,而ICE图本质上是为数据集中的每个单独实例生成的PDP。两种图的趋势相同,但是ICE中可以看到所有样本点的预测情况。
如图2B的左边是PDP,位置3的碱基C增加了TF结合的可能性。图2B的右边是ICE图,显示了数据集中的所有实例(用点表示)的预测得分,当位置3是C时,TF结合可能性为双峰分布,这里是由于当位置2为T时,增加了TF结合亲和力。因为ICE图可以看到每个实例的结果,从而可能揭示具有生物学重要性的相互作用或群体特定效应。
PDPs和ICE的局限性是不能同时可视化两个以上的特征(都是二维图像),它们通常仅作用于具有少量特性的模型或某种重要特征子集。
-
Surrogate Strategies —— 替代原有模型
解释:如果上述两种方法都无法提供可解释性上的有效信息,就可以考虑训练一个解释度更高的模型(例如线性回归或决策树等)来靠近原黑盒模型(如图1D)。例如,为了得到代理模型,可以先将一组特征应用在黑盒模型上得到预测标签,再用这组特征和标签来训练代理模型。
这种方法的一个局限性在于黑盒常常具有高复杂度,因此不能被一个代理模型全部学习到。为了克服这个缺陷,一个方法是替代黑盒的一部分,进行局部可解释性分析。
未来挑战及发展方向
可解释性对机器学习在遗传学和其他领域的应用至关重要,在未来几年将看到实质性的进展。正如没有一种通用的最佳ML算法一样,也没有一种可解释性ML策略可以在所有数据或问题上都取得最佳效果。相反地,解释策略应该根据人们想从ML模型中学习的内容进行调整,并且当多种方法都能得到相同的解释时,就增加了可信度。表1列出的是一些用户友好型做ML可解释性分析的工具。
表1:可解释性机器学习的平台和软件
另外需要注意的是,从可解释ML模型中学习到的见解受到用于生成模型的数据的内容、质量和数量的限制,在选择数据和特征时,应该注意避免将生物噪声等干扰因素引入模型,从而引入解释程序。