鱼的深度学习

如何实现可信 AI:可解释性

2023-03-01  本文已影响0人  升不上三段的大鱼

1. 可信人工智能

最近人工智能的话题又火热了起来,关于人工智能所给出的内容也引起了很多争议。我们希望自己所使用的 AI 是可信的。人类对于 AI 的信任程度和满意程度是基于人类视角出发的,也许会涉及到用户的个人情感和能力。从技术角度出发,AI 的可信可以从以下几个角度进行评估:

上述内容多少显得有些泛泛而谈,具体到技术上应该如何实现提升模型的可信度呢?由于时间和精力有限,这里只总结了可解释和不确定性估计的相关内容。

不确定性估计:如何实现可信 AI:不确定性估计

2. 模型可解释性

从工业需求来看,由于自动驾驶、医疗保健、刑事司法、金融服务等领域的安全和社会问题,模型的可解释性有时比准确性等其他指标更重要。


图源:https://docs.aws.amazon.com/whitepapers/latest/model-explainability-aws-ai-ml/interpretability-versus-explainability.html

可解释性一词对应到英文有两种说法:interpretablilty 和 explainability,两者的区别在于解释的对象不同(只是针对这两个单词作为“可解释模型”出现在论文里的情况)。Interpretability 指的是可以通过模型内部机制或者参数,来理解模型如何进行预测的能力,即模型本身是可解释的、可以理解的。Explainability 指的是使用外部辅助工具或技术来描述一个模型预测背后的逻辑或推理的能力,也就是人类来解释模型,模型本身不提供解释。

举个例子,线性回归模型是 interpretable,因为我们可以通过观察系数看到每个输入特征是如何影响输出的。神经网络模型不是 interpretable,因为它有许多隐藏层和非线性激活,使我们很难追踪每个输入特征如何影响输出。然而,如果我们使用特征重要性、saliency map等技术来说明神经网络模型是如何进行预测的,那么它就是 explainable。

进一步可以引申出内在可解释(Intrinsic )和事后可解释(post hoc)。内在可解释性是指结构被认为可解释的机器学习模型,例如线性回归、逻辑回归和决策树。事后解释性是指解释方法在模型训练后的应用。事后方法也可以应用于本质上可解释的模型。例如,可以为决策树计算置换特征重要性。

事后可解释模型又可以分为模型特定和模型无关。模型特定的解释工具仅限于特定的模型。模型无关的工具可用于任何机器学习模型,并在模型经过训练(事后)后应用。这些模型无关方法通常无法访问模型内部信息(例如权重或结构信息),而是通过分析特征输入和输出对来工作。

模型无关方法可以进一步分为全局方法与局部方法。全局方法通过利用关于模型、训练和相关数据的整体知识,专注于模型的内部,从总体上解释模型的行为。局部解释方法适用于模型的单一结果。

2.1 全局模型无关方法

一些全局方法,包括:

2.2 局部模型无关方法

LIME 和 Shapley 值是归因方法,因此单个实例的预测被描述为特征效果的总和。其他方法,例如反事实解释,是基于示例的。

ICE和PDP(虚线)

2.3 神经网络的可解释性

上面的方法大都是使用在机器学习方法上的,当然也可以把一些模型无关的方法用在神经网络上。现在已经有很多针对于神经网络的解释方法。

像素归因
像素归因方法可以根据baseline设置分为:

Integrated Gradients(IG) 满足两个可解释性公理:1) 灵敏度,其中对于每个期望的输入 x 和baseline x_i 在一个特征上不同但具有不同的预测,这个不同的特征应该被赋予非零的归因; 2) 实现不变性,它指出如果两个网络的输出对于所有输入都相等,则它们在功能上是等价的。

对于一个给定的输入x,函数映射表示为F,IG计算x在不同尺度上相对于零尺度的baseline x_i的梯度,然后使用Gauss-Legendre正交来近似梯度的积分。

像素归因方法的优点是直观易懂,可以进行可视化,缺点是缺少定量的分析,在一些情况下会变得相当不可靠(比如向所有输入数据添加一个恒定的偏移量),以及我们很难知道可视化出来的解释是否是正确的。

概念检查
基于特征归因的方法存在着一些局限性,比如单个像素通常没什么意义,表达能力受限等。基于概念的方法可以检测嵌入在网络学习的潜在空间中的那个概念。换句话说,基于概念的方法可以产生不受神经网络的特征空间限制的解释。

TCAV(Testing with Concept Activation Vectors)量化某一(给定的)概念对于模型分类结果的重要程度。例如,它可以告诉你“斑马”的预测有多敏感于“条纹”的存在。TCAV的核心思想是使用概念激活向量(CAVs),它们是某个概念在神经网络的激活空间中的数字表示。

记 CAV 为v_l^C,其中C为概念, l为神经网络。需要两个数据集,一个是包括特征C的概念数据集,另一个是随机数据集。然后训练一个二元分类器,区分概念集生与随机集。这个经过训练的二元分类器的系数向量就是 CAV。我们可以通过计算单位 CAV 方向的预测的方向导数来衡量其“概念敏感性”:

从而得到一个 -1 到 1之间的分数,反映了模型对某个概念的敏感程度分数越高,说明模型越依赖于该概念进行分类;分数越低,说明模型越不关注该概念。

TCAV需要对整个类别计算整体概念敏感性,方法是计算具有正概念敏感性的输入与一个类别的输入数量的比率


TCAV 的优点在于不需要用户有太多的机器学习专业知识,只需要定义一些感兴趣的概念。TCAV可以适应不同的模型和数据集,用户可以研究任何概念,只要该概念可以由其概念数据集定义即可。TCAV可以提供概念的全局解释,有利于提高模型性能。

缺点在于TCAV需要数据和时间,以及额外的标注工作;神经网络较浅时表现不佳;对于更加抽象的概念,TCAV不能捕捉到更加复杂的交互。

其他基于概念的方法有:

对抗性样本
一个对抗性的样本是一个具有小的、有意的特征扰动的实例,导致机器学习模型做出错误的预测。对抗性样本是反事实的,目的是欺骗模型,而不是解释它。一个例子就是通过在输入图像添加噪声,使模型的输出改变,但是人类肉眼却无法分辨输入的区别。

深度学习的可解释性依然有很多有趣的方向(充满了未解之谜),但从大方向来看,可解释性能够帮助我们实现更好的人工智能。

2.4 医学影像分析中的临床可解释AI

可解释性一直是AI在医疗领域的应用的一个挑战。[8]提出了临床可解释AI的指南,包括:

参考:
[1] Li B, Qi P, Liu B, et al. Trustworthy ai: From principles to practices[J]. ACM Computing Surveys, 2023, 55(9): 1-46.
[2] 可信人工智能白皮书 - 中国信息通信研究院
[3] X, XIONG H, LI X, et. Interpretable deep learning: interpretation, interpretability, trustworthiness, and beyond[J]. Knowledge and Information Systems, Knowledge and Information Systems, 2022, 64(12): 3197–3234.
[4] Mishra, P. (2022). Model Explainability and Interpretability. In: Practical Explainable AI Using Python. Apress, Berkeley, CA. https://doi.org/10.1007/978-1-4842-7158-2_1
[5] Christoph Molnar, Interpretable Machine Learning
[6] PDP和ICE
[7] 深度学习的可解释性方向的研究是不是巨坑? - 知乎 (zhihu.com)
[8] Weina Jin, Xiaoxiao Li, Mostafa Fatehi, Ghassan Hamarneh,
Guidelines and evaluation of clinical explainable AI in medical image analysis,Medical Image Analysis,Volume 84,2023,102684,ISSN 1361-8415,https://doi.org/10.1016/j.media.2022.102684.
[9] 可解释性之积分梯度算法(Integrated Gradients)

上一篇下一篇

猜你喜欢

热点阅读