ICLR'19-(学习遗忘现象)AN EMPIRICAL STU

2023-01-30  本文已影响0人  Caucher

标题:DNN学习过程中样本遗忘的经验性研究

ABSTRACT

  1. 某些样本高频遗忘,某些却从不遗忘;
  2. 遗忘现象分布在各种网络架构上;
  3. 基于遗忘的动态性,一大部分样本(不会被遗忘的)可以不用参与训练却仍能维持模型效果。

4 CHARACTERIZING EXAMPLE FORGETTING

既然是实验文章,我们直接上实验结果:

4.1 Number of forgetting events

在不同难度数据集上差异巨大:简单的如图a,>90%的样本都是不会遗忘的,困难的如图c,仅30%样本不会被遗忘。这一特性可能和数据集本征维数有关联。


image.png

4.2 First learning events

可遗忘的和不会遗忘的样本首次学习到正确分类的时间会不会有所差异呢?见下图。
作者观察得到结论:不可遗忘的样本一般简单,在该样本在训练过程中出现几次时就能学会;会遗忘的样本则要出现很多次才能学会。
【编者注:没太看懂这个图为什么会有三种颜色】


image.png

下图的实例观察进一步验证了这个结果,会遗忘的都是特征不明显的,不会遗忘的特征都很简单、清楚。


image.png
进一步,作者故意把一些样本反着label,让它们在那个label中变成一个特征非常异常的样本,结果看到这些样本全都会遗忘,而且遗忘次数很多。
image.png

4.3 CONTINUAL LEARNING SETUP

这一节的实验很有意思也很关键。作者想切实看一看,到底从哪些样本中学习才能学到关键知识,是从可遗忘的较难的样本中学比较好,还是从哪些特征显著的,简单的不会遗忘的样本中学习比较好。
具体来说,作者从样本中捞了10k个点,分成两组,称为两个分区,用这两个分区的样本交替训练两个分类器。

这给到的一个启示是遗忘过的样本包含的信息量是更大的。基于此,作者考虑移除训练集中的一些样本,看看模型效果的变化。

上一篇 下一篇

猜你喜欢

热点阅读