深度学习阅读笔记(一):小样本学习综述——Learning fr

2020-11-06  本文已影响0人  酥小肉爱学习

Abstract

Few sample learning (FSL) is significant and challenging in the field of machine learning. The capability of learning and generalizing from very few samples successfully is a noticeable demarcation(划分) separating artificial intelligence and human intelligence since humans can readily establish their cognition to novelty from just a single or a handful of examples whereas machine learning algorithms typically entail hundreds or thousands of supervised samples to guarantee generalization ability.

主要工作

  1. Review the evolution history as well as the current progress on FSL
  2. Categorize FSL approaches into the generative model based and discriminative model based kinds in principle
  3. Emphasize particularly on the meta learning based FSL approaches
  4. Conclude several extensional research topics beyond vanilla FSL
  5. Highlight the important FSL applications covering many research hotspots in computer vision, natural language processing, audio and speech, reinforcement learning and robotic, data analysis, etc.

1 INTRODUCTION

人类智慧 vs 机器学习

The prominent human learning ability benefits from prefrontal cortex (PFC) and working memory in human brain, especially the interaction between PFC-specific neurobiological mechanism and previous experience stored in the brain.

Most cutting-edge machine learning algorithms are data-hungry , especially the most widely known deep learning that has pushed artificial intelligence to a new climax.

深度学习成功的要素

实际应用中的困难

无法得到足够多的带标签的训练样本

研究意义

最优化角度的解释

A typical problem is that if the function space \mathcal{F} from which the learning algorithm selects \mathcal{f} is too large,
the generalization error would become big and thereby over-fitting may arise easily.

If \mathcal{D}_{t} contains more supervised samples, there will be more constraints on \mathcal{f}, which implies the space of function \mathcal{f} will be smaller, then it will bring a good generalization. Conversely, a scarce supervised training set would naturally lead to a poor generalization performance.

Essentially , the constraint formed by each supervised sample can be regarded as a regularization on the function \mathcal{f}, which is able to compress the redundant optional space of function \mathcal{f} and thereby reduce its generalization error.

本文创新与贡献

  1. 近20年的文献综述

  2. Provide an understandable hierarchical taxonomy that categorizes existing FSL approaches into the generative model based approaches and discriminative model based approaches in light of their modeling principles to FSL problems

  3. Meta learning based FSL approaches

    1. Learn-to-Measure
    2. Learn-to-Finetune
    3. Learn-to-Parameterize
    4. Learn-to-Adjust
    5. Learn-to-Remember
  4. Extensional research topics

    1. Semi-supervised FSL

    2. Unsupervised FSL

    3. Cross-domain FSL

    4. Generalized FSL

    5. Multi-modal FSL

  5. FSL applications in various fields

2 OVERVIEW

2.1 发展历史

两个例子:

  1. 稀有动物的识别
  2. 新用户识别

首次提出:

FLS problem firstly attracted the attention of E. G. Miller et al. in 2000, who postulated a shared density on digit transforms and proposed a Congealing algorithm to bring test digit image into correspondence with class-specific congealed digit image.

Fig1. 论文大纲

两个发展阶段(2015年为两阶段分水岭):

  1. 2000-2015: non-deep period(大都基于生成模型)
  2. 2015-NOW: deep period

Non-deep Period

生成模型:

通过估计联合分布P(\mathcal{X,Y})或者条件分布P(\mathcal{X|Y}),之后用贝叶斯方法进行预测:

  1. Congealing algorithm:首次提出FSL
  2. Variational Bayesian framework(VBF):首次阐明“one-shot learning”概念
  3. Bayesian Program Learning(BPL):reaches a human-level one-shot character classification performance by capitalizing on the human abilities of compositionality(组合), causality(因果) and imagination(想象) in the cognition of novel concepts.

判别模型:

追求条件分布P(\mathcal{X|Y}),直接预测观察样本的概率,在Non-deep阶段不是主流的方法。

Deep Period

2015年提出Siamese CNN,在成对样本上学习类不相关的相似度矩阵,标志Deep Period到来。随后的方法充分利用神经网络在特征表示和处理端到端模型优化方面的优势,从不同角度解决各类FSL问题,例如:data augmentationmetric learningmeta learning等。

虽然该阶段有一些基于生成模型的文章,但判别模型才是该阶段的主导方法,特别是出现了大量基于元学习的FSL方法。值得注意的是,元学习成为FSL的主流思想。该阶段使得FSL有了许多直接应用与外延方法。

总结

从FSL的发展历史可以看出:1.从非深度到深度的转变,2.生成模型和判别模型的转换,3.经典的元学习思想复兴。

2.2 符号与定义

符号

定义: Few Sample Learning

Given a task T described by a T-specific dataset {D}_{T} with only a few supervised information available, and a T-irrelevant auxiliary dataset {D}_{A}(if any), few sample learning aims to build a function f for task T that maps its inputs to targets using the very few supervision information in {D}_{T} and the knowledge in {D}_{A}.

注意:辅助数据集中的标签与训练数据集中的标签交集为空,否则变为大样本学习问题。

任务还可细分为:binary FSL task和multi-class FSL task。

其他定义

2.3 问题分类

FSL问题总体解决方案如下:对于给定的x_j,预测类别的后验概率:
\hat{y}_{j}=\arg \max _{y \in \mathcal{Y}_{T}} p\left(y \mid x_{j}\right)

\hat{y}_{j}=\arg \max _{y \in \mathcal{Y}_{T}} p\left(x_{j} \mid y\right)p(y)

生成模型

利用一些潜在变量间接地将xy联系起来,使得条件概率分布p\left(x \mid y\right)可以顺利计算。

大部分此类模型的方法对潜在变量的分布有必要假设。

判别模型

三个主流的研究方向:数据的增强(augmentation)、度量学习(metric learning)和元学习(meta learning)。

数据的增强:根据是否利用额外的信息(例如:attribute annotation,word embedding),又可分为监督增强和无监督增强。

度量学习:与元学习中的Learn-to-Measure类似,找到一个度量空间,使得同类样本接近,不同类样本远离。

元学习:目前最流行的解决FSL问题的手段,通过多种视角达到:“learn-to-learn”的目的。主要分为以下五种类型:

3 GENERATIVE MODEL BASED APPROACHES

引例

x表示一张图片,y表示类别标签,他们之间往往无法直接建立数学表达式,需要借助中间潜在变量\mathbf{z}
p(x \mid y)=\int_{\mathbf{z}} p(x, \mathbf{z} \mid y) d \mathbf{z}=\int_{\mathbf{z}} p(\mathbf{z} \mid y) p(x \mid \mathbf{z}, y) d \mathbf{z}

Fig2. 简单推导示意图

下面介绍\mathbf{z}的几种形式。

Transformation

Congealing algorithm:假设每个类别都存在一个latent image,每个属于该类的图像都是通过该latent image经过潜在变换\mathbf{z}_{tran}生成的。需要说明的是,不同类别间共享该潜在变换,因此转换概率独立于类别,因此公式(3)可写为:
p(x \mid y)=\int_{\mathbf{z}_{tran}} p(\mathbf{z}_{tran}) p(x \mid \mathbf{z}_{tran}, y) d \mathbf{z}_{tran}
p(\mathbf{z}_{tran})可由辅助数据集{D}_{A}学习。

缺点:Congealing algorithm只能用于简单的数字或字符的灰度图像,对彩色的RGB图像进行共享变换在数学上是无法实现的。

Parameters

VBF方法使用概率模型度量一个物体存在于一个RGB图像中的概率,概率模型中需要学习许多参数\mathbf{z}_{para}。因此,VBF使用所谓的constellation model定义p(\mathbf{z}_{para} \mid y),利用变分法在辅助数据集{D}_{A}上估计\mathbf{z}_{para}

Superclass

在类别概念上引入超类的概念,提出层次贝叶斯模型(Hierarchical Bayesian model,HB)。关键在于同一个超类下的类别继承该超类相同的相似度量矩阵,通过超类变量\mathbf{z}_{sup},公式(3)可写为:
p(x \mid y)=\sum_{\mathbf{z}_{sup}} p(\mathbf{z}^{y}_{sup}) p(x \mid \mathbf{z}^{y}_{sup})
其中p(\mathbf{z}^{y}_{sup})= p(\mathbf{z}_{sup} \mid y)y所属超类的先验分布,p(x \mid \mathbf{z}^{y}_{sup})=p(x \mid z_{sup},y)是已知超类条件下的样本数据的概率分布。

Programs

BPL使用贝叶斯方法构建字符对象生成过程的模型。该程序对primitives, sub-parts, parts, types, tokens和images进行自底向上的解析分析。在生成过程中使用的中间类型与表示被认为是潜在变量z_{prog}。通过对每个字符概念使用特定的概率程序,BPL可以获得当前字符对象的组合性和因果性,同时进行一次分类;在给定样本后生成新的样本并产生新的字符类别。

Splits

Chopping model引入辅助数据集{D}_{A}中的随机数据分割\mathbf{z}_{spl}作为潜在变量度量原始图像x与类别标签y之间的关系。该模型在{D}_{A}上进行多次分割,将1类分给辅助标签的一半,0类分给另一半,同时对每个分割训练预测器。对于{D}_{T}中的图像,Chopping model合并来自所有特定分割的预测器的预测值来实现贝叶斯后验决策。

Reconstruction

与BPL不同,CMP模型不依赖字符图片上动态笔划的知识。该模型的核心假设与BPL类似:同类别的图像共享相同的块状结构。首先{D}_{trn}中每个类别的样本进行组合,之后用AND-OR图重构{D}_{tst}中的测试样本。重构的本质在于生成用于为测试集分类的潜在变量\mathbf{z}_{rec}

Statistics

神经统计学模型构建了一个深度网络结构生成统计量,该统计量封装了对每个{D}_{trn}的生成模型。具体来说,该统计量被描述为在潜在空间中指定了均值和方差的特定的正态分布。同时利用潜在变量\mathbf{z}_{stat},神经统计学模型可以实现少样本学习的生成和预测任务。

总结

除了神经统计学模型,其余模型都是在非深度阶段诞生的。

缺点

  1. 大部分模型均根据特定的情境或数据量身定制,模型缺乏可扩展性(泛化性)。
  2. 这些模型的实验结果基于的训练数据集各不相同,没有baseline。

4 DISCRIMINATIVE MODEL BASED APPROACHES

基于判别模型的FSL方法利用训练数据{D}_{trn}直接构建后验概率模型p(y \mid x),该模型通常包含一个特征提取器和预测器。例如,在少样本图像识别任务中,特征提取器和预测器可能分别为CNN和softmax层。由于训练样本较为稀少,这样构造的模型很容易发生过拟合,因此,基于判别模型的FSL方法通过不同的角度构建后验概率模型p(y \mid x)

4.1 Augmentation

一种直观的增加样本数量或增加样本多样性的方法。

Augmentation的方法在视觉领域包括:旋转、反转、裁剪、平移以及加入噪声。但在FSL任务中,这些方法不足以使FSL模型的泛化性能得到本质提升,因此,在深度阶段提出了更为复杂的Augmentation模型、算法以及网络结构。下图给出了基于增强方法的一个总体框架:

Fig3. 增强方法的一般框架

在众多方法中,DAGAN直接在数据层面上对训练数据集{D}_{trn}进行Augmentation,其他方法均在特征层面对训练样本进行Augmentation。

在进行数据Augmentation时,根据是否需要外部信息(例如:语义属性、词向量),可将基于FSL的Augmentation方法进一步划分为监督和无监督两类。

4.1.1 Supervised Augmentation

如下图所示,将特征空间(feature space)记为\Omega_{fe},外部信息空间(side information space)记为\Omega_{si},学习到的增强\mathcal{A}(*)本质上是从\Omega_{si}\Omega_{fe}上的映射,只是映射的方法和使用的模型各不相同。

Fig4. 带监督的增强方法

\mathbf{x}=\mathbf{w} \cdot a+\mathbf{b}+\epsilon

Fig5. FTT示意图 Fig6. AGA示意图

4.1.2 Unsupervised Augmentation

Fig7. SH示意图 Fig8. Hallucinator示意图

总结

增强方法与其他方法并不冲突,反而可以作为其他方法的补充:例如上述方法可作为元学习的插件,或者通过增强将原训练样本D_{trn}扩充为D_{trn}^{aug},再利用其他FSL方法完成学习目标。

4.2 Metric Learning

度量学习的目标为学习一个相似度矩阵S(*,*),其中相似的样本对有较高的相似度得分,不相似的样本对分值较低。如下图所示,基于度量学习的FSL方法利用辅助数据集创建相似度矩阵,之后用于预测。相似度矩阵可用距离、网络或其他可行的算法构建,只要能够度量两两特征间的相似度即可。下面介绍一些构建S的方法。

Fig9. 度量学习方法的一般框架

d\left(x_{i}, x_{j}\right)=\sqrt{\left(x_{i}-x_{j}\right)^{\top} A\left(x_{i}-x_{j}\right)}=\left\|W x_{i}-W x_{j}\right\|_{2}

\ell=\sum_{i, j} \exp \left(-y_{i j} K\left(x_{i}, x_{j}\right)\right)

\ell=\sum_{i, j} y_{i j} \log \mathbf{p}\left(x_{i}, x_{j}\right)+\left(1-y_{i j}\right) \log \left(1-\mathbf{p}\left(x_{i}, x_{j}\right)\right)

Fig10. Siamese Nets示意图 Fig11. SRPN示意图

\ell=\sum_{q}\left[q^{\top} k^{-}-q^{\top} k^{+}+\gamma\right]_{+}

\ell=\int_{-1}^{1} p^{-}(s)\left[\int_{-1}^{s} p^{+}(z) d z\right] d s=\mathbb{E}_{s \sim p^{-}}\left[\int_{-1}^{s} p^{+}(z) d z\right]

4.3 Meta Learning

元学习的思想早在20世纪90年代就被提出了。随着深度学习的普及,一些研究提出利用元学习策略来学习优化深度学习模型。总的来说,元学习提倡跨任务学习,然后适应新的任务,如图所示,其目的是在任务层面上学习,而不是在样本层面上学习:学习“任务不可知的”学习系统,而不是有具体任务的模型。

Fig12. 元学习的一般框架

FSL是验证跨任务元学习方法学习能力的天然试验台,每个任务中只有几个带标记的样本,元学习方法分为元训练和元测试两个阶段。

在元训练阶段,通过在辅助数据集D_{A}上构建许多独立的监督学习任务:T \sim p(T)(称为“episode”),其中P(T)定义了任务的分布。训练过程学习如何适应未来相关的任务。“相关”意味着未来的任务与训练任务都来自于P(T),遵循相同的任务范式,例如所有的任务都是C-way,K-shot的问题。每个训练任务T都有特定的任务数据集D_{T}= \{ D_{trn},D_{tst}\}

在元测试阶段,训练好的模型在新的任务:T \sim p(\cal T)上进行测试,测试标签空间与元训练期间的标签空间是不相交的。训练集和测试集又被称为支持集(描述集)和查询集,因此其中的样本又被称为支持样本和查询样本。

元学习的优化任务为找到在所有任务上期望损失L(*;\theta)达到最小的模型参数\theta
\min _{\theta} \mathbb{E}_{T \sim P(T)} L\left(D_{T} ; \theta\right)
必须强调,元学习是一种高层次的跨任务学习策略,而不是一种特定的FSL模型。通常将基于元学习的FSL方法分为:L2M、L2F、L2P、L2A和L2R。

4.3.1 Learn-to-Measure

L2M方法继承了度量学习的基本思想(参考度量学习基本思想图),只是与上文介绍的度量学习在实现级别上有所不同:L2M方法希望学习到可以跨任务转移的相似度矩阵。

数学语言描述:对于任务T,令x_{i}D_{trn}上的支撑样本,x_{j}D_{tst}上的查询样本,f(*;\theta_{f})g(*;\theta_{g})分别表示支撑样本和查询样本的embedding模型。此外,所有L2M方法都包括一个度量模块S(f,g;\theta_{S})用于度量支撑样本和查询样本的相似度,可能是一个无需参数的距离矩阵或可学习的网络结构。该度量模块输出的相似度作为查询样本的最终预测概率。现有的L2M方法的差异主要体现在f,g和S的设计和选择上。

Fig13. L2M方法的发展历史

最早的L2M方法是Micro-set学习,当时还没有提出元学习概念。该方法人为的从辅助数据集D_{A}中构造与测试场景类似的Micro-set,每个Micro-set包含几个属于非任务类的支持样本以及查询样本。嵌入模型f和g通过共享权重的线性投影(例如f=g)实现,相似度矩阵S通过欧氏距离得到。利用NCA方法度量最终的概率。实际上,Micro-set即为如今的episode,每个Micro-set都是一个元训练任务T。将线性投影改为基于深度学习的嵌入模型,例如CNNs,Micro-set学习成为经典的Prototypical Nets。Prototypical Nets用同类支持样本嵌入的中心作为该类的原型:
p_{c}=\frac{1}{K} \sum_{\left(x_{i}, y_{i}\right) \in D_{\text {trn }}} \mathbb{1}\left(y_{i}==c\right) f\left(x_{i} ; \theta_{f}\right)
之后同样利用基于欧氏距离的NCA方法预测后验概率:
P\left(y_{j}=c \mid x_{j}\right)=\frac{\exp \left(-d\left(g\left(x_{j} ; \theta_{g}\right), p_{c}\right)\right)}{\sum_{c^{\prime}=1}^{C} \exp \left(-d\left(g\left(x_{j} ; \theta_{g}\right), p_{c^{\prime}}\right)\right)}
其中f和g也是共享权重的嵌入模型。该L2M框架是许多后续FSL方法的基础。

基于深度学习的L2M方法被首次提出于Matching Nets。如图所示,通过度量查询样本x_{j}和支持样本嵌入后的余弦相似度预测查询样本x_{j}的后验概率:
p\left(\hat{y}_{j} \mid x_{j}, D_{\text {trn }}\right)=\sum_{\left(x_{i}, y_{i}\right) \in D_{\text {trn }}} a\left(x_{j}, x_{i}\right) \cdot \mathbf{y}_{i}

Fig14. Matching Nets示意图

其中,\mathbf{y}_{i}是一个C维的one-hot标签向量,且:
a\left(x_{j}, x_{i}\right)=\frac{\exp \left(c\left(g\left(x_{j} ; \theta_{g}\right), f\left(x_{i} ; \theta_{f}\right)\right)\right)}{\sum_{(x, y) \in D_{\text {trn }}} \exp \left(c\left(g\left(x_{j} ; \theta_{g}\right), f\left(x ; \theta_{f}\right)\right)\right)}
Matching Nets与Prototypical Nets区别:(1)嵌入模型f和g为两个不同的网络结构;(2)距离度量方式为余弦相似度。

Relation Net利用一个可以学习的CNN度量相似性,输入支撑样本和查询样本的feature map的连接,输出相似度得分r\left(x_{i}, x_{j}\right)

Fig15. Relation Net示意图

其中:
r\left(x_{i}, x_{j}\right)=h\left(\mathcal{C}\left(f\left(x_{i} ; \theta_{f}\right), g\left(x_{j} ; \theta_{g}\right)\right) ; \theta_{h}\right) \in[0,1]
其中:f=g\cal C为feature map的连接体。需要注意输入的是feature map而非feature vector。

4.3.2 Learn-to-Finetune

理解finetune:


Fig16. Finetune的理解

L2F(微调)方法希望利用少量的支持样本调整任务T的一个基础学习器,使得基础学习器在这些样本上快速收敛(在几个参数更新步中)。一般来说,每个L2F方法都包含一个基础学习器和一个元学习器。基础学习器针对特定的任务,输入样本后输出预测的后验概率,基础学习器通过元学习器(更高层次)进行学习。元学习器通过一系列元训练任务,最大化基础学习器在所有任务中的综合泛化能力。

\theta_{b}\theta_{m}表示基础学习器和元学习器的参数,将L2F的学习过程分为两个层次:跨任务的逐步学习,目的在于优化\theta_{m},促使基础学习器可以快速学习每个特定任务。

MAML具有很强的可解释性,对元学习和FSL领域均有深远的影响,其核心思想是通过交替任务训练策略寻找一个好的\theta_{b}的初始值,使得基础学习器能够使用少样本即可快速推广到新的任务中。具体来说,当基础学习器处理一个任务T时,其一步更新后的参数计算方式为:
\theta_{b}^{T}=\theta_{b}-\alpha \nabla_{\theta_{b}} L\left(D_{\mathrm{trn}}^{T}, \theta_{b}\right)
在元学习层次,MAML通过平衡更新后的基础学习器在各个任务中的损失,来更新元学习器的参数:
\theta_{m}=\theta_{m}-\beta \nabla_{\theta_{m}} \sum_{T \sim P(T)} L\left(D_{\mathrm{tst}}^{T}, \theta_{b}^{T} \right)
注意:在MAML中,元学习器其实是基础学习器,即,元学习器参数满足\theta_{m}=\theta_{b}。公式(18)是快速的学习过程,目的是将基础学习器的参数调整至适用于特定任务,而公式(20)是逐步的学习过程,目的是为基础学习器提取适当的初始化参数。
\theta_{b}=\theta_{b}-\beta \sum_{T \sim P(T)}\left(\theta_{b}-\theta_{b}^{T}\right)
MAML的发展路径如图所示:

Fig17. MAML的发展历史

使用基于LSTM的元学习器在少样本条件下对基础学习器进行微调。如图所示,基于LSTM的元学习器以基础学习器对每个支持样本的损失和梯度作为输入,将其隐藏状态作为更新后的基础学习器参数,用于处理下一个支持样本。

Fig18. Meta-Learner LSTM示意图

在该框架下,普通的梯度迭代方法被LSTM取代,专门针对需要参数更新的场景学习合适的更新。

4.3.3 Learn-to-Parameterize

主要思想:如下图所示,类似于L2F,L2P也包含一个基学习器和一个元学习器,希望为一个新的任务参数化基学习器或基学习器的某一部分,是指能够专门化的处理该任务。与L2F的区别在于,L2P中的两个学习器是同时训练的,元学习器实际上是一个针对特定任务的参数生成器。对于一个任务T,L2P方法学习如何将基学习器参数化以使其适用于特定的任务。参数化的部分可能包括:预测器部分,中间的特征提取层部分甚至整个基学习器。

Fig19. L2P的主要思想

将一个Siamese Nets作为基学习器,其中一个中间的卷积层针对特定的任务进行动态学习。再将另一个单向的Siamese Nets作为元学习针对特定任务学习上述动态卷积层的权重。

Fig20. Siamese Learnet

构造了一个MetaNet模块(元学习器),基于少量样本,生成TargetNet模块(基学习器)的权重。具体来说,在MetaNet模块中,输入支撑样本的平均特征,通过多元高斯采样后的编解码器生成基学习器每个卷积层的权重。

Fig21. LGM-Net示意图

4.3.4 Learn-to-Adjust

主要思想:L2A针对特定样本自适应调整基学习器中的计算流或计算节点,使该样本与基学习器兼容。L2A与L2P类似,都是利用元学习器调整改变基学习器,主要区别在于:(1)L2A对基学习器的改变程度较轻,只对其进行一些增量的调整,而不是对基学习器或其中某一部分进行完全的参数化干预。(2)L2A的调整是针对特定样本的,而L2P的调整是针对特定任务的,因此L2A是更细粒度的调整。

Fig22. L2A主要思想

不同L2A方法的主要区别在于需要调整的部分以及调整的策略,如下表所示:

Fig23. 不同的L2A方法以及区别

4.3.5 Learn-to-Remember

主要思想:为FSL任务的支持样本建立sequence模型,将FSL任务视为sequence学习任务,查询样本应当与之前看到的信息(支持样本)匹配。因此,L2R方法的基学习器通常需要使用temporal network处理支持样本的信息。


Fig24. L2R主要思想

总结

L2M方法不受测试场景中特定设置的限制:只对样本之间的距离进行度量后进行推断,不论类别个数与样本数量的多少。

L2F方法使用少样本对每个新任务进行微调,可能会导致对每个任务准备的适应周期较长。

L2P和L2A面临的挑战是需要学习大量的参数,此外,元学习器的模型复杂度很大程度上取决于它需要生成的参数的数量,增加了训练时的难度。

由于sequence学习中存在长期依赖的上限效应,L2A方法难以推广到一个新的支持样本略多的任务中。

4.4 Other Approaches

其他基于判别模型的小众FSL方法:

  1. 多任务学习
  2. 自监督学习
  3. ……

5 EXTENSIONAL TOPICS

主要介绍了几个新兴的FSL任务下的扩展内容,基于不同的应用场景和需求给出了对应的FSL策略。

5.1 Semi-supervised Few Sample Learning

S-FSL:在N-way K-shot任务的训练集D_{trn}中,不仅包含NK个带标签的支持样本,还有一些无标签的样本,他们可能属于C也可能不属于。可由这些样本共同训练FSL任务系统。使用的一些方法有:

5.2 Unsupervised Few Sample Learning

U-FSL:辅助数据集D_{A}完全不带标签:比经典的FSL更为通用的设置。主要目标是设置相对温和的FSL任务执行条件,弱化构建FSL学习器所需要的先决条件,因为收集一个属于非任务类的未标记辅助集比收集一个标记数据集更容易实现。例如,在大数据时代,人们可以通过网络爬虫轻松获取大量的未标记图像。

5.3 Cross-domain Few Sample Learning

经典的FSL方法默认辅助数据与样本数据来自相同的领域,当FSL要处理的任务以及样本来自与辅助数据集不同的领域时,需要使用C-FSL方法。辅助数据集和任务数据集之间的跨域转换对FSL任务提出了更高的要求。

Fig25. 跨领域FLS

C-FSL与领域自适应(DA)这一机器学习的经典研究方向密切相关。同时,也有一些基于DA的FSL方法,只是一些设置与C-FSL方法不同:DA中的标签在源域和目标域之间共享,而C-FSL任务中的标签在辅助数据集和任务数据集之间是分离的。主要方法有:

5.4 Generalized Few Sample Learning

经典的FSL方法很容易出现“遗忘”的问题,即:模型只对新任务中预定义的类进行推断,无法对辅助集中的类别进行推断。然而,在许多类和样本动态出现的应用中,FSL系统常常面临类与类之间训练数据极端不平衡的现象,即有些类拥有足够的训练样本,而有些类只有很少的训练样本。在这种情况下,对于数据有限的新任务类,在不忘记以前的非任务类的同时,提高FSL的学习能力是至关重要的。因此,G-FSL的重点是使FSL模型能够同时处理D_AD_T中的所有类。主要方法有:

5.5 Multimodal Few Sample Learning

FSL使用的数据可能来自不同的模态。M-FSL主要分为以下两个阶段:多模态匹配以及多模态融合。

Fig26. 多模态FSL

6 APPLICATIONS

7 FUTURE DIRECTIONS

References

[1]Lu J, Gong P, Ye J, et al. Learning from Very Few Samples: A Survey[J]. arXiv preprint arXiv:2009.02653, 2020.

上一篇 下一篇

猜你喜欢

热点阅读