深度学习深度学习·神经网络·计算机视觉

One-Shot Generalization in Deep

2017-06-02  本文已影响219人  BookThief

一. 引述

人们可以从仅仅一个或一小撮样本中学习一个新的概念,而机器学习的标准算法需要成百上千个类似的样本

二. 人类水平的概念学习(Human Level Concept Learning;one-shot learning)

生成类似类型的新样本;

把它解析成部分,并理解它们的关系。

三. Background

四. Contribution

五. Attention机制

从源信息中有选择性地筛选出一部分信息被进一步利用的机制。
人脑的注意力模型,就是说你看到了整幅画面,但在特定的时刻t,你的意识和注意力的焦点是集中在画面中的某一个部分上,其它部分虽然还在你的眼中,但是你分配给它们的注意力资源是很少的

generative process(生成过程)使用了writing attention机制,在inference process(推理过程)使用了reading attention机制。

两个机制在概念上有区分,但实际运用过程中遵从一样的计算原理,这篇文章中采用了spatial attention,使用参数 λ 处理输入图像 x 以生成输出

**κh 和κw 是一维核,⨂是两个核的张量外积,*表示卷积**

Attention是很神奇的东西,想仔细了解,可以阅读下面的论文:

六. 高斯隐变量模型和变分推断

隐变量:具有不可直接观测特征综合性变量
概率模型的中心任务:给定观测(可见)数据变量X的条件下,计算潜在变量Z的后验概率分布P(Z | X)

**基于隐变量的贝叶斯概率模型**

EM算法:计算完整数据对数似然函数关于潜在变量后验概率分布的期望

实际应用中计算后验概率分布或者后验概率分布的期望是不可⾏的 :

公式角度:

选择合适的分布q来逼近真实的后验概率分布p!!

七. 变分推断(variational inference)变分贝叶斯(variational Bayes)

  • Gibbs Sampling这一类Monte Carlo算法,它们的做法就是通过抽取大量的样本估计真实的后验分布;

现在问题变成了如何选择一个q(X),使得估算的效率最高:
1.考虑概率分布q是⼀个受限制的类别
2.充分限制q可以取得的概率分布的类别范围,使得这个范围中的所有概率分布都是我们可以处理
3.这个范围充分⼤、充分灵活,使它对真实后验概率分布的⼀个⾜够好的近似

简单的分布怎么选:(假设各个变量之间相互独立砍断了所有变量之间的依赖关系)
1.Bethe自由能近似
2.平均场定理近似(复杂的多元积分变成简单的多个一元积分)

八. 变分自编码器(Variational Auto-Encoder,VAE)

**inference model是把观测数据变成隐含描述的encoder** generative model是decoder decoder 以为任何结构——MLP、CNN,RNN 或其他
想仔细了解变分自编码,变分推断,高斯隐变量的可以阅读下面文献:

此外,《PRML》《MLAPP》《Deep Learning》分别花了一个或两个大章介绍隐变量模型、变分推断、变分贝叶斯、变分自编码器

九. Sequential Generative Model(顺序生成模型)

顺序生成模型是VAE模型的一个自然延伸,用T时间段内的一系列隐变量来描述观测变量

顺序生成模型

十. result

评价指标NLL

不同难度的推理任务实验
(1)生成新样本
a) weak shot-geralization

**训练数据包括所有的字母,但是测试数据在每一个字母上删除了的三种字符类型。**

b) strong shot-geralization

**训练数据是部分字母,测试数据是剩余的字母。图从左到右分别是三种训练-测试数据大小的拆分方式。**
(2)生成新类型 **训练数据:外文字母表中的10个字母,要求机器生成同属于一个字母表中的类似字母**
上一篇下一篇

猜你喜欢

热点阅读