论文阅读"Masked Autoencoders Are Sca

2022-06-22  本文已影响0人  掉了西红柿皮_Kee

He K, Chen X, Xie S, et al. Masked autoencoders are scalable vision learners[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 16000-16009.

摘要导读

本文作者提出了掩码自动编码器(Masked Auto-Encoders, MAE),并证明了这是一种可扩展的计算机视觉自监督学习器。 MAE对输入图片的随机块区域进行掩码,并且去重构这些缺失的区域。整个模型的设计主要依赖于两个核心的设计。具体来说,本文首先设计了一个非对称的encoder-decoder结构,encoder部分仅使用可见区域的子集进行操作(而不包含那些被mask掉的token),以及一个轻量级的解码器,其使用encoder学习到的隐含表示以及mask token来对原始的输入图片进行重构。其次,作者发现对输入图片进行高比例的mask,可以产生一项有意义的自监督任务。通过耦合这两种设计,可以有效的训练大型模型。

模型浅析

MAE可以看做是一种更加通用的去噪自编码器。


MAE

在预训练阶段,图片分块中75%的的部分被masked。MAE中的encoder部分应用于可见的图片分块。在encoder之后引入了mask tokens,将编码后的图片分块和被masked的token一起喂入一个小的decoder中,对原始的图片输入进行重构。在预训练之后,decoder直接被弃用而encoder部分则被作用于未损坏的完整图片以用于识别任务。


对基于图片的大模型进行预训练,可以看做BERT在图片领域的应用。对于我们这种资源有限的小实验室,可能。。是无法实现了。但是对模型思路的设计,还是可以学习一下。比如GraphMAE,似乎就具有很强的实操性。


上一篇 下一篇

猜你喜欢

热点阅读