BEiT v3

2022-12-14 本文已影响0人 Valar_Morghulis

官方解读：https://zhuanlan.zhihu.com/p/559904514

原文：https://arxiv.org/abs/2208.10442

注意：BEiT v2和BEiT v3似乎都是2022年8月份提出的

摘要：语言、视觉和多模式预训练的大融合正在出现。在这项工作中，我们介绍了一个通用的多模态基础模型BEiT-3，它在视觉和视觉语言任务上都实现了最先进的传输性能。具体而言，我们从三个方面推进了大融合：主干架构、预训练任务和模型扩展。我们为通用建模引入了多路转换器，其中模块化架构支持深度融合和模态特定编码。基于共享的主干，我们以统一的方式对图像（英语）、文本（英语）和图像-文本对（平行句子）进行掩蔽“语言”建模。实验结果表明，BEiT-3在对象检测（COCO）、语义分割（ADE20K）、图像分类（ImageNet）、视觉推理（NLVR2）、视觉问题解答（VQAv2）、图像字幕（COCO）和跨模态检索（Flickr30K，COCO）方面获得了最先进的性能。

BEiT v3

猜你喜欢

热点阅读