BEiT v3

2022-12-14  本文已影响0人  Valar_Morghulis

官方解读:https://zhuanlan.zhihu.com/p/559904514

原文:https://arxiv.org/abs/2208.10442

注意:BEiT v2和BEiT v3似乎都是2022年8月份提出的

摘要:语言、视觉和多模式预训练的大融合正在出现。在这项工作中,我们介绍了一个通用的多模态基础模型BEiT-3,它在视觉和视觉语言任务上都实现了最先进的传输性能。具体而言,我们从三个方面推进了大融合:主干架构、预训练任务和模型扩展。我们为通用建模引入了多路转换器,其中模块化架构支持深度融合和模态特定编码。基于共享的主干,我们以统一的方式对图像(英语)、文本(英语)和图像-文本对(平行句子)进行掩蔽“语言”建模。实验结果表明,BEiT-3在对象检测(COCO)、语义分割(ADE20K)、图像分类(ImageNet)、视觉推理(NLVR2)、视觉问题解答(VQAv2)、图像字幕(COCO)和跨模态检索(Flickr30K,COCO)方面获得了最先进的性能。

上一篇 下一篇

猜你喜欢

热点阅读