An image is worth 16 x 16 words:

2021-03-14 本文已影响0人 nowherespyfly

（可能）是第一次大规模的采用纯transformer做cv任务的文章，验证了transformer在cv领域的有效性，大大的挖坑之作。

ViT的网络结构其实很简单，就是一个普通的transformer结构，只不过把图像分成了16 x 16个patch，加上位置编码作为序列化数据输入transformer中。但是技术细节比较多，实验也做的非常充分，是一篇需要仔细阅读细节部分的文章。

实验结果其实很有意思，ViT跟普通的CNN比较性能，利用同样规模的数据集作预训练，结果是不一样的，小规模数据集下，如ImageNet-1K，resnet表现远优于ViT，但是增大数据集规模，ViT的性能增长幅度比resnet更大，当采用最大的JFT数据集时，ViT性能就会超过resnet了，可见之前其性能远没有达到饱和。

An image is worth 16 x 16 words:

猜你喜欢

热点阅读