技术前沿·AI相关

论文阅读:《Rethinking ImageNet pre-tr

2018-11-23  本文已影响80人  月牙眼的楼下小黑

今天好几个公众号都推荐了这篇文章。 有几个公众号老想着搞个 大新闻 ,.....

" 新智元 同志没说你,请坐下。 ''

.....

“ 没把你名字加粗, 请坐下。 ”


我对 transfer learning 了解不多,研一时听过一个博一的学姐做报告,因为手头的 医学影像数据集不够大,所以她准备主攻迁移学习,不知道坑踩得怎么样了。

当时我听完她的报告,有三点疑问:

我相信自己手动复现过相关论文的,对 pre-train 的看法可能有更实际的看法。从知乎讨论,公众号文章下面的评论,可以看出大家比较理性,对这篇文章的 学术贡献价值的评价不是很高 ,起码没有公众号和个别人推崇得那么高

何在 introduction 尾段中,也给出了一个给 工业界 的建议:

our study suggests that collecting data and training on the target tasks is a solution worth considering, especially when there is a significant gap between the source pre-training task and the target task.

目前来看,特定任务 下的 高质、大量的数据才是王道

有人埋怨这篇文章的理论其实很弱(所以看看公众号文章,就可以把握这篇文章的重点了,激起的讨论也比较多,理论高深的文章一般也曲高和寡)。 其实吧, 作者开头就是一句 “ we report .....” ,哈哈,所以这篇文章确实更像一篇 实验报告, 我们可以学学大牛是怎样写 report 的。

文章里面有很多值得注意的 实验细节, 像 3.1 节作者提到: batch-size 过小会让 bn 层 性能变差,三种现有的解决方案: pretraingroup normalization, SyncBN。 跑过很多目标检测网络的科研人应该会学到更多东西,发现更多有趣的,或者有猫腻的东西。

文章我只略看了 1,2,3 部分, 后面我要去做自己的实验就没细看了,有机会去问问那个做迁移学习的学姐,问问她的看法。


这是根据文章 abstract 画得思维导图:

上一篇下一篇

猜你喜欢

热点阅读