论文阅读:《Rethinking ImageNet pre-tr
今天好几个公众号都推荐了这篇文章。 有几个公众号老想着搞个 大新闻 ,.....
" 新智元 同志没说你,请坐下。 ''
.....
“ 没把你名字加粗, 请坐下。 ”
我对 transfer learning
了解不多,研一时听过一个博一的学姐做报告,因为手头的 医学影像数据集不够大,所以她准备主攻迁移学习,不知道坑踩得怎么样了。
当时我听完她的报告,有三点疑问:
-
医学影像与自然图像的差异太大了,从
imagenet-pretrained
那里继承得到的知识真的对医影处理任务有帮助吗?甚至可能是 抑制 ? -
迁移学习的一个好处是新网络的低级特征无需重头学起。但是我们的终极目标是提高任务的性能指标啊。低层的特征不应该是很好学到的吗 ?既然容易学习,并且 不能保证不同域的低层特征是一致 的,那就从头学呗,不考虑时间效率,迁移学习也就不需要了啊。
-
有没有更合理的,从 自然图像域到医学影像域 的迁移学习方法 ?
我相信自己手动复现过相关论文的,对 pre-train
的看法可能有更实际的看法。从知乎讨论,公众号文章下面的评论,可以看出大家比较理性,对这篇文章的 学术贡献价值的评价不是很高 ,起码没有公众号和个别人推崇得那么高
何在 introduction
尾段中,也给出了一个给 工业界 的建议:
“ our study suggests that collecting data and training on the target tasks is a solution worth considering, especially when there is a significant gap between the source pre-training task and the target task. ”
目前来看,特定任务 下的 高质、大量的数据才是王道。
有人埋怨这篇文章的理论其实很弱(所以看看公众号文章,就可以把握这篇文章的重点了,激起的讨论也比较多,理论高深的文章一般也曲高和寡)。 其实吧, 作者开头就是一句 “ we report .....” ,哈哈,所以这篇文章确实更像一篇 实验报告, 我们可以学学大牛是怎样写 report
的。
文章里面有很多值得注意的 实验细节, 像 3.1
节作者提到: batch-size
过小会让 bn 层
性能变差,三种现有的解决方案: pretrain
,group normalization
, SyncBN
。 跑过很多目标检测网络的科研人应该会学到更多东西,发现更多有趣的,或者有猫腻的东西。
文章我只略看了 1,2,3
部分, 后面我要去做自己的实验就没细看了,有机会去问问那个做迁移学习的学姐,问问她的看法。
这是根据文章 abstract
画得思维导图: