物体识别+数据不足+解决办法

2018-04-20 本文已影响99人少寨主的互联网洞察

感谢@我爱机器学习知乎用户的回答，原文信息请点击：地址
构建数据集注意以下几点：

1.在训练神经网络做物体识别算法时每个类需要大概1000张样本作为训练数据进行学习，这个标准来源于ImageNet，这样的数据量让AlexNet也能训练出一个好的模型，所以够用。
2.如果每个类别的数据量少于100张时，从0开始训练一个分类网络会比较难，但是可以使用预训练好的模型进行迁移学习。
3.数据集的质量和数量同样重要。挑选有代表性的图片来当做训练集。也就是说训练集所期望的图片应该尽可能的和部署环境所采集到的图片相似。
4.图像增强
- 传统的（scale，crop，rotating，brightening）
- 采用CG合成的场景来增强数据Virtual Worlds as Proxy for Multi-Object Tracking Analysis（CVPR2016)
- 使用GAN生成的数据来增强[1701.07717] Unlabeled Samples Generated by GAN Improve the Person Re-identification Baseline in vitro