吴恩达《Machine Learning Yearning》学习
2018-10-05 本文已影响35人
城市守望者
第二部分:基本错误分析
1. 在开始一个新项目(特别是当你不是该领域的专家)的时候,选择最合适的方向通常很困难。所以不要试图一开始就能设计和构建出最完美的系统。应该以最快速度构建和训练出一个基本的模型。然后利用错误分析的方法来帮助团队确定最有前景的改进方向,并以此为基础迭代式地改进算法。
2. 通过人工检查约100个算法分类错误的开发集例子,并将这些例子归类,来进行错误分析。利用错误类型及占比等信息来确定各种解决方案的优先级。
3. 考虑将开发集数据分成肉眼检查用的开发集和黑盒开发集。如果肉眼检查用的开发集上的算法性能远好于黑盒开发集的,那么说明在肉眼检查用的开发集上发生了过拟合,你需要获取更多的数据。
4. 肉眼检查用开发集需要足够大,能够反映出算法的分类错误信息。对于很多应用而言,1000-10000个样本组成的黑盒开发数据集够用了。
5. 如果开发集不够大,那么使用整个开发集作为肉眼检查用开发集,用于人工进行错误分析、模型选择和超参数调节。