机器学习模型常见对比

2017-11-03 本文已影响139人史春奇

在“R语言和表数据分析”，我们对常见的数据预处理流程给出一个大致的解决方案，在这个基础上，才能很好的谈数据质量data quality，否则只是Garbage in garbage out。

大概有70%到80%的时间都会花在数据预处理Data Preprocess上，然后20%的时间要花在对数据结果的可视化和解释（visualization & interpretation）。真正在机器学习模型的选择和应用上的时间可能也就10%左右。当然，这里是指应用，如果是原创模型肯定不一样了。

但是花的时间少，不代表要求低，只是要求能够熟练高效的应用。这里给出部分模型对比的思考，抛砖引玉，帮助大家熟练高效，祝各位能在10%的时间显示出90%的实力。

常见学习模型对比和选择

有监督还是无监督Supervised VS Unsupervised

这个对比很明显，但是目前强化学习（reinforcement learning）的横空出世，或许有一天这些都不对了。

线性还是非线性Linear VS Non-Linear

如何把未知问题转化成已知问题，如何把非线性转化成线性，永远是很很需要的。

有没有先验With VS Without Prior

对于先验到底有没有决定性作用，贝叶斯派和非贝叶斯派还没有完全说服对方，譬如深度学习的Hinton就说自己扬弃了先验（参考攒说 Geoff Hinton）。

是不是非参模型Parametric VS Non-Parametric

人都是很贱的，很难统一的，有些人要傻傻的不知道背后搞什么的编辑器（Word），有些人要可以控制一切的编辑器（Latex），所以参不参看需求了，或许跟视窗系统（Windows）横行一样，非专业人士更喜欢非参吧。

有没有集成学习Single VS Ensemble

引领一个10年的机器学习的突破，依然宝刀未老的集成学习，尤其对于表数据分析。

深浅学习 Shallow VS Deep

有个文章叫“THE NEURAL NETWORK ZOO” （http://www.asimovinstitute.org/neural-network-zoo/?_utm_source=1-2-2），去动物园看看，蚯蚓和蛇一样很重要，但是蛇更吓人。

在不在线Online VS Offline

分工越来越细，在线学习的发展，离不开H. Brendan McMahan 博士（CMU毕业，Google工作，户外运动达人）在这个领域的坚持。

大数据还是大计算Huge Quantity VS Heavy Computation

求各种大数据小计算，小数据大计算的经典案例。

并行，分布和异步Parallel VS Distributed VS Asynchronous

学分布式的都发达了，可惜我去学Service了，哭的一塌糊涂。

如何选择一个学习模型？

在这些模型认识的基础上，然后就要思考如何选择了，做好一个选择，需要对数据有认识（Data），但这还是不够的，还需要对需求有把握（Quality of service， QoS），但这也是不够的，还需要对应用人员的知识有掌握（Knowledge）。

如果所有问题都能很清晰的回答，再回到前面模型的对比中进行选择，或许会有所收获。

当然这里所有的说法，都是技术出发，但是我们知道好的业务数据分析是要从业务本身需求出发，别忘记了服务于业务本身！

小结，这里抛开数据预处理，给定了模型选择的思考引子。

最后，依然感谢，我的师姐，启明星辰副总裁张颖，给予的美丽的封面图片！