机器学习模型常见对比

2017-11-03  本文已影响139人  史春奇

​在“R语言和表数据分析”, 我们对常见的数据预处理流程给出一个大致的解决方案, 在这个基础上, 才能很好的谈数据质量data quality, 否则只是Garbage in garbage out。


大概有70%到80%的时间都会花在数据预处理Data Preprocess上, 然后20%的时间要花在对数据结果的可视化和解释(visualization & interpretation)。 真正在机器学习模型的选择和应用上的时间可能也就10%左右。当然, 这里是指应用, 如果是原创模型肯定不一样了。


但是花的时间少,不代表要求低, 只是要求能够熟练高效的应用。  这里给出部分模型对比的思考,抛砖引玉, 帮助大家熟练高效, 祝各位能在10%的时间显示出90%的实力。

常见学习模型对比和选择

有监督还是无监督Supervised VS Unsupervised

这个对比很明显, 但是目前强化学习(reinforcement learning)的横空出世, 或许有一天这些都不对了。


线性还是非线性Linear VS Non-Linear

如何把未知问题转化成已知问题, 如何把非线性转化成线性, 永远是很很需要的。


有没有先验With VS Without Prior

对于先验到底有没有决定性作用,贝叶斯派和非贝叶斯派还没有完全说服对方, 譬如深度学习的Hinton就说自己扬弃了先验(参考攒说 Geoff Hinton)。


是不是非参模型Parametric VS Non-Parametric

人都是很贱的, 很难统一的, 有些人要傻傻的不知道背后搞什么的编辑器(Word),有些人要可以控制一切的编辑器(Latex), 所以参不参看需求了, 或许跟视窗系统(Windows)横行一样,非专业人士更喜欢非参吧。


有没有集成学习Single VS Ensemble

引领一个10年的机器学习的突破,依然宝刀未老的集成学习,尤其对于表数据分析。


深浅学习 Shallow VS Deep

有个文章叫“THE NEURAL NETWORK ZOO” (http://www.asimovinstitute.org/neural-network-zoo/?_utm_source=1-2-2), 去动物园看看,蚯蚓和蛇一样很重要, 但是蛇更吓人。


在不在线Online VS Offline

分工越来越细, 在线学习的发展, 离不开H. Brendan McMahan 博士(CMU毕业,Google工作, 户外运动达人)在这个领域的坚持。



大数据还是大计算Huge Quantity VS Heavy Computation

求各种大数据小计算, 小数据大计算的经典案例。


并行,分布和异步Parallel VS Distributed VS Asynchronous

学分布式的都发达了, 可惜我去学Service了, 哭的一塌糊涂。


如何选择一个学习模型?

在这些模型认识的基础上, 然后就要思考如何选择了,做好一个选择, 需要对数据有认识(Data), 但这还是不够的, 还需要对需求有把握(Quality of service, QoS), 但这也是不够的, 还需要对应用人员的知识有掌握(Knowledge)。


如果所有问题都能很清晰的回答, 再回到前面模型的对比中进行选择, 或许会有所收获。

当然这里所有的说法, 都是技术出发, 但是我们知道好的业务数据分析是要从业务本身需求出发, 别忘记了服务于业务本身!

小结, 这里抛开数据预处理, 给定了模型选择的思考引子。

最后, 依然感谢, 我的师姐, 启明星辰副总裁张颖, 给予的美丽的封面图片!


上一篇下一篇

猜你喜欢

热点阅读