机器学习常见模型总结

2019-10-30 本文已影响0人编程回忆录

线性模型

非常可靠的首选算法，适用于非常大的数据集，也适用于高维数据。
参考：
线性模型-线性回归
 线性模型-分类模型

只适用于分类问题。比线性模型速度还快，适用于非常大的数据集合高维数据。精度通常要低于线性模型。
参考：朴素贝叶斯分类器

速度很快，不需要缩放，可以可视化，很容易解释。
参考：决策树

几乎总是比单棵决策树的表现要好，鲁棒性很好，非常强大。不需要数据缩放。不适用于高维稀疏数据。
参考:决策树集成

精度通常要比随机森林略高。与随机森林相比，训练速度更慢，但预测速度更快，需要的内存也更少。比随机森林需要更多的参数调节。
参考:决策树集成

对于特征含义相似的中等大小的数据集很强大。需要数据缩放，对参数敏感。
参考：核支持向量机

可以构建非常复杂的模型，特别是对于大型数据集而言。对数据缩放敏感，对参数选取敏感。大型网络需要很长的训练时间。
参考：神经网络（深度学习）

面对新数据集，通常最好从简单模型开始，比如线性模型、朴素贝叶斯或最近邻分类器，看能得到什么样的结果。对数据进一步了解之后，你可以考虑用于构建更复杂模型的算法，比如随机森林、梯度提升决策树、SVM或神经网络。