大师兄的数据分析学习笔记(三十一):机器学习模型总结
2022-10-21 本文已影响0人
superkmi
大师兄的数据分析学习笔记(三十):半监督学习
大师兄的数据分析学习笔记(三十二):模型评估(一)
一、分类模型
二、回归模型
三、聚类
四、关联
五、半监督学习
六、模型的选择
-
在当前的环境下,靠一种模型解决所有问题不现实,所以面对不同的情况,需要选择不同的算法模型。
- 根据上图可以看出SKLEAN官网建议如下:
- 样本<50:获得更多数据
- 如果有标签化的数据:
- 样本<100k:使用线性的支持向量机
- 如果线性的支持向量机不工作:
- 如果是文本数据:使用朴素贝叶斯
- 如果不是文本数据:使用KNN
- 如果KNN不工作:使用集成支持向量机
- 样本>100k:使用梯度下降法
- 如果梯度下降法不工作:使用kernel approximation
- 如果没有标签化数据且类型的数量已知:
- 样本<10k:使用K-means
- 如果K-means不工作:使用层次聚类或GMM
- 向本>10k: 使用MiniBatch Kmeans
- 如果没有标签化数据且类型的数量未知:
- 样本<10k:使用MeanShift和VBGMM
- 样本>10k:靠运气
- 如果预测的不是类别,而是连续数值:
- 样本<100k:
- 少量重要特征:使用Lasso和ElasticNet
- 非少量重要特征:使用岭回归和SVR
- 如果岭回归和SVR不工作,使用和函数更复杂的SVR和集成算法
- 如果预测的不是类别、也不是连续值:
- 使用降维方式
- 如果降维方式不工作:
- 样本<10k:使用Isomap和spectral Embedding
- 如果Isomap和spectral Embedding不工作:使用LLE
- 样本>10k:使用kernel approximation