python

大师兄的数据分析学习笔记(三十一):机器学习模型总结

2022-10-21  本文已影响0人  superkmi

大师兄的数据分析学习笔记(三十):半监督学习
大师兄的数据分析学习笔记(三十二):模型评估(一)

一、分类模型

二、回归模型

三、聚类

四、关联

五、半监督学习

六、模型的选择

  • 样本<50:获得更多数据
  • 如果有标签化的数据
  • 样本<100k:使用线性的支持向量机
  • 如果线性的支持向量机不工作:
  • 如果是文本数据:使用朴素贝叶斯
  • 如果不是文本数据:使用KNN
  • 如果KNN不工作:使用集成支持向量机
  • 样本>100k:使用梯度下降法
  • 如果梯度下降法不工作:使用kernel approximation
  • 如果没有标签化数据类型的数量已知:
  • 样本<10k:使用K-means
  • 如果K-means不工作:使用层次聚类GMM
  • 向本>10k: 使用MiniBatch Kmeans
  • 如果没有标签化数据类型的数量未知:
  • 样本<10k:使用MeanShiftVBGMM
  • 样本>10k:靠运气
  • 如果预测的不是类别,而是连续数值:
  • 样本<100k:
  • 少量重要特征:使用LassoElasticNet
  • 非少量重要特征:使用岭回归SVR
  • 如果岭回归SVR不工作,使用和函数更复杂的SVR集成算法
  • 如果预测的不是类别、也不是连续值:
  • 使用降维方式
  • 如果降维方式不工作:
  • 样本<10k:使用Isomapspectral Embedding
  • 如果Isomapspectral Embedding不工作:使用LLE
  • 样本>10k:使用kernel approximation
上一篇下一篇

猜你喜欢

热点阅读