机器学习算法应用场景及优缺点

2020-08-11 本文已影响0人程南swimming

贝叶斯

应用：垃圾邮件过滤

LR和FM

在线广告系统的click model通常使用logistic regression模型

应用经验之处理特征

如果连续变量，注意做标准化处理。LR对样本分布敏感，所以要注意样本的平衡性（y=1不能太少）样本量足的情况下采用下采样，不足的情况用上采样。
LR对于特征处理非常重要，常用的处理手段包括：通过组合特征引入个性化因素；注意特征的频度；聚类、分桶。但是LR不怕特征大，GBDT比较怕。对于连续变量的离散化，可以用cart（ＧＢＤＴ）查看离散的结果，生成新特征，最用LR。
gbdt为什么怕特征大？是不是因为底层是决策树
LR和FM对于稀疏高维特征处理时无压力的，GBDT对于连续值自己会找到合适的切分点，xgboost也可以处理分类类型的特征，无需one-hot,平展开的高维稀疏特征对它没有好处。

应用经验之算法调优

算法调优方面，选择合适的正则化，正则化系数，收敛阈值e、迭代轮数，调整loss function给定不同权重；

应用经验之数据处理

LR和SVM 对于线性切分都有着比较好的表现，对于非线性切分，必须在原始数据上做一些非线性变换。LR必须做feature mapping，比如把x做个平方项，x1*x2等；SVM 则需要利用核函数

上一篇下一篇

猜你喜欢

热点阅读