机器学习算法应用场景及优缺点

2020-08-11  本文已影响0人  程南swimming

贝叶斯

应用:垃圾邮件过滤

LR和FM

在线广告系统的click model通常使用logistic regression模型

应用经验之处理特征

  1. 如果连续变量,注意做标准化处理。LR对样本分布敏感,所以要注意样本的平衡性(y=1不能太少)样本量足的情况下采用下采样,不足的情况用上采样。

  2. LR对于特征处理非常重要,常用的处理手段包括:通过组合特征引入个性化因素;注意特征的频度;聚类、分桶。但是LR不怕特征大,GBDT比较怕。对于连续变量的离散化,可以用cart(GBDT)查看离散的结果,生成新特征,最用LR。
    gbdt为什么怕特征大?是不是因为底层是决策树

  3. LR和FM对于稀疏高维特征处理时无压力的,GBDT对于连续值自己会找到合适的切分点,xgboost也可以处理分类类型的特征,无需one-hot,平展开的高维稀疏特征对它没有好处。

应用经验之算法调优

  1. 算法调优方面,选择合适的正则化,正则化系数,收敛阈值e、迭代轮数,调整loss function给定不同权重;

应用经验之数据处理

  1. LR和SVM 对于线性切分都有着比较好的表现,对于非线性切分,必须在原始数据上做一些非线性变换。LR必须做feature mapping,比如把x做个平方项,x1*x2等;SVM 则需要利用核函数
上一篇 下一篇

猜你喜欢

热点阅读