LR知识点梳理

2020-03-17  本文已影响0人  刘单纯
  1. LR适用场景
    LR适用于需要求解二分类概率的场景,例如CTR预估,金融风控等场景,CTR预估中,工业界常使用GBDT+LR进行在线的rank

LR是广义线性模型,其原理是找到决策边界,将空间划分为两部分。


决策边界.png

LR是分类模型,通过sigmod函数可以将线性函数的值域映射到[0,1]对应的概率

sigmod函数.png
  1. LR为什么又叫对数几率(odds)回归?


    几率.png
  2. LR的损失函数是什么,与极大似然估计之间的关系

  1. 通过梯度下降法求解LR的参数


    梯度下降.png

5.LR过拟合
当模型过拟合时,通常有以下几种方法进行处理

以2个特征为例,图中椭圆部分是误差等高线,越靠近紫色的部分误差越小。当不加约束的时候,经过梯度下降等优化算法会找到最靠近中心的w的取值。
当加上L1或者L2正则化后,优化的损失不仅要靠近紫色部分,也要考虑L1的菱形区域或L2的圆形区域的面积尽可能的小

对于L1来说,最优参数在(0,x)上,这时其中一个参数就不起作用,这也就是为什么L1会得到稀疏解;对于L2来说,圆形区域会与等高线接近坐标轴的地方相切,这样会得到比较小的解

  1. 特征为什么需要归一化
    由于需要使用梯度下降对参数优化,凡是使用梯度下降的算法,特征归一化有利于提高收敛速度


    image.png
  2. 为什么不使用MSE作为LR的损失函数
    对于LR来说,MSE不是凸函数,容易优化到局部最优值而无法继续收敛


    image.png
  3. 为什么LR适合离散型特征
    我们在使用逻辑回归的时候很少会把数据直接丢给 LR 来训练,我们一般会对特征进行离散化处理,这样做的优势大致有以下几点:

LR高配版 FM,FFM模型,这两个模型后续会写一篇单独的文章

上一篇 下一篇

猜你喜欢

热点阅读