机器学习之旅

LR需要理解的一些内容

2019-12-06  本文已影响0人  slade_sal

本系列为深入篇,尽可能完善专题知识,并不会所有的都会出现在面试中,更多内容,详见:Reflection_Summary,欢迎交流。

另外,欢迎大家关注我的个人bolg知乎,更多代码内容欢迎follow我的个人Github,如果有任何算法、代码疑问都欢迎通过邮箱发消息给我。


logistic分布函数和密度函数,手绘大概的图像

LR推导,基础5连问

梯度下降如何并行化?

LR明明是分类模型为什么叫回归?

观测样本中该特征在正负类中出现概率的比值满足线性条件,用的是线性拟合比率值,所以叫回归

为什么LR可以用来做CTR预估?

  1. 点击行为为正向,未点击行为为负向,ctr需要得到点击行为的概率,lr可以产出正向行为的概率,完美match
  2. 实现简单,方便并行,计算迭代速度很快
  3. 可解释性强,可结合正则化等优化方法

满足什么样条件的数据用LR最好?

此处就用到了全概率公式推导,有可能会回到写出全概率公式&贝叶斯公式的问题中

LR为什么使用sigmoid函数作为激活函数?其他函数不行吗?

利用几率odds的意义在哪?

Sigmoid函数到底起了什么作用?

LR为什么要使用极大似然函数,交互熵作为损失函数?那为什么不选平方损失函数的呢

LR中若标签为+1和-1,损失函数如何推导?

如果有很多的特征高度相关或者说有一个特征重复了100遍,会造成怎样的影响?

为什么要避免共线性?

LR可以用核么?可以怎么用?

结论:可以,加l2正则项后可用

原因:

LR中的L1/L2正则项是啥?

lr加l1还是l2好?

这个问题还可以换一个说法,l1和l2的各自作用。
刚才我们说到l1对未知参数w有个前提假设满足拉普拉斯分布,l2对未知参数的假设则是正太分布,且都是零均值,单纯从图像上我们就可以发现,拉普拉斯对w的规约到0的可能性更高,所以对于特征约束强的需求下l1合适,否则l2

正则化是依据什么理论实现模型优化?

结构风险最小化:在经验风险最小化的基础上(也就是训练误差最小化),尽可能采用简单的模型,以此提高泛化预测精度。

LR可以用来处理非线性问题么?

为什么LR需要归一化或者取对数?

模型中对数据对处理一般都有一个标答是提升数据表达能力,也就是使数据含有的可分信息量更大

为什么LR把特征离散化后效果更好?离散化的好处有哪些?

逻辑回归估计参数时的目标函数逻辑回归的值表示概率吗?

lr的output是彼此之间相对谁的可能性更高,而不是概率,概率是事情发生的可能,lr的output不代表可能

LR对比万物?

LR梯度下降方法?

除此之外,比如ada和冲量梯度下降法会对下降的速率速度进行控制,也会对不同更新速度的参数进行控制,等等,多用于深度学习中

LR的优缺点?

除了做分类,你还会用LR做什么?

特征筛选,特征的系数决定该特征的重要性

你有用过sklearn中的lr么?你用的是哪个包?

sklearn.linear_model.LogisticRegression

看过源码么?为什么去看?

谈一下sklearn.linear_model.LogisticRegression中的penalty和solver的选择?

谈一下sklearn.linear_model.LogisticRegression中对多分类是怎么处理的?

我的总结

上一篇 下一篇

猜你喜欢

热点阅读