@IT·互联网产品方法论不写就出局

数据分析之Logistic回归

2018-09-01  本文已影响23人  黄成甲

所有的线性回归分析中,因变量的类型都是连续变量,如果需要预测的变量类型为分类变量,则需要采用回归分析中的Logistic回归。

文/黄成甲

Logistic回归是针对因变量为分类变量而进行回归分析的一种统计方法,属于概率型非线性回归。在线性回归中,因变量是连续变量,那么线性回归能够根据因变量和自变量之间存在的线性关系来构建回归方程。但是,一旦因变量是分类变量,那么因变量与自变量之间就不存在这种线性关系了。这个时候就需要通过某种变换来解决这个问题,这个变换称为对数变换。

对数变换的目的就是将非线性问题转换为线性问题,这样就能够使用线性回归相关理论和方法来解决非线性回归的问题。

分类变量包括二分类和多分类。

(1)二分类:就是两个分类状态,例如用户是否购买商品、用户是否流失等都属于二分类;

(2)多分类:就是具有多个类别的状态,例如客户价值分类,可分为高价值客户、中价值客户、低价值客户。

二分类Logistic回归,也就是因变量只有两个分类值:1和0,对应“是”和“否”,或者“发生”,和“未发生”这样的状态。在模型预测中,我们不是直接得到分类值1和0,而是以发生的可能性大小来衡量。换句话说,就是得到一个介于0和1之间的概率值P,我们使用这个概率值P来进行预测因变量出现某个状态的可能性。

当概率值P大于等于0.5,且小于等于1,则因变量对应的分类值1,即“是”或“发生”;

当概率值P小于0.5,且大于等于0,则因变量对应的分类值0,即“否”或“未发生”。

Logistic回归应用场景
上一篇下一篇

猜你喜欢

热点阅读