Logistic Regression

2018-11-11 本文已影响0人 rssivy

Logistic Regression原理

逻辑回归模型本质上属于对数线性模型

下面对逻辑回归模型的原理进行介绍，同时介绍逻辑回归模型的学习算法（梯度下降法和拟牛顿法）

逻辑回归模型

logistic分布

设X是连续随机变量，X具有下列分布函数的密度分布：

image.png

求导可得

image.png
这里面，是位置参数（对称轴），是形状参数（越大图像越宽瘪，越小图像越细高）

image.png

logistic分布

逻辑回归二分类模型

二分类逻辑回归，由条件概率分布P(Y|X)表示，形式为参数化的logistic分布，这里随机变量Y的取值只有0或1。模型的参数通过监督学习的方法来估计

逻辑回归模型：

看作是下面条件概率分布的模型

image.png

这里面，x是输入，Y是输出，w，b是参数，w为权值向量，b为偏置（没有偏置项 b，那么就只能在空间里画过原点的直线/平面/超平面。这时对于绝大部分情况，要求决策面过原点，加上这个偏置项b，才能保证分类器可以在空间的任何位置画决策面），w*x 是w和x的内积

分类模型计算两个概率值，比较两者大小，将x分到概率大的那一类去

其本质上可以理解成线性回归求预测值->二分类，想让输出值转换到0，1上，这个时候引入了一个sigmoid函数（S型曲线）：

image.png
普通线性模型：

image.png
求出所有w ，使误差函数最小
逻辑将回归将线性模型产生的预测值带入到sigmoid函数中，输出其对应的二分类概率

image.png
具体训练方法与线性回归一样，不同的是误差函数的求导

可以看到逻辑回归模型的一个特性：
其对数几率：

image.png

为x的线性函数
概率P

image.png
可以看到，逻辑回归就是将线性函数wx转换为概率值的一个模型，线性函数的值越接近正无穷，概率值越接近1，线性函数值越接近负无穷，概率值越接近0

模型参数估计

对于给定的训练数据集

image.png

可以应用极大似然估计法估计模型参数。
设

image.png
对数似然函数为：

image.png

求解参数w，只需求解对数似然函数最大值的情况
通常采用梯度下降法和拟牛顿法学习

从另一个角度来看，机器学习目的是求得最优化的目标函数，逻辑回归的另一种理解方式如下：

逻辑回归的损失函数：

image.png

没加入正则项的话，目标函数就是求代价函数的最小值，可以看到与上述求对数似然函数最大值是同一个问题

参考：

几率：一个时间发生的几率odds是指该事件发生的概率与该事件不发生的概率的比值，即p/1-p。
对数几率：该事件的几率的对数值，既log(p/1-p)
似然函数：一种关于统计模型参数的函数。给定输出x时，关于参数θ的似然函数L(θ|x)（在数值上）等于给定参数θ后变量X的概率：L(θ|x)=P(X=x|θ)
对数似然函数：涉及到似然函数的许多应用中，更方便的是使用似然函数的自然对数形式，即“对数似然函数”。
似然函数取得最大值表示相应的参数能够使得统计模型最为合理：使得发生的样本出现的可能性最大。这就是最大似然估计的核心。
最大似然估计的做法是：首先选取似然函数（一般是概率密度函数或概率质量函数），整理之后求最大值。实际应用中一般会取似然函数的对数作为求最大值的函数，这样求出的最大值和直接求最大值得到的结果是相同的。
逻辑回归跟最大熵模型没有本质差别。逻辑回归是最大熵相应类别为二类时的特殊情况
指数簇分布的最大熵等价于其指数形式的最大似然。
二项式分布的最大熵解等价于二项式指数形式(sigmoid)的最大似然；
多项式分布的最大熵等价于多项式分布指数形式(softmax)的最大似然。

Logistic Regression

Logistic Regression原理

逻辑回归模型

logistic分布

logistic分布

模型参数估计

参考：

猜你喜欢

热点阅读