十大经典算法(三)
四、逻辑回归(线性算法)
Logistic Regression 虽然被称为回归,但其实际上是分类模型,并常用于二分类。Logistic 回归的本质是:假设数据服从这个分布,然后使用极大似然估计做参数的估计。原理:面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型的好坏。
Logistic 分布是一种连续型的概率分布,其分布函数和密度函数分别为(表示位置参数,为形状参数):
Sigmoid 函数就是 Logistic 的分布函数在=0,=1的特殊形式;
以二分类为例,对于所给数据集假设存在这样的一条直线可以将数据完成线性可分。
决策边界可以表示为 W1X1+W2X2+b=0,假设某个样本点 (x)=W1X1+W2X2+b>0那么可以判断它的类别为 1,这个过程其实是感知机。
Logistic 回归还需要加一层,它要找到分类概率 P(Y=1) 与输入向量 x 的直接关系,然后通过比较概率值来判断类别。
二、最大似然估计 正则化
最大似然估计:
找到 β0, β1 值让似然概率最大化
目标函数 损失函数(代价函数 cost functon):
参数估计优化的目标->损失最小化
对数似然损失函数 (log-likehood loss function)
对β 优化求解的算法:梯度下降
寻找让损失函数 J(β)J(β) 取得最小值时的 β
正则化:
损失函数中增加惩罚项:参数值越大惩罚越大–>让算法去尽量减少参数值
损失函数 J(β):
● 当模型参数 β 过多时,损失函数会很大,算法要努力减少 β 参数值来让损失函数最小。
● λ 正则项重要参数,λ 越大惩罚越厉害,模型越欠拟合,反之则倾向过拟合。
● L1 正则化得到稀疏的权重值(可理解为去掉特征项权值)
● L2 正则化得到平滑的权值(可理解为减少特征项权重的比重)