大数据大数据,机器学习,人工智能机器学习与数据挖掘

线性分类模型(四)——贝叶斯观点下的Logistic回归

2018-10-25  本文已影响6人  Sui_Xin

本文首发于我的个人博客Suixin's Blog
原文: https://suixinblog.cn/2018/10/linear-classification4.html  作者: Suixin

拉普拉斯近似

目标:因为待近似的分布p(\pmb{z})不是高斯分布,故寻找一个高斯近似q(\pmb{z}),它的中心位于p(\pmb{z})的众数的位置。
思路:将待近似的分布p(\pmb{z})在众数\pmb{z}_0做泰勒展开,去掉三阶项以及更高阶。

假设待近似分布为Mp(\pmb{z})=\frac{f(\pmb{z})}{Z},在众数\pmb{z}_0处展开,有
\ln f(\pmb{z})\simeq \ln f(\pmb{z}_0)-\frac{1}{2}(\pmb{z}-\pmb{z}_0)^\top A(\pmb{z}-\pmb{z}_0)
其中,M\times M的Hessian矩阵A=-\nabla\nabla\ln f(\pmb{z})|_{\pmb{z}=\pmb{z}_0}。两边同取指数,有
f(\pmb{z})\simeq f(\pmb{z}_0)\exp\{-\frac{1}{2}(\pmb{z}-\pmb{z}_0)^\top A(\pmb{z}-\pmb{z}_0)\}
分布q(\pmb{z})正比于f(\pmb{z}),因此
q(\pmb{z})=\frac{|A|^\frac{1}{2}}{(2\pi )^\frac{M}{2}}\exp\{-\frac{1}{2}(\pmb{z}-\pmb{z}_0)^\top A(\pmb{z}-\pmb{z}_0)\}=\mathscr{N}(\pmb{z}|\pmb{z}_0,A^{-1})
其中,这个高斯分布well-define的前提为A是正定的,即驻点\pmb{z}_0必须为一个局部极大值。在实际应用拉普拉斯近似时需计算众数,一般通过数值优化算法得到。
缺点: 对于多峰问题会给出较差的结果。
优点: 在数据点较多的情况下,会更有用。

贝叶斯Logistic回归

Logistic回归不能进行精确的贝叶斯推断的原因:后验分布为先验分布与似然函数的乘积的归一化,而似然函数为一系列sigmoid函数的乘积。

对后验分布做拉普拉斯近似

假设参数\pmb{w}有高斯先验
p(\pmb{w})=\mathscr{N}(\pmb{w}|\pmb{m}_0,S_0)
其中,\pmb{m}_0S_0为固定的超参数。\pmb{w}的后验分布为
p(\pmb{w}|\textbf{t})\propto p(\pmb{w})p(\textbf{t}|\pmb{w})
化简可得对数后验为
\ln p(\pmb{w}|\textbf{t})=-\frac{1}{2}(\pmb{w}-\pmb{m}_0)^\top S_0^{-1}(\pmb{w}-\pmb{m}_0)+\sum_{n=1}^N\{t_n\ln y_n+(1-t_n)\ln(1-y_n)\}+Constant
其中,符号与上一篇文章一致。现在,只需极大化后验概率分布,求出MAP解\pmb{w}_{MAP},再根据前面的拉普拉斯近似结果可得后验分布的高斯近似为
q(\pmb{w})=\mathscr{N}(\pmb{w}|\pmb{w}_{MAP},S_N)
其中,
S_N^{-1}=-\nabla\nabla\ln p(\pmb{w}|\textbf{t})=S_0^{-1}+\sum_{n=1}^Ny_n(1-y_n)\pmb{\phi}_n\pmb{\phi}_n^\top

预测分布

给定一个新的特征向量\phi(\pmb{x}),类别C_1的预测分布可对后验概率p(\pmb{w}|\textbf{t})积分得到
p(C_1|\pmb{\phi},\textbf{t})=\int p(C_1|\pmb{\phi},\pmb{w})p(\pmb{w}|\textbf{t})d\pmb{w}\simeq\int \sigma(\pmb{w}^\top \pmb{\phi})q(\pmb{w})d\pmb{w}
具体求解预测分布过程见参考\S4.5.2

参考

“Pattern Recognition and Machine Learning”

上一篇下一篇

猜你喜欢

热点阅读