深度学习-推荐系统-CV-NLP大数据,机器学习,人工智能机器学习与数据挖掘

线性模型——对数几率回归算法推导

2019-12-18  本文已影响0人  易码当先

目录

一、广义线性模型

二、对数几率回归的广义线性建模推导过程

三、极大释然估值法

四、对数几率回归的参数估计

五、总结


指数族分布是一类分布的总称,该分该分布的分布律(或者概率密度函数)的一般形式如下

指数族分布的概率密度函数

其中,\mu 称为该分布的自然参数;T(y)为充分统计量,视具体的分布而定,通常是等于随机变量y本身;a(\mu )为分配函数;b(y)为关于随机变量y的函数,常见的伯努利分布和正太分布均属于指数族分布。

 伯努利分布律密度函数如下:

经过恒等变形与指数族分布一般形式对比,可得:

伯努利分布各参数

因此,伯努利分布是指数族分布


广义线性模型三条假设

1、在给定x的条件下,假设随机变量y服从某个指数族分布;

2、在给定x的条件下,我们的目标是得到一个模型h(x)能预测出T(y)的期望值;

3、假设该指数族分布中的自然参数\mu x呈线性关系,即\mu =w^Tx

凡是能通过上面三条假设构建出的模型,我们称之为“广义线性模型”。


对数几率回归的广义线性模型推导:

分析:已知y是服从伯努利分布,而伯努利分布属于指数族分布,所以满足广义线性模型第一条假设,接着根据广义线性模型的第二条假设我们可以推得模型h(x)表达式为:h(x) =E[T(y|x)] =E[T(y)]=E[y|x] = E[y]

又因为E[y|x] = 1*p(y=1|x) +0 *p(y=0|x) =p(y=1|x) = \Phi

所以h(x) =\Phi

根据伯努利分布的第三条假设得到:

\mu  = \ln(\frac{\Phi }{1-\Phi } )

e^\mu =\frac{\Phi }{1-\Phi }

e^(-\mu) = \frac{1-\Phi }{\Phi } =\frac{1}{\Phi } -1

1+e^(-\mu )= \frac{1}{\Phi }

\frac{1}{1+e^(-\mu ) }  = \Phi ,代入h(x) = \Phi  = \frac{1}{1+e(-\mu )} =\frac{1}{1+e^-w^Tx  }=p(y=1|x) 。至此,基于广义线性模型的三条假设建模出了对数几率回归模型。


极大似然估计法:设总体的概率密度函数(或分布律)为f(y,w1,w2,w3,...,wk),y1,y2,...,ym为从总体中抽出的样本。因为y1,y2,...,ym相互独立同分布,于是,它们的联合概率密度函数(或联合概率)为L(y1,y2,...,ym;w1,w2,...,wk) = \prod_{i=1}^m f(y1,w1,w2,...,wk) ,其中w1,w2,...,wk被看作固定但是未知的参数。当我们已经观测到一组样本观测值y1,y2,...,ym时,要去估计未知参数,一种直观的想法就是,哪一组参数使得现在的样本观测值出现的概率最大,哪组参数可能就是真正的参数,我们就用它作为参数的估计值,这就是所谓的极大似然估计。


极大似然估计的具体方法:

通常记L(y1,y2,...,ym;w1,w2,...,wk) = L(w),并称其为似然函数。于是求w的极大似然估计就归结为求L(w)的最大值点。由于对数函数是单调递增函数,所以

\ln L(w) = \ln(\prod_{i=1}^mf(y1,w1,w2,...,wk) ) = \sum_{i=1}^m\ln f(y1,w1,w2,...,wk)   与L(w) 有相同的最大值点,而在许多情况下,求\ln L(w) 的最大值点比较简单,于是我们就将求L(w)的最大值点转化为求\ln L(w) 的最大值点,通常称\ln L(w) 为对数似然函数。

 由公式推导可得:\iota(\beta ) = \sum_{i=1}^m(-y_{i}\beta ^T\hat{x_{i} }+\ln (1+e^(\beta ^T\hat{x_{i} } )  )     )  ,此式为关于\beta 的高阶可导连续凸函数,根据凸优化理论,可用经典的数值优化算法,如梯度下降法或牛顿法等都可求得其最优解。


总结

本文基于广义线性模型的三条假设与伯努利分布,推导出对数几率回归模型。并使用极大似然估计求得对率模型关于\beta 的高阶凸函数。进一步可通过梯度下降法、牛顿法等对该函数求最优解。

上一篇 下一篇

猜你喜欢

热点阅读