机器学习数学原理(1)——极大似然估计法
机器学习数学原理(1)——极大似然估计法
事实上机器学习的大部分算法都是以数理统计和概率论为理论基础构建的。笔者在学习机器学习的过程中,意识到其实机器学习中的很多假设背后都是有着数学原理支撑的,从而使得这些假设不再是“看似合理”。这里笔者便将一些学习过程中的理解整理成一个系列,希望能够在帮助自己整理知识结构体系的同时,也能给大家带来一些帮助。资料参考的是华中科技大学出版社出版由刘次华主编的《概率论与数理统计(第二版)》以及斯坦福公开课CS229(Andrew Ng)。
需要说明的是,这个系列可能不会在应用机器学习方面有太大的帮助,因为博文偏向于原理性而不是如何使用。如果读者希望深入了解机器学习,希望理解机器学习的本质,相信这篇博文能够给大家一些帮助。老规矩,由于笔者实力实在有限,如果有任何错误或者不妥的地方,欢迎大家批评之处。
这个系列的第一篇博文笔者就准备给极大似然估计法了\^_^/。
1 极大似然估计法介绍
极大似然估计法(the Principle of Maximum Likelihood )由高斯和费希尔(R.A.Figher)先后提出,是被使用最广泛的一种参数估计方法,该方法建立的依据是直观的极大似然原理。
1.1 极大似然原理
极大似然原理其实最简单的理解就是:样本所展现的状态便是所有可能状态中出现概率最大的状态。
一个试验有若干个可能结果A1,A2,A3,…,An,若一次实验的结果是Ai发生,则自然认为Ai在所有可能结果中发生的概率最大,当总体X的未知参数θ待估时,应用这一原理,对X的样本(X1,X2,…,Xn)做一次观测实验,得到样本观察值(x1,x2,…,xn)为此一次试验结果,那么参数θ的估计值应该取为使得这一结果发生的概率为最大才合理,这就是极大似然估计法的基本思想。
1.2 极大似然估计法理解型例子
为了方便大家更好的理解这一原理,这里举一个理解型的例子。
现在有一个黑箱子里面有标有1或2的球共100个,现在从中有放回的抽取10个球,结果为{1,2,2,2,1,2,1,1,2,2},估计标有1的球在黑箱子里面有多少个。
我们不妨把标有1的球设为θ个,那么抽到1的概率P(x=1)=θ/100,这里简单记作p,则产生实验结果{1,2,2,2,1,2,1,1,2,2}的概率为 P = (p^4)*((1-p)^6),这里的待估参数为θ,但是为了方便不妨把待估参数看做p(p=θ/100)。那么极大似然估计法的目标就是调整p使得总概率P最大!换句话说,P是一个关于p的函数,不妨记作P(p)。
为了后续计算,对P取对数。
为了使得l(p)最大,那么求导可知
尅算出p=0.4,即待估参数θ的极大似然估计值为40个。
这便是极大似然估计法的核心思想了。那么如何评判这个估计值好不好呢?显然的,估计的方法不止这一种,而每个方法的估计值可能不同,那么哪一个估计值更合理呢?
这两个问题的核心部分在于寻找到一个评判估计值优劣的标准。在概率论中,主要采用如下三个标准:
无偏性
有效性
一致性
在这里笔者不再详述,有兴趣的读者可以翻阅相关文献。
2 机器学习应用例子
现在回到机器学习中,我们现在来简单的思考一下机器学习的本质问题。片面来说,机器学习的过程就是从样本空间寻找拟合函数的过程。这里所谓的拟合函数多种多样,当一个拟合函数的基本模型定下后,就需要通过样本空间的大量样本来调整拟合函数模型的一些参数定形(这里主要讲的是参数学习算法),使之能够进行更加准确的拟合。,
先定义几个符号:
θ为参数向量(θ0,θ1,θ2,…,θn),用来定形我们选择的模型。
y为函数输出
x为函数输入向量
2.1 线性回归模型
线性回归模型作为机器学习中参数学习算法的入门模型,被大家所熟知。其实最基础的神经网络中的一个神经元就是使用线性模型作为拟合函数(详细请见笔者另一篇关于BP神经网络的博客前面的介绍:http://blog.csdn.net/z_x_1996/article/details/68633682)。
正如我们知道的,线性回归模型使用的误差函数(也叫代价函数)采用的是平方和,为什么不是四次方和或者是绝对值和呢?这里便是通过极大似然估计法来确定的。
首先我们可以知道的是我们采用的特征向量x并不能包括所有的因素,即部分特征我们并没有纳入考虑。比如考虑房价的样本特征,我们不可能将卖房人的心情等等作为特征纳入输入,于是这些便成了干扰项。我们把所有的干扰项用一项ε来代替。于是我们可以得到y与x的关系式为:
这里我们将做一个概率的假设:ε为一个满足正态分布的独立随机变量,即ε~N(μ,σ^2)。
这个假设并没有严格的证明,但是根据大量的观察,我们发现大部分干扰性的随机变量符合正态分布,并且这个假设也能使得我们的拟合足够的精确,所以我们选择相信这个假设。
那么我们可以知道y与X的分布关系为
即
需要注意的是在上面的公式中,θ是固定的参数常数。现在用极大似然估计法来思考这个问题。我们已经有了一个样本空间D,那么产生这个样本空间的概率为:
这里写成关于θ的函数是因为这样方便使用极大似然估计法来思考。为了方便后续计算,取正相关的对数。
即现在我们需要使得l(θ)最大,上式我们可以发现前一项为常数,不予考虑,那么问题便转化为使得减号后面的想要最小。由于σ也是常系数我们提出来,那么剩下的问题就是调节系数θ使得
最小。
这不正是误差函数吗?然后接下来就是采用不同的方法使得E(θ)的值最小,可以采用的方法就是前面的批量梯度下降算法、随机梯度下降算法、规范方程法以及牛顿法等等,但是由于这一篇博文主要介绍极大似然估计法,故不再详述。
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/z_x_1996/article/details/70176819