读解 PRML(1)
在Bayesian和frequentist范式中,似然函数起着中心作用。然而,这两种方法的使用方式根本不同。在频率不变的情况下,w被认为是一个固定参数,其值由某种形式的“估计器”确定,并且通过考虑可能的数据集D的分布来获得该估计的误差条。
相比之下,从贝叶斯观点来看,只有一个数据集D(即实际观测到的数据集),参数的不确定性通过w上的概率分布表示。
一种广泛使用的频率估计量是极大似然,其中w被设置为使似然函数p(D | w)最大化的值。这对应于选择观测数据集概率最大的w值。在机器学习文献中,似然函数的负对数称为误差函数。由于负对数是单调递减函数,因此最大似然相当于最小化误差。
贝叶斯观点的一个优点,将自然的经验做先验知识考虑进去。还是拿掷硬币来看问题,如果做了三次,结果都是正面朝上。那么根据最大似然估计值是 1,这意味会认为未来所有的抛投都会正面朝上!相比之下,先验贝叶斯方法因为有了之前我们对掷硬币有了一定经验,所以就不会那么下那么极端的结论。
关于频率学派和贝叶斯学派的究竟哪个更好一直存在着许多争议和争论,但事实上没有一个唯一的频率论者,甚至是贝叶斯的观点。
例如,对贝叶斯方法的一个常见批评是,先验分布是基于数学上的便利性(将数学作为工具)而选择的,而不是作为任何先验确信的反映。有些人甚至认为,先验的选择过多依赖于主观性,这也是一个困难的根源。减少对先验的依赖是所谓非信息先验的一个动机。然而,在比较不同的模型时,这些都会导致困难基于先验错误选择的贝叶斯方法具有很高的可信度。
频率专家评估方法为避免此类问题提出一些解决方案,交叉验证等技术在模型比较等领域仍然有用。
这本书着重强调了贝叶斯观点,反映了在过去几年里贝叶斯方法的实际重要性的巨大增长,同时也讨论了必要的有用的频率域概念。
尽管贝叶斯框架起源于18世纪,但在很长一段时间内,贝叶斯方法的实际应用受到了严格的限制,因为在执行完整的贝叶斯过程中遇到了困难,特别是需要在整个参数空间中边缘化(求和或积分),正如我们将看到的,是进行预测或比较不同模型所必需的。抽样方法的发展,如马尔可夫链蒙特卡罗(在第11章中讨论)的发展,以及计算机速度和存储容量的显著提高,为贝叶斯技术在更大范围的问题领域的实际应用打开了大门。蒙特卡罗方法非常灵活,可以应用于各种模型。然而,它们是计算密集型的,主要用于小规模问题。
高斯分布的似然函数的图示,如红色曲线所示。这里黑点表示一组值{xn},并且(1.53)给出的似然函数对应于蓝色值的乘积。最大化可能性是指调整高斯函数的均值和方差,从而使该乘积最大化。
使用观测数据集确定概率分布中参数的一个常见准则是找到使似然函数最大化的参数值。这似乎是一个奇怪的标准,因为从我们之前对概率论的讨论来看,最大化给定数据的参数的概率,而不是给定参数的数据的概率,似乎更自然。事实上,这两个标准是相关的,我们将在曲线拟合的背景下讨论。
然而,目前,我们将通过最大化似然函数(1.53)来确定高斯函数中未知参数μ和σ2的值。在实践中,使似然函数的对数最大化更为方便。因为对数是其自变量的单调递增函数,函数对数的最大化等价于函数本身的最大化。取对数不仅简化了随后的数学分析,而且在数值上也有帮助,因为大量小概率的乘积很容易降低计算机的数值精度,这是通过计算对数概率之和来解决的。从(1.46)到(1.53),对数似然函数可以写成