《机器学习》西瓜书学习笔记(五)
上一篇笔记在这里:《机器学习》西瓜书学习笔记(四)
第七章 贝叶斯分类器
7.1 贝叶斯分类器
假设有N种可能的类别标记,即Y={c1,c2,...,cN},λij是将一个真实标记为cj的样本误分类为ci所产生的损失。在样本x上的“条件风险”是
我们的任务是寻找一判定准则h:X→Y以最小化总体风险
可以看出,要想最小化总体风险,仅需最小化条件风险,即
h*称为贝叶斯最优分类器,与之对应的总体风险R(h*)称为贝叶斯风险。1-R(h*)反映了最好性能。
若最小化分类错误率,则误判损失λij可写为
此时条件风险
于是,最小化分类错误率的贝叶斯最优分类器是
贝叶斯定理
7.2 极大似然估计
记关于类别c的类条件概率为P(x|c),假设P(x|c)具有确定的形式并且被参数向量θc唯一确定,则我们的任务就是利用训练集D估计参数θc。为明确起见,将P(x|c)记为P(x|θc)。
令Dc表示训练集D中第c类样本组成的集合,假设这些样本是独立同分布的,则参数θc对于数据集Dc的似然是
对θc进行极大似然估计,就是去寻找能最大化似然P(Dc|θc)的参数值^θc。
连乘操作容易产生下溢,通常使用对数似然(log-likelihood)
例如,在连续属性条件下,假设概率密度函数P(x|c)~N(μc,σc2),则极大似然估计为
7.3 朴素贝叶斯分类器
朴素贝叶斯分类器(Naive Bayes Classifier)采取了“属性条件独立性假设”(attribute conditional independence assumption):对已知类别,假设所有属性相互独立,有
朴素贝叶斯分类器的表达式
训练过程如下:
令Dc表示训练集D中第c类样本组成的集合,若有充足的独立同分布样本,则可容易地估计类先验概率
对离散属性而言,令Dc,xi表示Dc中在第i个属性为xi为样本组成的集合,则条件概率P(xi|c)可估计为
对连续属性可考虑概率密度函数,假定p(xi|c)~N(μc,i,σc,i2),其实μc,i和σc,i2分别是第c类样本在第i个属性上取值的均值和方差,则有
拉普拉斯修正(Laplacian correction):
若某个属性值在训练集中没有于某个类同时出现过,直接算的话就为0了。为了避免这个情况,要有一个修正:
N表示D中可能的类别数,Ni表示第i个属性可能的取值数。
7.4 半朴素贝叶斯分类器
半朴素贝叶斯分类器的基本想法是适当考虑一部分属性间的相互依赖信息。“独依赖”就是假设每个属性在类别之外最多仅依赖于一个其他属性,即
其中pai为属性xi所依赖的属性,称为xi的父属性。
最直接的做法是假设所有属性都依赖于同一个属性,称为“超父”(super-parent),然后通过交叉验证等模型选择方法来确定超父属性,由此形成了SPODE(Super-Parent ODE)方法。
TAN(Tree Augmented naive Bayes)则是在最大带权生成树算法的基础上,有以下步骤:
- 计算任意两个属性之间的条件互信息(conditional mutual information)
- 以属性为结点构建完全图,任意两个结点之间边的权重设为I(xi,xj|y);
- 构建次完全图的最大带权生成树,挑选根变量,将边置为有向;
- 加入类别结点y,增加从y到每个属性的有向边。
AODE(Averaged One-Dependent Estimator)是一种基于集成学习机制、更为强大的独依赖分类器。
其中Dxi是在第i个属性上取值为xi的样本的集合,m'为阈值常数。显然,AODE需估计P(c,xi)和P(xj|c,xi)
7.5 贝叶斯网
贝叶斯网亦称“信念网”,借助有向五环图来刻画属性之间的依赖关系。
7.2 西瓜问题的一种贝叶斯网结构7.5.1 结构
以上图为例,联合概率分布定义为
贝叶斯网中三个变量之间的典型依赖关系“有向分离”:
- 找出有向图中所有V型结构,在V型结构的两个父结点之间的加上一条无向边。
- 将所有有向边变成无向边。
由此产生的无向图称为“道德图”,该过程称为“道德化”。
图7.2对应的道德图7.5.2 学习
评分函数:给定训练集D={x1,x2,...,xm},贝叶斯网B={G,Θ}在D上的评分函数可写为
其中,|B|是贝叶斯网的参数个数;f(θ)表示描述每个参数θ所需的字节数;而
是贝叶斯网B的对数似然。评分函数的第一项是计算编码贝叶斯网B所需的字节数,第二项是计算B所对应的概率分布PB对D描述得有多好。我们要做的是寻找一个贝叶斯网B使评分函数s(B|D)最小。
- 若f(θ)=1,即每个参数用1字节描述,则得到AIC(Akaike Information Criterion)评分函数
- 若f(θ)=(1/2)log(m),即每个参数用(1/2)log(m)字节描述,则得到BIC(Bayesian Information Criterion)评分函数
- 若f(θ)=0,则学习任务退化为极大似然估计。
7.5.3 推断
7.6 EM算法
隐变量:未观测变量。
令X表示已观测变量集,Z表示隐变量集,Θ表示模型函数。若欲对Θ做极大似然估计,则应最大化对数似然
然而由于Z是隐变量,上式无法直接求解。此时我们可通过对Z计算期望,来最大化已观测数据的对数“边际似然”(marginal likelihood)
EM算法:若参数Θ已知,则可根据训练数据推断出最优隐形变量Z的值(E步);反之,若Z的值已知,则可方便地对参数Θ做极大似然估计(M步)。
以初始值Θ0为起点,对上式可迭代执行以下步骤直至收敛:
- 基于Θt推断隐变量Z的期望,记为Zt;
- 基于已观测变量X和Zt对参数Θ做极大似然估计,记为Θt+1
进一步,若我们不是取Z的概率分布P(Z|X,Θt),则EM算法的两个步骤是:
- E步(Expectation):以当前参数Θt推断变量分布P(Z|X,Θt),并计算对数似然LL(Θ|X,Z)关于Z的期望
- M步(Maximization):寻找参数最大化期望似然,即
第十四章 概率图模型
14.1 概率图模型
推断(inference):利用已知变量推测未知变量的分布,其核心是如何基于可观测变量推测出未知变量的条件分布。
假定所关心的变量集合为Y,可观测变量集合为O,其他变量的集合为R,“生成式”(generative)模型考虑联合分布P(Y,R,O),“判别式”(discriminative)模型考虑条件分布P(Y,R|O).给定一组观测变量值,推断就是要由P(Y,R,O)或P(Y,R|O)得到条件概率分布P(Y|O).
直接利用概率求和的方法消去变量R的复杂度是O(2|Y|+|R|)
概率图模型(probabilistic graphical model)是一类用图来表达变量相关关系的概率模型。结点表示随机变量,边表示变量之间的概率关系。有向图称为贝叶斯网(Bayesian network),无向图称为马尔科夫网(Markov network)。
隐马尔科夫模型(Hidden Markov Model,简称HMM)是结构最简单的动态贝叶斯网(dynamic Bayesian network),这是一种著名的有向图模型,主要用于时序数据建模。
隐马尔科夫模型中的变量可分为两组:第一组状态变量{y1,y2,...,yn},其中yi∈Y表示第i时刻的系统状态。通常假定状态变量是隐藏的,亦称隐变量;第二组观测变量{x1,x2,...,xn},其中xi∈X表示第i时刻的观测值。在隐马尔科夫模型中,系统通常在多个状态{s1,s2,...,sN}之间转换,因此状态空间Y通常是离散的,而X可以是离散的也可以是连续的,为便于讨论,我们仅考虑离散性观测变量。
马尔科夫链(Markov chain):系统下一时刻的状态仅由当前状态决定,不依赖于 以往的任何状态。基于这种依赖关系,所有变量的联合概率分布为
14.2 马尔科夫随机场
马尔科夫随机场(Markov Random Field,MRF)是典型的马尔科夫网,结点表示变量,边表示变量之间的依赖关系。
势函数(potential functions)或因子(factor):定义在变量子集上的非负实函数,用于定义概率分布函数。
团(clique):任意两结点都有边连接的节点子集。
极大团(maximal clique):在一个团中加入另外任何一个结点都不再形成团。
在马尔科夫随机场中,联合概率分布基于团分解成多个因子的乘积。对于n个变量x={x1,x2,...,xn},所有团构成的集合为C,与团Q∈C对应的变量集合记为xQ,则联合概率P(x)定义为
其中,ψQ为与团Q对应的势函数,用于对团Q中的变量关系进行建模,Z=ΣxΠQ∈CψQ(xQ)为规范化因子。在实际应用中,精确计算Z通常很困难,但是许多任务并不需要Z的精确值。
分离集:若从结点集A中的结点到B中的结点都必须经过结点集C中的结点,则称结点集A和B被结点集C分离,C称为“分类集”(separating set)。对马尔科夫随机场,有全局马尔科夫性:给定两个变量子集的分离集,则这两个变量子集条件独立。
由全局马尔科夫性可得到两个有用的推论:
- 局部马尔科夫性(local Markov property):给定某变量的邻接变量,则该变量条件独立于其他变量。
- 成对马尔科夫性(pairwise Markov property):给定所有其他变量,两个非邻接变量条件独立。
14.3 条件随机场
条件随机场(Conditional Random Field,CRF)是一种判别式无向图模型。生成式模型是对联合分布建模,而判别式则是对条件分布建模。
令G=<V,E>表示结点与标记变量y中元素一一对应的无向图,yv表示与结点v对应的标记变量,n(v)表示结点v的邻接结点,若图G的每个变量yv都满足马尔科夫性,即
则(y,x)构成一个条件随机场。
14.4 学习与推断
边际分布(marginal distribution):是指对无关变量求和或积分后得到的结果。
概率图模型的推断可分两类:第一类式精确最短方法,但是计算复杂度大;第二类是近似推断方法。
14.4.1 变量消去
假定推断目标是计算边际概率P(x5).显然,为了完成目标,秩序假发消去其他变量:
若采用{x1,x2,x4x3}的顺序计算加法,则有
其中,mij(xj)是求加过程的中间结果,下标i表示此项是对xi求加的结果,下表j表示此项中剩下的其他变量。
缺点:计算多个边际分布的时候造成大量冗余计算。
14.4.2 信念传播
信念传播(Belief Propagation)算法将变量消去法中的求和看作是消息传递过程,较好的解决了重复计算问题。具体来说,变量消去发通过求和操作
消去变量xi,其中n(i)表示结点xi的邻接结点。在信念传播算法中,这个操作被看作从xi向xj传递了一个消息mij(xj).
14.5 近似推断
精确推断方法通常需要很大的计算开销,因此实际用近似推断方法。
近似推断方法可分两大类:
- 采样:通过使用随机化方法完成模拟。
- 使用确定性近似完成近似推断,典型代表是变分推断。
14.5.1 MCMC采样
马尔科夫链的平稳状态:假定平稳马尔科夫链T的状态转移概率(即从状态x转移到状态x'的概率)为T(x'|x),t时刻状态的分布p(xt),则若马尔科夫链满足平稳条件
则p(x)是该马尔科夫链的平稳分布。
14.5.2 变分推断
对式(14.30)使用EM算法。
14.6 话题模型
下一篇:《机器学习》西瓜书学习笔记(六)