贝叶斯

2017-04-22 本文已影响0人程序猿爱打DOTA

简述：从样本中统计每个特征对分类类别的概率，最后求将预测对象分为每个类别的概率，取最大为预测分类

优点：在数据较少的情况下仍然有效，可以处理多分类问题

缺点：对于输入数据的准备方式较为敏感

适用数据类型：标称型数据

概率论是许多机器学习算法的基础，核心思想：选择具有最高概率的决策

条件概率：P(A|B) = P(A B)/P(B)

P(C|X) = P(X|C)*P(C)/P(X) 求条件互换概率

独立性假设是指一个现象的发生不依赖于其他现象，如一个词的出现不依赖于文档中其他词，这个假设过于简单，所以称之为朴素贝叶斯

拉普拉斯修正：

若某个属性值在训练集中没有与某个类同时出现过，则直接基于概率进行判别会出现问题，*0

将概率P(c) = |Dc|/|D| 改为P(c) = |Dc+1|/|D|+N, N为类别个数

如果对预测速度要求高，则对给定训练集，可将所有概率事先计算存表

如果数据更新频繁，可采用懒惰学习，待收到预测请求后进行概率估算

如果数据不断增加，可在现有估值基础上，仅对新增样本所涉及的概率估值进行计算修正，实现增量学习

半朴素贝叶斯分类

适当放松独立性假设

独依赖估计：假设每个属性在类别之外最多仅依赖于一个其他属性

SPODE：通过交叉验证等选择方法确定“超父”属性，所以其他属性依赖这个超父属性

TAN：以属性的条件互信息为权构建最大生成树

AODE:基于集成学习，尝试将每个属性作为超父来构建SPODE，将SPODE集成起来作为最终结果

贝叶斯网

有向无环图，以属性为点，量化依赖关系为边，有效表达属性间的条件独立性

道德图：找到所有V型结构，在两个父节点上加上一条无向边，将所有有向边改为无向边，

若X,Y能被变量集合Z切开，则X,Y存在基于Z的条件独立关系

“评分搜索”是求解贝叶斯网的常见办法，详见西瓜书P160

使用贝叶斯网可根据已有属性值推断其余属性值：

精确推断是NP难的，近似推断常采用吉布斯采样

吉布斯采样：在E= e的基础上采样T次，计算其中Q=q的次数

实质上实在贝叶斯网所有变量的联合状态空间与证据E=e一致的子空间中进行随机游走

EM算法

隐变量：未观测到的变量

X：表示已观测到的变量集，Z：表示未观测到的变量集，欲对Θ做极大似然估计，则应最大化对数似然：

LL（Θ|X,Z）= lnP(X,Z|Θ)

Z未知，上式无法直接求解，需通过对Z计算期望，来最大化已观测数据的对数“边际似然”

流程：

E步：基于Θt 推断隐变量Z的期望，记为Zt（推断Z的分布P(Z|X,Θt), 并计算对数似然LL((Θ|X,Z) 关于Z的期望）

M步：基于Zt和X对参数Θ做极大似然估计，记为Θt+1（寻找参数最大化期望似然）

直到收敛

常用来学习高斯混合模型GMM的参数，K均值聚类就是典型的EM算法