贝叶斯

2017-04-22  本文已影响0人  程序猿爱打DOTA

简述:从样本中统计每个特征对分类类别的概率,最后求将预测对象分为每个类别的概率,取最大为预测分类

优点:在数据较少的情况下仍然有效,可以处理多分类问题

缺点:对于输入数据的准备方式较为敏感

适用数据类型:标称型数据        


概率论是许多机器学习算法的基础,核心思想:选择具有最高概率的决策

条件概率:P(A|B) = P(A B)/P(B)

P(C|X) = P(X|C)*P(C)/P(X) 求条件互换概率

独立性假设是指一个现象的发生不依赖于其他现象,如一个词的出现不依赖于文档中其他词,这个假设过于简单,所以称之为朴素贝叶斯


拉普拉斯修正:

若某个属性值在训练集中没有与某个类同时出现过,则直接基于概率进行判别会出现问题,*0

将概率P(c) = |Dc|/|D|  改为P(c) = |Dc+1|/|D|+N, N为类别个数


如果对预测速度要求高,则对给定训练集,可将所有概率事先计算存表

如果数据更新频繁,可采用懒惰学习,待收到预测请求后进行概率估算

如果数据不断增加,可在现有估值基础上,仅对新增样本所涉及的概率估值进行计算修正,实现增量学习


半朴素贝叶斯分类

适当放松独立性假设

独依赖估计:假设每个属性在类别之外最多仅依赖于一个其他属性

SPODE:通过交叉验证等选择方法确定“超父”属性,所以其他属性依赖这个超父属性

TAN:以属性的条件互信息为权构建最大生成树

AODE:基于集成学习,尝试将每个属性作为超父来构建SPODE,将SPODE集成起来作为最终结果


贝叶斯网

有向无环图,以属性为点,量化依赖关系为边,有效表达属性间的条件独立性

道德图:找到所有V型结构,在两个父节点上加上一条无向边,将所有有向边改为无向边,

若X,Y能被变量集合Z切开,则X,Y存在基于Z的条件独立关系

“评分搜索”是求解贝叶斯网的常见办法,详见西瓜书P160

使用贝叶斯网可根据已有属性值推断其余属性值:

精确推断是NP难的,近似推断常采用吉布斯采样

吉布斯采样:在E= e的基础上采样T次,计算其中Q=q的次数

实质上实在贝叶斯网所有变量的联合状态空间与证据E=e一致的子空间中进行随机游走


EM算法

隐变量:未观测到的变量

X:表示已观测到的变量集,Z:表示未观测到的变量集,欲对Θ做极大似然估计,则应最大化对数似然:

LL(Θ|X,Z)= lnP(X,Z|Θ)

Z未知,上式无法直接求解,需通过对Z计算期望,来最大化已观测数据的对数“边际似然”

流程:

E步:基于Θt 推断隐变量Z的期望,记为Zt(推断Z的分布P(Z|X,Θt), 并计算对数似然LL((Θ|X,Z) 关于Z的期望)

M步:基于Zt和X对参数Θ做极大似然估计,记为Θt+1(寻找参数最大化期望似然)

直到收敛

常用来学习高斯混合模型GMM的参数,K均值聚类就是典型的EM算法

上一篇下一篇

猜你喜欢

热点阅读