机器学习 西瓜书 Day08 贝叶斯分类器(下)
2018-05-17 本文已影响14人
皇家马德里主教练齐达内
p157 - p169
今天首先先把昨天贝叶斯分类器剩下的部分看完
第七章 贝叶斯分类器
7.5 贝叶斯网
是一个DAG
以西瓜为实例:P157 图7.2
7.5.1 结构
基于贝叶斯网的联合概率分布定义
贝叶斯网中三个变量之间的典型依赖关系:同父、V型、顺序。
如何分析贝叶斯网中变量间的条件独立性?
有向分离法
首先先将DAG转变成无向图:
1)找出DAG中所有V型结构,在V的两个父节点之间加上一条无向边。
2)将所有有向边改为无向边。
由此得到的无向图称为“道德图”,令父节点先连的过程称为“道德化”
在道德图上,若x,y能被z分开,即变量z去除后,x,y分属两个连通分量,则称x,y能被z有向分离,即在z已知情况下,x,y独立。
7.5.2 学习
若贝叶斯网已知,则剩下的就是计数问题了。
所以贝叶斯网学习的首要任务就是根据训练集来找出结构最恰当的贝叶斯网。
定义一个评分函数,以此来评价贝叶斯网和实验数据的契合程度。
具体过程 p159-160。(涉及信息论
7.5.3 推断
贝叶斯网训练好就能用来推断。
最理想的就是直接根据贝叶斯网定义的联合概率分布来精确计算后验概率。
但这样的精确计算是NP难的。
所以需要进行近似计算。
具体见p161-162
使用了马尔科夫链的思想。
7.6 EM算法
取值未知的变量:学名——隐变量
如瓜的根没了,无法看出是“蜷缩”还是“硬挺”。
EM算法是常用的估计参数隐变量的利器。
迭代算法。
基本想法:
若参数θ已知,则可根据训练数据推断出最优隐变量Z的值(E步)
若Z已知,则可方便地对参数做极大似然估计。(M步)
EM算法的步骤(两个角度) p163。
简要来说,EM算法使用两个步骤交替计算:
第一步是期望,利用当前估计的参数值来计算对数似然的期望值。
第二步是最大化,寻找能使E步产生的似然期望最大化的参数值。
然后今天就看到这了:)
要不然接下来每天都要发两篇,先下后上,多不好:)