统计学习方法——修炼学习笔记20:潜在狄利克雷分配

2020-04-17  本文已影响0人  Sam_L

潜在狄利克雷分配LDA,作为基于贝叶斯学习的话题模型,是潜在语义分析、概率潜在语义分析的扩展。在文本数据挖掘、图像处理、生物信息处理等领域被广泛使用。

LDA模型是文本集合的生成概率模型
假设每个文本由话题的一个多项分布表示,每个话题由单词的一个多项分布表示。
特别假设文本的话题分布的先验分布是狄利克雷分布,话题的单词分布的先验分布也是狄利克雷分布。
先验分布的导入使LDA能够更好地应对话题模型学习中的过拟合现象。

LDA的文本集合的生成过程如下:
image.png

LDA模型是含有隐变量的概率图模型。
模型中,每个话题的单词分布,每个文本的话题分布,文本的每个位置的话题是隐变量
文本的每个位置的单词是观测变量
LDA模型的学习与推理无法直接求解,通常使用吉布斯抽样和变分EM算法。前者是蒙特卡罗法,后者是近似算法。

一、狄利克雷分布

1、分布定义

(1)多项分布

多项分布是一种多元离散随机变量的概率分布,是二项分布的扩展。

定义
image.png

当试验的次数n为1时,多项分布变成类别分布。
类别分布表示试验可能出现的k种结果的概率。

(2)狄利克雷分布

狄利克雷分布是一种多元连续随机变量的概率分布,是贝塔分布的扩展。
在贝叶斯学习中,狄利克雷分布常作为多项分布的先验分布使用。

定义
image.png image.png
(3)二项分布和贝塔分布

二项分布是多项分布的特殊情况
贝塔分布是狄利克雷分布的特殊情况

二项分布是指如下概率分布。X为离散随机变量,取值为m,其概率质量函数为

image.png

贝塔分布是指如下概率分布。X为连续随机变量,取值范围为[0,1],其概率密度函数为:

image.png

当n为1时,二项分布变成伯努利分布或0-1分布
伯努利分布表示试验可能出现的2种结果的概率。

几种概率分布的关系:
image.png

2、共轭先验

狄利克雷分布有一些重要性质:

贝叶斯学习中常使用共轭分布。

二、潜在狄利克雷分配模型

1、基本想法

潜在狄利克雷分配LDA是文本集合的生成概率模型。
模型假设话题是由单词的多项分布表示,文本是由话题的多项分布表示,单词分布和话题分布的先验分布都是狄利克雷分布。
文本内容的不同是由于它们的话题分布不同。

LDA模型表示文本集合的自动生成过程:
image.png

文本的单词序列是观测变量。
文本的话题序列是隐变量,文本的话题分布和话题的单词分布也是隐变量。


image.png

LDA模型是概率图模型,其特点是以狄利克雷分布为多项分布的先验分布。
学习就是给定文本集合,通过后验概率分布的估计,推断模型的所有参数。
利用LDA进行话题分析,就是对给定文本集合,学习到每个文本的话题分布,以及每个话题的单词分布。

LDA和PLSA(概率潜在语义分析):
image.png

2、模型定义

(1)模型要素
潜在狄利克雷分配LDA使用三个集合
image.png
(2)生成过程:

LDA文本集合的生成过程:


image.png
LDA的文本生成算法
image.png

3、概率图模型

LDA模型本质是一种概率图模型
下图为LDA作为概率图模型的板块表示:


image.png

板块表示的优点是简洁,板块表示展开之后,成为普通的有向图表示。
有向图中结点表示随机变量,有向边表示概率依存关系。可以看出LDA是相同随机变量被重复多次使用的概率图模型。


image.png

4、随机变量序列的可交换性

image.png

随机变量序列可交换的假设在贝叶斯学习中经常使用。
根据De Finetti定理,任意一个无限可交换的随机变量序列对一个随机参数是条件独立同分布的。
即:


image.png

LDA假设文本由无限可交换的话题序列组成。
根据De Finetti定理知,实际是假设文本中话题对一个随机参数是条件独立同分布的。所以在参数给定的条件下,文本中的话题的顺序可以忽略。
作为对比,概率潜在语义模型假设文本中的话题是独立同分布的,文本中的话题的顺序也可以忽略。

5、概率公式

LDA模型整体是由观测变量和隐变量组成的联合概率分布,可以表为:
image.png
第m个文本的联合概率分布可以表为:
image.png
相关的文本生成概率:
image.png

三、LDA的吉布斯抽样算法

潜在狄利克雷分配LDA的学习(参数估计)是一个复杂的最优化问题,很难精确求解,只能近似求解。
常用的近似求解方法有吉布斯抽样和变分推理。

1、基本想法

image.png

为了估计多元随机变量x的联合分布p(x),吉布斯抽样法选择x的一个分量,固定其他分量,安装其条件概率分布进行随机抽样,依次循环堆每一个分量执行这个操作,得到联合分布p(x)的一个随机样本,重复这个过程,在燃烧期之后,得到联合概率分布p(x)的样本集合。

LDA模型的学习通常采用收缩的吉布斯抽样方法。基本想法:
image.png

2、算法的主要部分

根据上面的分析,问题转化为对后验概率分布p(z|w,α,β)的吉布斯抽样。
该分布表示在所有文本的单词序列给定条件下所有可能话题序列的条件概率。

(1)抽样分布的表达式
第一个因子表达式
image.png
第二个因子表达式
image.png
(2)满条件分布的表达式
image.png

3、算法的后处理

通过吉布斯抽样得到的分布p(z|w,α,β)的样本,可以得到变量z的分配值,也可以估计变量

image.png

4、算法

对给定的所有文本的单词序列w,每个位置上随机指派一个话题,整体构成所有文本的话题序列z。然后循环执行以下操作。


image.png
LDA吉布斯抽样算法
image.png

四、LDA的变分EM算法

1、变分推理

变分推理是贝叶斯学习中常用的,含有隐变量模型的学习和推理方法。
变分推理和马尔可夫链蒙特卡罗MCMC属于不同的技巧。
MCMC通过随机抽样的方法近似地计算模型的后验概率,变分推理则通过解析的方法计算模型的后验概率的近似值。

基本想法:
image.png
KL散度:
image.png
变分推理可以从另一角度理解:
image.png
总结,变分推理有以下几个步骤
image.png

2、变分EM算法

变分推理中,可以通过迭代的方法最大化证据下界,这时算法是EM算法的推广,称为变分EM算法。


image.png
变分EM算法
image.png

EM算法实际也是对证据下界进行最大化。


image.png

3、算法推导

(1)证据下界的定义
image.png
下图是变分分布的板块表示
image.png
为求解证据下界最大化:
image.png
第一项推导:
image.png
第二项推导:
image.png
第三项推导
image.png
第四项推导
image.png
第五项推导
image.png
(2)变分参数的估计
首先,通过证据下界最优化估计参数η
image.png
接着,通过证据下界最优化参数γ
image.png

LDA的变分参数估计算法

image.png
(3)模型参数的估计

给定一个文本集合D,模型参数估计对所有文本同时进行。


image.png image.png image.png

4、算法总结

LDA的变分EM算法
image.png
上一篇 下一篇

猜你喜欢

热点阅读