LDA模型分析(三):LDA建模与求参
2018-10-23 本文已影响17人
林桉
pLSA与LDA对比:
LDA就是在pLSA的基础上加层贝叶斯框架,即LDA就是pLSA的贝叶斯版本。
image.pngimage.png
pLSA与LDA对比: LDA加入超参 ,认为参数是随机变量,EM不再适用于求参过程
image.png
-
pLSA与LDA对比:
image.png -
双Dirichlet-Multinomial共轭结构
image.png
𝛼→𝜃→𝑧表示生成文档中的所有词对应的主题,显然 𝛼→𝜃 对应的是Dirichlet 分布,𝜃→𝑧 对应的是 Multinomial 分布,所以整体是一个 Dirichlet-Multinomial 共轭结构。
image.png
类似的,𝛽→𝜑→𝜔容易看出, 此时𝛽→𝜑对应的是 Dirichlet 分布,𝜑→𝜔 对应的是 Multinomial 分布, 所以整体也是一个Dirichlet-Multinomial 共轭结构。
Gibbs Sampling求参数:假定文档已经产生,反推其主题分布
给定一个文档集合,𝜔是可以观察到的已知变量,𝛼和𝛽是根据经验给定的先验参数,其他的变量 z,𝜃和𝜑都是未知的隐含变量,需要根据观察到的变量来学习估计的。根据LDA的图模型,可以写出所有变量的联合分布:
image.png
image.png
排除当前词的主题分配,即根据其他词的主题分配和观察到的单词来计算当前词主题的概率公式为:
image.png
image.png
-
求参数:
image.png -
LDA不完全随机:选不同的𝛼,Dirichlet 分布会偏向不同的主题分布
image.png