算法小白菜

LDA模型分析（二）：pLSA建模与求参

2018-09-13 本文已影响68人林桉

pLSA建模与求参

pLSA
LSA(隐性语义分析)的目的是要从文本中发现隐含的语义维度-即“Topic”或者“Concept”。尽管基于SVD的LSA取得了一定的成功，但是其缺乏严谨的数理统计基础，而且SVD分解非常耗时。Hofmann在SIGIR'99上提出了基于概率统计的PLSA模型，并且用EM算法学习模型参数。PLSA的概率图模型如下

image.png

pLSA是一种词袋方法:

image.png
几个定义：

image.png
pLSA建模目标：根据文档反推其主题分布

image.png

图中被涂色的d、w表示可观测变量，未被涂色的z表示未知的隐变量，N表示一篇文档中总共N个单词，M表示M篇文档。
已知：

image.png
问题：
image.png
pLSA求参数：EM算法
基本思想是：

image.png
image.png

关键：找到𝐿(𝜃)的一个下界，然后maxmize这个下界，逼近求解的似然函数𝐿(𝜃)。

image.png
pLSA求参数：两未知参数矩阵化

image.png
pLSA求参数：两未知参数

image.png
pLSA求参数：E-step

image.png

假定参数已知，计算此时引变量的后验概率。
pLSA求参数：M-step

image.png

带入隐变量的后验概率，最大化样本分布的对数似然函数，求解相应的参数。

小白学习无关利益

上一篇下一篇

猜你喜欢

热点阅读