LSA/LSI/LDA——关键词提取

2019-04-22  本文已影响0人  dreampai

主题模型认为在词与文档之间没有直接的联系,它们应当还有一个维度将它们联系起来,主题模型将这个维度称为主题。每个文档都对应着一个或多个的主题,而每个主题都有对应的词分布,通过主题,就可以得到每个文档的词分布。

image.png

常用的算法

LSA

主要步骤:

LDA

LDA 算法假设文档中主题的先验分布和主题中的词的先验分布都服从狄利克雷分布。在贝叶斯学派看来,先验分布+数据=后验分布。我们通过对已有数据集的统计,就可以得到每篇文档中主题的多项式分布和每个词对应的多项式分布。通过先验的狄利克雷分布和观测数据得到的多项式分布,得到一组 Dirichlet-multi 共轭,并据此来推断文档中主题的后验分布和主题中词的后验分布。

结合吉布斯采样的 LDA 模型训练过程:

训练好的 LDA 模型,接下来就可以按照一定的方式针对新的文档 topic 进行预估:

上一篇 下一篇

猜你喜欢

热点阅读