无监督第六节:LDA和其他隐变量模型的关系
2020-05-01 本文已影响0人
数据小新手
1.unigram model
在unigram 模型中,每个文档中的单词从单一的多项式分布中独立生成。

2.mixture of unigrams:
将unigram model 使用离散的随机主题变量z来模拟,就可以得到mixture of unigrams 模型。在这个模型假设下,每个文档首先选择一个主题z,然后根据条件独立的多项式分布p(w|z)生成N个单词。整个文档的概率是:

在假设一个文档只有一个清晰主题的情况下,单词的分布可以视为主题的表达形式,但是这样的假设局限性太强。在LDA中可以假设不需要一个主题,多个主题
3.PLSI (probabilistic latent semantic indexing )

pLSI模型试图去简化在mixture of unigrams中每个文档只由一个主题生成的假设。在这种情况下,一个文档可能包含多个主题。因为p(z|d) 可以看作一个文档中有多个主题的混合。但是在pLSI中d是一个dummy index,并且模型学习到的混合主题仅仅在训练的文档有效。因此,pLSI 不是一个很好的生成模型,因为无法对位置的文档进行主题分类。
pSLI 的另一个缺点是训练的参数随着文档数的增加线性增长。参数的增多会导致严重过拟合线性。
LDA克服了这些问题。通过将主题混合权重是为k个隐变量而不是dummy index。通过减少参数降低和过拟合的风险。

reference:
http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf