无监督第六节：LDA和其他隐变量模型的关系

2020-05-01 本文已影响0人数据小新手

1.unigram model

在unigram 模型中，每个文档中的单词从单一的多项式分布中独立生成。

image-20200419185959611.png

2.mixture of unigrams:

将unigram model 使用离散的随机主题变量z来模拟，就可以得到mixture of unigrams 模型。在这个模型假设下，每个文档首先选择一个主题z，然后根据条件独立的多项式分布p(w|z)生成N个单词。整个文档的概率是：

image-20200419190409858.png

在假设一个文档只有一个清晰主题的情况下，单词的分布可以视为主题的表达形式，但是这样的假设局限性太强。在LDA中可以假设不需要一个主题，多个主题

3.PLSI （probabilistic latent semantic indexing ）

image-20200419191419397.png

pLSI模型试图去简化在mixture of unigrams中每个文档只由一个主题生成的假设。在这种情况下，一个文档可能包含多个主题。因为p(z|d) 可以看作一个文档中有多个主题的混合。但是在pLSI中d是一个dummy index，并且模型学习到的混合主题仅仅在训练的文档有效。因此，pLSI 不是一个很好的生成模型，因为无法对位置的文档进行主题分类。

pSLI 的另一个缺点是训练的参数随着文档数的增加线性增长。参数的增多会导致严重过拟合线性。

LDA克服了这些问题。通过将主题混合权重是为k个隐变量而不是dummy index。通过减少参数降低和过拟合的风险。

image-20200419193128875.png

reference:
http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf

无监督第六节：LDA和其他隐变量模型的关系

1.unigram model

2.mixture of unigrams:

3.PLSI （probabilistic latent semantic indexing ）

猜你喜欢

热点阅读