神奇的LDA主题模型

2017-04-27 本文已影响1084人杰伦哎呦哎呦

之前有说过pLSA模型，这是一个链式模型，这个模型能够快速生成主题，但是也有它的不足之处（毕竟是1999年左右提出的嘛！），一个很致命的缺点就是不能解决一词多义的问题。这样就不能很好的区分主题的个数了。（但是不能否认这确确实实是一个经典的模型，花了很长时间去看，通过这个模型我才接下来看到更经典的LDA模型）。所以在这里和大家分享一个可以说是文本主题模型里面最为经典的模型之一-----------------LDA模型。提出这个模型的那篇英文原版论文引用次数已经是用万来计数的。。。。。。。很恐怖（比我们这种为了发一篇论文苦苦搜锻炼脑细胞的强太多手动流汗流汗流汗）

1.游戏规则

看懂这个模型的话需要对照着PLDA模型来看，就在上一篇文档里面吧！

有一个很神奇的学派叫做贝叶斯学派（这个模型实际上是在PLSA模型上加上贝叶斯框架形成的，至于什么叫贝叶斯框架，那就得说Beta/Dirichlet分布了，也在之前的文章有），这个学派对于PLSA模型是有意见滴！他们觉得doc-topic之中 θm 和 topic-word 之中 ϕ~k都是模型之中的参数，既然都是参数，怎么能没有先验分布呢？为了装个逼，他们进行如下改造：

类似于Unigram Model 的贝叶斯改造，我们也可以在如下两