7 LDA

2020-08-12 本文已影响0人空无_ae80

LDA解释:假如有一篇文章text，通过里面的词，来确定他是什么类型的文章，如果文章中出现很多体育类的词，比如，篮球，足球之类的，那么主题模型就会把它划分为体育类的文章

什么是LDA？

它是一种无监督的贝叶斯模型。

是一种主题模型，它可以将文档集中的每篇文档按照概率分布的形式给出。

是一种无监督学习，在训练时不需要手工标注的训练集，需要的是文档集和指定主题的个数。

是一种典型的词袋模型，它认为一篇文档是由一组词组成的集合，词与词之间没有顺序和先后关系

LDA的目的就是要识别主题，即把文档—词汇矩阵变成文档—主题矩阵（分布）和主题—词汇矩阵（分布）

P(词 | 文档)=P（词 | 主题）P（主题 | 文档）

用表达式如下：

P(w|d)=P(w|t)∗P(t|d)

词→主题→文档

同一主题下，某个词出现的概率，以及同一文档下，某个主题出现的概率，两个概率的乘积，可以得到某篇文档出现某个词的概率，我们在训练的时候，调整这两个分布就可以了。

由此可以定义LDA的生成过程：

对每篇文档，在主题分布中抽取一个主题；（相当于左图）

对抽到的主题所对应的单词分布中随机抽取一个单词；（在右图中抽）

重复上述过程直至遍历整篇文档中的每个单词

3 实例

3.1 计算文档-词汇矩阵

N个文档组成的语料库（𝐷1，𝐷2，"……" ，𝐷𝑛），由V个词组成的词汇表。矩阵中的值表示了词𝑊𝑗 〖在文档𝐷〗𝑖 中出现的频率，主题用Z表示，下面对语料库中的每一个word随机指派一个主题编号𝑍𝑖，统计每个𝑍_𝑖下出现的word次数，可得一个主题—词汇矩阵。

3.2 计算主题-词汇矩阵

3.3 计算文档主题矩阵

统计每个词代表的主题在每一个文档中出现的次数，可得出以下矩阵文档—主题矩阵

参考：https://www.jianshu.com/p/fa97454c9ffd