7 LDA

2020-08-12  本文已影响0人  空无_ae80

LDA解释:假如有一篇文章text,通过里面的词,来确定他是什么类型的文章,如果文章中出现很多体育类的词,比如,篮球,足球之类的,那么主题模型就会把它划分为体育类的文章

什么是LDA?

它是一种无监督的贝叶斯模型。

是一种主题模型,它可以将文档集中的每篇文档按照概率分布的形式给出。

是一种无监督学习,在训练时不需要手工标注的训练集,需要的是文档集和指定主题的个数。

是一种典型的词袋模型,它认为一篇文档是由一组词组成的集合,词与词之间没有顺序和先后关系

LDA的目的就是要识别主题,即把文档—词汇矩阵变成文档—主题矩阵(分布)和主题—词汇矩阵(分布)

P(词 | 文档)=P(词 | 主题)P(主题 | 文档)

用表达式如下:

P(w|d)=P(w|t)∗P(t|d)

词→主题→文档

同一主题下,某个词出现的概率,以及同一文档下,某个主题出现的概率,两个概率的乘积,可以得到某篇文档出现某个词的概率,我们在训练的时候,调整这两个分布就可以了。

由此可以定义LDA的生成过程:

对每篇文档,在主题分布中抽取一个主题;(相当于左图)

对抽到的主题所对应的单词分布中随机抽取一个单词;(在右图中抽)

重复上述过程直至遍历整篇文档中的每个单词

3 实例

3.1 计算文档-词汇矩阵

N个文档组成的语料库(𝐷1,𝐷2,"……" ,𝐷𝑛),由V个词组成的词汇表。矩阵中的值表示了词𝑊𝑗 〖在文档𝐷〗𝑖 中出现的频率,主题用Z表示,下面对语料库中的每一个word随机指派一个主题编号𝑍𝑖,统计每个𝑍_𝑖下出现的word次数,可得一个主题—词汇矩阵。

3.2 计算主题-词汇矩阵

3.3 计算文档主题矩阵

统计每个词代表的主题在每一个文档中出现的次数,可得出以下矩阵文档—主题矩阵

参考:https://www.jianshu.com/p/fa97454c9ffd

参考:https://blog.csdn.net/qq_39422642/article/details/78730662

上一篇下一篇

猜你喜欢

热点阅读