7 LDA
LDA解释:假如有一篇文章text,通过里面的词,来确定他是什么类型的文章,如果文章中出现很多体育类的词,比如,篮球,足球之类的,那么主题模型就会把它划分为体育类的文章
什么是LDA?
它是一种无监督的贝叶斯模型。
是一种主题模型,它可以将文档集中的每篇文档按照概率分布的形式给出。
是一种无监督学习,在训练时不需要手工标注的训练集,需要的是文档集和指定主题的个数。
是一种典型的词袋模型,它认为一篇文档是由一组词组成的集合,词与词之间没有顺序和先后关系
LDA的目的就是要识别主题,即把文档—词汇矩阵变成文档—主题矩阵(分布)和主题—词汇矩阵(分布)
P(词 | 文档)=P(词 | 主题)P(主题 | 文档)
用表达式如下:
P(w|d)=P(w|t)∗P(t|d)
词→主题→文档
同一主题下,某个词出现的概率,以及同一文档下,某个主题出现的概率,两个概率的乘积,可以得到某篇文档出现某个词的概率,我们在训练的时候,调整这两个分布就可以了。
由此可以定义LDA的生成过程:
对每篇文档,在主题分布中抽取一个主题;(相当于左图)
对抽到的主题所对应的单词分布中随机抽取一个单词;(在右图中抽)
重复上述过程直至遍历整篇文档中的每个单词
3 实例
3.1 计算文档-词汇矩阵
N个文档组成的语料库(𝐷1,𝐷2,"……" ,𝐷𝑛),由V个词组成的词汇表。矩阵中的值表示了词𝑊𝑗 〖在文档𝐷〗𝑖 中出现的频率,主题用Z表示,下面对语料库中的每一个word随机指派一个主题编号𝑍𝑖,统计每个𝑍_𝑖下出现的word次数,可得一个主题—词汇矩阵。
3.2 计算主题-词汇矩阵
3.3 计算文档主题矩阵
统计每个词代表的主题在每一个文档中出现的次数,可得出以下矩阵文档—主题矩阵
参考:https://www.jianshu.com/p/fa97454c9ffd
参考:https://blog.csdn.net/qq_39422642/article/details/78730662