LSA 主题模型
2019-04-03 本文已影响3人
dreampai
1、原理
通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。技术上通过SVD分解等处理,消除了同义词、多义词的影响,提高了后续处理的精度。
- 分析文档集合,建立词汇-文本矩阵。
- 对词汇-文本矩阵进行奇异值分解。
- 对SVD分解后的矩阵进行降维
- 使用降维后的矩阵构建潜在语义空间

- 第一个小矩阵X是对词进行分类的一个结果,它的每一行表示一个词,每一列表示一个语义相近的词类,这一行中每个非零元素表示每个词在每个语义类中的重要性(或者说相关性)
- 第二个小矩阵B表示词的类和文章的类之间的相关性
- 矩阵Y是对文本进行分类的一个结果,它的每一行表示一个主题,每一列表示一个文本,这一列每个元素表示这篇文本在不同主题中的相关性