word2vec [2] LSA 算法简介

2019-06-14  本文已影响0人  数据小新手

LSA

LSA 是自然语言处理技术,主要用于分析文档和词之前的关系。LSA假设同时出现的单词有相同或相近的词义(Distributional hypothesis)。一个包含每个单词在一个文档中同时出现的矩阵从大量的文本中创建。并且使用SVD方法对该矩阵进行分解。并进行降温。然后使用余弦相似度对词向量进行测量,值约接近1,相似度越高。

1.Ocurrence matrix

Term-document matrix 描述 terms在一个文档中共同出现的矩阵。通常矩阵元素的权重是tf-idf值

2.Rank lowering

  1. 原始的matrix 通常很大,计算比较消耗资源。

  2. 原始的matrix 通常认为有噪音,通过矩阵分解产生的降维通常可认为降噪。

  3. 原始的matrix 过于稀疏,That is, the original matrix lists only the words actually in each document, whereas we might be interested in all words related to each document—generally a much larger set due to synonymy.

缺点

  1. 结果很难解释

  2. 不能抓住一次多义,because each occurrence of a word is treated as having the same meaning due to the word being represented as a single point in space

  3. 不能展示词的先后顺序,

https://en.wikipedia.org/wiki/Latent_semantic_analysis

上一篇下一篇

猜你喜欢

热点阅读