word2vec[1] word representation词

2019-06-14 本文已影响0人数据小新手

词嵌入 word representation

词嵌入是自然语言处理（NLP）中语言模型与表征学习技术的统称。概念上而言，它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。

词向量有两种词表示方法

采用稀疏存储，把每个词表示成一个很长的向量，向量维度是词表大小,向量中只有一个值为1，其余全是0 例如： [0 0 0 0 1]

bag of words，根据词出现的频率构建特征。

其他基于term of freq的指标包括（BM25等）。

计算词出现的tf-idf值

问题：

（1）单词较多时会出现维度爆炸，训练过慢。

（2）缺少onehot 缺少上下文关系。

（3）计算相似度sim 误差很大

Hinton于1986年提出，解决了语义鸿沟的问题，让相关或者相似的词在距离上更加接近了采用低维实数向量表示词语，如何利用文本的上下文信息，得到更有意义的向量表达(word embedding)，是NLP领域研究的重点

a. 矩阵构造 b. 矩阵元素值的确定 c. 降维技术将高维稀疏的向量压缩成低维稠密

常见的算法 LSA(latent semantic analysis) 构造word-doc矩阵，TF-IDF为每个元素的值。使用SVD分解，得到词的低维表达

常见的方法有word2vec, fastText

Glove