word2vec 的相关概念

2018-05-18 本文已影响0人 LCG22

1、word2vec 的概念

word2vec ：将词映射到一个词空间中，故 word2vec 被称为词嵌入；并且以词空间的维度组成一个向量，故 word2vec 也被称之为词向量。

word2vec 来源于词的分布假说，词的语义由其上下文所决定。

思考：词的语义并不一定是由其上下文所决定的，例如说话人的语气也会导致不同的意思，以及不同身份的人说同样的话也会导致不同的意思。

上下文是由词窗所决定的，而词窗是要预测的词（下文皆称为目标词）往左边或右边截取的最长长度，并非我们平常所理解的一句话或一段话。

3、word2vec 在深度学习中的应用

①统计语言模型

统计语言模型是通过计算句子中前 n-1 个词的概率来计算第 n 个最有可能的词的概率的概率模型。而马尔科夫则假设为第 n 个词仅与第 n -1 个词有关。

而在实践中则一般会对马尔科夫假设进行扩展，即第 n 个词仅与第 n -1 和第 n - 2 个词有关。

②神经网络语言模型的 skip-gram 模型和 CBOW 模型

skip-gram 模型是通过目标词来预测其上下文（即目标词的左边和右边的词，词的长度取决于词窗）

CBOW（Continuous Bag-of-Words，连续词袋模型）模型则与 skip-gram 相反，它是通过上下文来预测目标词

③word2vec 的神经网络结构

word2vec 的神经网络结构分为三层，分别是输入层、一层隐藏层、输出层，虽然在深度上算不上深，但是在大规模数据上的训练效果却确实不错。