word2vec

2017-06-16 本文已影响30人 yingtaomj

n-gram：主要工作是在语料中统计各种词串出现的次数以及平滑化处理，计算一个句子的概率时，只需要找到相关的概率参数，将它们连乘起来就好。

神经网络概率语言模型优点：

词语之间的相似性可以用词向量体现
词向量自带平滑功能

四个名词：

CBOW模型：从上下文预测关键词
skip-gram：从关键词预测上下文
hierarchical softmax：树
negative sampling：正负样本

hierarchical softmax：建立一个哈弗曼树，优化目标是：让词向量沿路径到达它所在的叶节点的可能性最大，具体方法是用梯度下降法改进非叶结点的参数。
CBOW的hierarchical softmax模型：求窗口中的向量和，沿路对每一个节点进行优化，最后优化词向量
skip-gram的hierarchical softmax模型：用选中的词向量，对窗口中的其他词的路径中的节点做优化
以上两种方法的区别仅在于：一个是求得和向量，只对本词路径做优化。另一个是用本身词向量对其他若干节点做优化。

negative sampling的训练目标：最大化g(w)

CBOW：用和向量对窗口中的每个词进行训练

skip-gram：把窗口中的每一个词都看作中心词进行训练，优化每一个词向量

word2vec

猜你喜欢

热点阅读