word2vec
2017-06-16 本文已影响30人
yingtaomj
n-gram:主要工作是在语料中统计各种词串出现的次数以及平滑化处理,计算一个句子的概率时,只需要找到相关的概率参数,将它们连乘起来就好。
神经网络概率语言模型优点:
- 词语之间的相似性可以用词向量体现
- 词向量自带平滑功能
四个名词:
- CBOW模型:从上下文预测关键词
- skip-gram:从关键词预测上下文
- hierarchical softmax:树
- negative sampling:正负样本
hierarchical softmax:建立一个哈弗曼树,优化目标是:让词向量沿路径到达它所在的叶节点的可能性最大,具体方法是用梯度下降法改进非叶结点的参数。
CBOW的hierarchical softmax模型:求窗口中的向量和,沿路对每一个节点进行优化,最后优化词向量
skip-gram的hierarchical softmax模型:用选中的词向量,对窗口中的其他词的路径中的节点做优化
以上两种方法的区别仅在于:一个是求得和向量,只对本词路径做优化。另一个是用本身词向量对其他若干节点做优化。
negative sampling的训练目标:最大化g(w)
CBOW:用和向量对窗口中的每个词进行训练
skip-gram:把窗口中的每一个词都看作中心词进行训练,优化每一个词向量