word2vec

2019-07-22  本文已影响0人  lzc007

本文主要介绍word2vec包含的两个模型 CBOX(Continuous Bag of Words) 和skip-gram,以及两个训练方法hierarchical softmax 、negative sampling

1 CBOX and skip-gram

CBOX
输入: 词的上下文w(t-2),w(t-1),w(t+1),w(t+2)

输出:当前词 w(t)

目标函数:对数似然函数

skip-gram
输入: 当前词w(t)

输出: 词的上下文w(t-2),w(t-1),w(t+1),w(t+2)
目标函数:对数似然函数

已知目标函数是什么之后,关键在于怎么构造这个目标函数。下面讲述分别讲述hierarchical softmax 、negative sampling两个方法。

2 基于 Hierarchical Softmax 的模型

2.1 CBOX

模型框架

CBOX 模型网络结构示意图
针对样本 (Context(w),w)(窗口大小为2c)
输入层: 2c 个词的词向量 V(Context(w)1) V(Context(w)2) ... V(Context(w)2c)
投影层:

输出层:

2.2 skip-gram
上一篇下一篇

猜你喜欢

热点阅读