词向量《A La Carte Embedding: Cheap

2019-07-28 本文已影响3人布口袋_天晴了

一、背景

词的向量表示，在很多NLP任务中常用预训练好的词向量表作为模型的输入。该论文提出了一个A La Carte词向量表示模型，相对于word2vec，它利用了更多的词的上下文信息。实验数据使用的是SemEval 2013、2015比赛的多语言词义消歧任务(Mutilingual Word Sense Disambiguation Task)，包含5种语言，英语、法语、德语、意大利语、西班牙语。

二、模型

假设：
1)有一个大的文本语料集 $C_{v}$ ={ $text_{1}$ , $text_{2}$ , $text_{3}$ ...}
2)文本语料集中的词w，构成一个词表V
3)词w的上下文词序列用c表示，它由固定大小的窗口截取而来
4)模型需要训练的词向量 $v_{w}\in \mathbb{R}^{d}$ ，词向量表为v_w，模型的目标是训练出一个好的文本特征表示 $v_{f}\in \mathbb{R}^{d}$

词向量《A La Carte Embedding: Cheap

一、背景

二、模型

三、理论分析

四、实验结果

猜你喜欢

热点阅读