深度学习 | 向量空间中词表示的有效估计

我们提出了两种新颖的模型体系结构,用于计算来自非常大的数据集的单词的连续矢量表示。 在单词相似性任务中测量这些表示的质量,并且将结果与基于不同类型的神经网络的先前最佳执行技术进行比较。 我们在低得多的计算成本下观察到准确性的大幅提高,即从16亿字数据集中学习高质量字向量需要不到一天的时间。 此外,我们表明这些向量在我们的测试集上提供了最先进的性能,用于测量句法和语义单词的相似性。
许多当前的NLP系统和技术将单词视为原子单元 - 单词之间没有相似性概念,因为它们在词汇表中表示为索引。这个选择有几个很好的理由 - 简单性,鲁棒性和观察到,对大量数据进行训练的简单模型优于使用较少数据训练的复杂系统。一个例子是用于统计语言建模的流行的N-gram模型 - 今天,可以在几乎所有可用数据(数万亿字[3])上训练N-gram。
然而,简单的技术在许多任务中都处于极限。例如,用于自动语音识别的相关域内数据的量是有限的 - 性能通常由高质量转录语音数据(通常仅数百万字)的大小决定。在机器翻译中,许多语言的现有语料库仅包含数十亿字或更少。因此,在某些情况下,基本技术的简单扩展不会带来任何重大进展,我们必须关注更先进的技术。
随着近年来机器学习技术的进步,可以在更大的数据集上训练更复杂的模型,并且它们通常优于简单模型。可能最成功的概念是使用单词的分布式表示[10]。例如,基于神经网络的语言模型显着优于N-gram模型[1,27,17]。
The test set is available at
www.fit.vutbr.cz/ ˜imikolov/rnnlm/word-test.v1.txt http://ronan.collobert.com/senna/ http://metaoptimize.com/projects/wordreprs/ http://www.fit.vutbr.cz/ ˜imikolov/rnnlm/ http://ai.stanford.edu/ ˜e hhuang/