2019-06-15 情感分类中 WordEmbedding

2019-06-15 本文已影响0人 LoveAnny

wordvector

NLP 任务中最基本的运算单元应该是词了，处理的所有词组成在一起就行成了词库，但是词库是稀疏的，所以我们需要将词转换成计算所熟知的实数，这种表示方式就是词嵌入（Word Embedding）。

One-hot

最简单也是最直接的方式应该是使用One-hot方法，假设词表的数量是V，则每一个词就是一个长度为V的向量，所有词依次排开，每个词相对应位置为1，否则就是0，该种方式其实就是一个词和向量的映射表。但是这种方法表示方便，直接，但是有如下几个缺点：

词向量的长度和词库长度相关，如果词库很长，则每个词表示一个非常长的向量，其中只有一个地方为1，其余都是0，表示效率低下
无法表示词和词之间的关系，比如：good 和prefect 两个词都表示好的意思，但是拿两者之间的cos 距离是0，也就是说两者无关系，这明显是不合适的。

所以人们为了更好表示Word，就想出了很多词嵌入方法。

基本假设

在将词表示成向量时，人民大多基于下面假设：“如果两个词有相同上下文，则两个词就有相似的含义”，这个观点在一些NLP任务中很直接，也很有用。比如对于POS任务，两个词有相同的使用方法，则两个词的词性非常有可能是相同的。但是对于特定任务时却有很大偏差。比如情感分类任务，Good 和Bad 有相同的词性，但是意义却完全相反。

所以人们如上问题提出过很多Word Embedding方法。