FromWord Embeddings To Document

2020-03-14  本文已影响0人  Pluto_wl

文本相似度是自然语言处理研究热点之一,论文提出了一种新的衡量文本相似度的方法,Word Mover’s Distance (WMD)。此方法利用两个文本的词向量的距离来作为相似度,具体方法将在下文探讨。

提出原因

常用来表达文本特征的方式有BOW和TF-IDF,但这些特征不能很好的表达特征,当两个向量正交或近似正交时,文本相似度会特别低(these features are often not suitable for document distances due to their frequent near-orthogonality.) 。还有一个缺点是不能捕捉单词之间的距离。比如下面两句话表达同样的意思,然而除了停用词外,没有相同的词。
a: Obama speaksto the media in Illinois。
b: The President greets the press in Chicago.

当前还有一些可以通过学习低维隐藏特征向量的方式来更合理的表达文本,比如LDA, LSA等,然而与BOW相比效果相差无几。

优缺点

  1. WMD没有超参数并可以直接使用和理解
  2. 具有很好的解释性
  3. 具有很高的准确率
  1. 词袋模型,没有保留语序信息
  2. 不能很好的处理词向量的OOV(Out of vocabulary)问题
  3. 时间复杂度高

Word Mover’s Distance算法

因此,定义一个稀疏的转移矩阵T\in R^{n \times n}表示d转移到{d}'的代价,T_{i,j}表示d_i转移到{d}'_j的代价(Let T\in R^{n \times n}be a (sparse) flow matrix where T_{ij}>0denotes how much of word i in d
travels to word j in {d}'),那么从d转移到{d}'的代价为\sum_{i,j}T_{ij} c_{i,j}。同时有如下限制:
\sum_{j=1}^n\textbf{T}_{ij}=d_{i.}\sum_{i=1}^n\textbf{T}_{ij}=d'_{.j}

论文中提到,上述公式属于earth mover’s distance metric (EMD)的一个特殊形式,所以没有给出如何求解。

剪枝

利用论文4.1节 的Prefetch and prune 部分可以知道剪枝可以减少95%的计算。

结果

与其他baseline相比,WMD在各自任务上都有比较明显的提升。


来自论文 来自论文

流程如下

以下内容来自[1]

参考文献

  1. https://supernan1994.github.io/nlp/wmd1.html (推荐)
  2. http://ir.dlut.edu.cn/news/detail/362
  3. FromWord Embeddings To Document Distances
  4. https://zhuanlan.zhihu.com/p/32242768 (python实现WMD)
上一篇 下一篇

猜你喜欢

热点阅读