TextRank 文本摘要

2019-04-24 本文已影响0人 KhaosYang

TextRank是一种用于文本的基于图的排序算法。通过把文本分割成若干组成单元（句子），构建节点连接图，用句子之间的相似度作为边的权重，通过循环迭代计算句子的TextRank值，最后抽取排名高的句子组合成文本摘要。

文本摘要

文本摘要可以大致分为两类——抽取型摘要和抽象型摘要:

抽取型摘要：这种方法依赖于从文本中提取几个部分，例如短语、句子，把它们堆叠起来创建摘要。因此，这种抽取型的方法最重要的是识别出适合总结文本的句子。

抽象型摘要：这种方法应用先进的NLP技术生成一篇全新的总结。可能总结中的文本甚至没有在原文中出现。

TextRank的打分思想依然是从PageRank的迭代思想衍生过来的，PageRank主要用于对在线搜索结果中的网页进行排序。

PageRank

PageRank如下公式所示：

Text Rank 公式

等式左边表示一个句子的权重（WS是weight_sum的缩写），右侧的求和表示每个相邻句子对本句子的贡献程度。与提取关键字的时候不同，一般认为全部句子都是相邻的，不再提取窗口。分子wji表示两个句子的相似程度，相似程度wji的计算，推荐使用BM25算法。分母又是一个weight_sum，而WS(Vj)代表上次迭代j的权重。整个公式是一个迭代的过程。

假设我们有4个网页——w1，w2，w3，w4。这些页面包含指向彼此的链接。有些页面可能没有链接，这些页面被称为悬空页面。