数据-R语言-图表-决策-Linux-Python数据分析Python

利用Python实现摘要自动提取,完美瘦身只需一行代码

2019-01-26  本文已影响203人  妄心xyx

今天给大家推荐一个也可以用于关键字提取的算法TextRank,但主要实现的功能是快速从长篇新闻中抽取精准摘要。

前言介绍

TextRank是一个基于图排序的、用于文本处理的算法,通常使用PageRank作为其底层的图排序模型,当然其他的图排序模型也可以与其结合。

使用TextRank算法,不需要有深入的语言学和专业领域知识,因为它是一个无监督的算法。在文本中使用基于图的排序算法需要构建一张关系图来表达文本、词语以及其他实体。

在中文里面,词语、短语、整个句子等都可以作为图中的顶点,在这些顶点之间建立联系,如:词序关系、语义关系、内容相似度等,就能够构建一张合适的关系图。

目前,TextRank在中文文本中的应用主要有三个方向,分别是:

1)关键词提取;

2)关键短语提取;

3)自动摘要。

Python中有一个名为 textrank4zh 的包实现了这三个功能,其源码地址为:

https://github.com/letiantian/TextRank4ZH , 实现了不错的文本处理效果。

效果预览

最近,Tushare Pro 发布了近10年的CCTV新闻联播数据,对数据进行了清洗和规范。

但是,每天的新闻联播内容共有上万字,完全的读下来也是比较费劲。如果使用自动摘要技术把这上万字的内容浓缩成10个句子,阅读负担一下子就减轻了不少。而自动摘要正是 TextRank 的用武之地。

在实现功能之前,我们先来看看从新闻中提取的摘要效果。

image image

得益于Tushare提供的新闻联播规范文本,TextRank自动摘要效果看起来非常不错。

为什么TextRank能有这么好的效果呢?这主要是因为图排序模型是基于全局信息来计算每个顶点的重要性,而不是仅仅使用局部信息。下面简单介绍一下TextRank应用于自动摘要的基本原理。

基本原理

前面已经说到,使用TextRank分析文本,首先需要在文本上构建一张图。

对于文本自动摘要任务,我们使用句子作为图的顶点,句子与句子之间的相互关系作为图的边。这里不能简单的用句子在文本中的前后关系来构建图的边,我们需要评估句子与句子之间的相似度,每个句子仅与它最相似的几个句子之间构成连接,并使用相似度作为边的权重。

事实上,两个句子相似,可以认为这两个句子之间存在一种“推荐”关系,即:读者读完这个句子后,这个句子推荐读者去读跟它相似的句子。

评估两个句子相似度的方法有很多,比如:余弦相似度、编辑距离等,在TextRank算法中使用的是最基本方法,通过计算两个句子中相同词语的数量来计算相似度,此外,可以加语法过滤器对词语进行过滤。

确定了图的顶点和边是什么,以及边的权重,一张加权图(weighted graph)就已经得到了,这个加权图的形状如图1所示。接下来就可以使用PageRank去迭代计算每个顶点(句子)的重要性。最后,将最重要的N个句子作为整个文本的摘要,这就是TextRank的自动摘要结果。

image

代码实现

由于textrank4zh已经实现了TextRank的功能,我们拿过来直接使用就可以,而且用法极其简单。

image image
上一篇 下一篇

猜你喜欢

热点阅读