每天一个小程序之提取文章正文

2017-03-11  本文已影响187人  安好每个你

goose

goose是提取网页的好方法

Python-goose项目是用Python重写的Goose,Goose原来是用Java写的文章提取工具。Python-goose的目标是给定任意资讯文章或者任意文章类的网页,不仅提取出文章的主体,同时提取出所有元信息以及图片等信息,支持中文网页。


Python-goose可提取的信息包括:

文章主体内容

文章主要图片

文章中嵌入的任何Youtube/Vimeo视频

元描述

元标签

Python-goose许可为Apache 2.0。

上一篇下一篇

猜你喜欢

热点阅读