新闻内容抽取总结

2019-04-19  本文已影响0人  重构生活

一、目前现状

目前对新闻内容的抽取主要有两个方向,

1.基于网页规则的抽取,使用xpath进行抽取,准确性更高,但每次添加新的数据源都要添加配置;

2.自动抽取技术,抽象出所有新闻网站的共同特征,去掉无用的标签,基本能够提取出来,但有时候会抽取出多余的内容;目前还有基于机器学习来抽取的,也算是自动抽取,但准确度都没有第一种方法高。

二、目前使用的工具

1.boilerpipe,Google的工具,使用很方便,准确性不够,两年没有更新了。https://github.com/kohlschutter/boilerpipe

2.WebCollector,网上找的一个工具,简单测试了一下,效果还可以。https://github.com/CrawlScript/WebCollector

三、原理分析

正在进行中......

学习交流,wx,aha314159

上一篇下一篇

猜你喜欢

热点阅读