新闻内容抽取总结
2019-04-19 本文已影响0人
重构生活
一、目前现状
目前对新闻内容的抽取主要有两个方向,
1.基于网页规则的抽取,使用xpath进行抽取,准确性更高,但每次添加新的数据源都要添加配置;
2.自动抽取技术,抽象出所有新闻网站的共同特征,去掉无用的标签,基本能够提取出来,但有时候会抽取出多余的内容;目前还有基于机器学习来抽取的,也算是自动抽取,但准确度都没有第一种方法高。
二、目前使用的工具
1.boilerpipe,Google的工具,使用很方便,准确性不够,两年没有更新了。https://github.com/kohlschutter/boilerpipe
2.WebCollector,网上找的一个工具,简单测试了一下,效果还可以。https://github.com/CrawlScript/WebCollector
三、原理分析
正在进行中......
学习交流,wx,aha314159