工作生活

通用新闻扫描爬虫设计思路(自动识别链接,自动提取正文和发布时间)

2019-07-02  本文已影响0人  sexy_cyber

1.整体方案解决思路

1.先解决量的问题再解决质的问题

2.解决文章详情提取和发布时间提取正确性的问题
    2.1 解决时间提错的问题,反复调优时间解析算法
    2.2 正文包含大量噪音,不断优化做降噪处理
    
3.全新开发了一套发布时间抽取算法和正文提取算法

2.分阶段实现步骤

2.1 url有效性校验,标准化

由于我们手中的url库,url的质量层次不齐,必须摸清情况,清洗

2.2 从站点首页抽取链接

1.提取所有链接
    1.1 在链接抽取中新增对于需要click事件触发才能产生的链接兼容
    1.2 提取所有a标签,are标签的src,href,等属性
2.过滤垃圾链接
    2.1 过滤跨域
    2.2 过滤本页
    2.3 过滤垃圾信息脏数据
    2.4 链接清洗
    2.5 链接属性识别
    2.6 ajax加载网站兼容,解决方案是绕过和splash
    2.7 详情解析算法优化(时间)
    2.8 说明文档编辑和规范化
3.链接性质识别
    3.1主要结合标题和url各自的特征值,以及两者结合对比进行识别
    3.2识别详情链接
    3.3识别板块链接

2.3正文解析+时间解析

上一篇下一篇

猜你喜欢

热点阅读