大数据 爬虫Python AI Sql

爬虫实时监控 1000 家中国企业新闻动态

2017-10-11  本文已影响0人  lazycat_zzz

大家好~
你想第一时间获取企业信息吗?
欢迎使用我的Python代码
Github地址

此项目可监控近千家中国企业的官方网站的新闻动态,如有更新,系统能在 5 分钟之内通过邮件发送更新的标题和链接。 更新的信息流也可通过浏览器查看。监控的公司和站点可以添加删除。

采用 celery 任务队列,定期抓取网站 html, 使用 difflib 比对新旧页面源码,发现增加的部分,提取 url 和 text,过滤筛选,保存 MySQL 数据库。 定期把更新的 url 和 text,通过邮件发送给订阅者。

方法简单粗暴 优点:实时性可以保障

欢迎fork, star。

上一篇下一篇

猜你喜欢

热点阅读