爬虫实时监控 1000 家中国企业新闻动态
2017-10-11 本文已影响0人
lazycat_zzz
大家好~
你想第一时间获取企业信息吗?
欢迎使用我的Python代码
Github地址
此项目可监控近千家中国企业的官方网站的新闻动态,如有更新,系统能在 5 分钟之内通过邮件发送更新的标题和链接。 更新的信息流也可通过浏览器查看。监控的公司和站点可以添加删除。
采用 celery 任务队列,定期抓取网站 html, 使用 difflib 比对新旧页面源码,发现增加的部分,提取 url 和 text,过滤筛选,保存 MySQL 数据库。 定期把更新的 url 和 text,通过邮件发送给订阅者。
方法简单粗暴 优点:实时性可以保障
欢迎fork, star。