自己喜欢的技术文大数据 爬虫Python AI Sql@IT·互联网

爬虫架构|利用Kafka处理数据推送问题(3)架构图

2018-04-26  本文已影响285人  小怪聊职场

一、需求

1、对于所有任务产生的实时数据,通过Kafka及时推送。
2、对于新加任务需要去历史全量数据表中获取该任务已有的历史数据。
3、爬虫集群在生产数据时需要去全量数据中进行下匹配,如果不存在才会推送给Kafka。

二、架构设计图

Kafka+MySQL架构设计

三、结语

欢迎相关人员一起交流。

上一篇下一篇

猜你喜欢

热点阅读