Apache Kafka@IT·大数据互联网科技

分布式离线/实时日志统计系统(Hadoop.Spark)

2017-12-24  本文已影响136人  热血沸腾

概要

本文总结采用目前最流行的Hadoop生态圈和Spark生态圈搭建一套完整的分布式日志采集系统,支持离线和实时计算,可以满足多种需求,例如PV,UV,实时交易量等各个业务下的场景。

项目架构

项目架构图

集群一览

大数据两个重要角色

角色 ip
NameNode 192.168.6.98
DataNode1 192.168.6.92
DataNode2 192.168.6.99
角色 ip
Master 192.168.6.98
Worker1 192.168.6.92
Worker2 192.168.6.99

组件清单及功能

结束

为什么如何搭建都没有讲?具体如何搭建集群以及各个环节如何融入的技术,请自行参考其他博文,本文只阐述项目架构。
搭建以上各个组件细节甚多,坑甚多,不同组件版本会遇到不同情况。我写出来也不具有统一参考性,我觉得自行摸索配合该架构图,会逐步打通整个业务流程,熟悉掌握大数据集群这两个关键性技术存储和计算。

上一篇下一篇

猜你喜欢

热点阅读