Spark文章合集

基于HBase和Spark构建企业级数据处理平台

2019-10-29  本文已影响0人  王知无

本文整理自来自阿里巴巴的沐远的分享,由大数据技术与架构进行整理和分享。

场景需求和挑战

面临的场景

金融风控

个性化推荐

**社交Feeds **

时空时序

大数据

新的挑战

Apache HBase(在线查询) 的特点有:

面临的新的挑战:

选择Spark的原因

file

平台机构及案例

一站式数据处理平台架构

file

典型业务场景:爬虫+搜索引擎

file

典型业务场景:大数据风控系统

file

典型业务场景:构建数据仓库(推荐、风控)

file

原理及最佳实践

Spark API的发展经历了RDD、DataFrame、DataSet


file

Spark Streaming采用的是Micro-Batch方式处理实时数据。


file

作业堆积、延迟高、并发不够?

Spark流式处理入库HBase

file

Micro-Batch Processing:100ms延迟
ConKnuous Processing:1ms延迟

Spark HBase Connector的一些优化

file

代码托管在:https://github.com/aliyun/aliyun-apsaradb-hbase-demo (包含Spark操作Hbase和Phoenix)

关注我的公众号,后台回复【JAVAPDF】获取200页面试题!
5万人关注的大数据成神之路,不来了解一下吗?
5万人关注的大数据成神之路,真的不来了解一下吗?
5万人关注的大数据成神之路,确定真的不来了解一下吗?

欢迎您关注《大数据成神之路》
上一篇下一篇

猜你喜欢

热点阅读