学习大数据

2018-11-04  本文已影响0人  路亚历克斯

大数据采集、分布式存储、并行计算;信息检索(搜索/推荐/广告)、数据挖掘(概念/流程/机器学习/算法/模型)

  1. 数据库的范式约束着力解决数据冗余问题,保障数据的一致性。但对于大数据来说,并不需要进行数据的修改、和保障数据一致性,通常情况下,原始数据都是只读的。所以,数据库的范式等约束规则 反而会成为影响性能的因素,因此通常不会采用。
  2. 大数据下的分布式存储强调数据的只读特征,所以类似hdfs、hive这些存储系方式都不支持update,hdfs的write也不支持并行。
  1. 分布式计算的思路是让多个节点并行计算,并且强调数据的本地性,尽可能的减少数据传输,例如spark通过RDD的形式来表现数据的计算逻辑,可以在RDD上做一系列的优化,来减少数据单位传输。
    4.大数据架构除了批处理,还有实时处理的支撑。
  2. 流式架构以数据通道替代了ETL,数据全程以流的形式处理。经过流处理加工过的数据,以消息的形式直接推送给了消费者。
  1. 综合架构,数据通道分为两条分支:实时和离线。实时流依照流式架构,离线以批处理方式为主。
上一篇 下一篇

猜你喜欢

热点阅读