大数据分析与高速数据分析- 陈世敏

2016-11-24  本文已影响0人  少游羁旅

一、大数据背景与趋势

1.计算机体系结构与硬件系统巨大发展

a.CPU.内存.GPU.硬盘

2.数据管理系统发展

a.关系型数据库

三大数据库:

ORACLE.MS-SQLserver.IBM-DB2

B.早期 针对事务处理系统(transaction processing )大量并发需求,少量读写操作

90s Data Warehouse :数据仓库 读取大量数据分析操作

2000年代 多种发展:数据流处理,GIS,多媒体数据库,Web后端

2010年代 大数据

3.大数据的概念与挑战

1.大数据分析重要性

EMC Digital Universe with R&A by IDC 2014

2013:每个人产生的数据量4.4ZB/person (1ZB=10^21字节 )数据的利用率2%

2020:每个人产生数据量:60~70ZB/person 。数据利用率20%

大数据分析已经引起了广泛关注。

2.大数据概念:

1.数据量巨大Volume;

数据种类繁多Variety;

数据产生速度,更新速度快Velocity。

2.与传统关系型数据库对比:传统先设计系统后采集数据;大数据先有数据,然后需要分析。

处理需求更加丰富;数据密度降维

3.大数据与云计算:云计算提供平台

4.大数据处理平台:关系型;云平台;云平台+SQL;No-SQL:

图数据处理:Google Pregel,Apache Giraph,Graphlab,Neo4j;

5.研究生春季课程:大数据分析与大规模数据分析

二、高速数据更新

1.不同类型系统的Velocity

Velocity是事务处理系统、数据流系统的主要设计目标;

数据分析

                    数据分析

新数据—》存储数据



数据仓库

数据更新方式:夜间离线更新;需要在线更新。

目标:支持在线更新的同时保持好的读性能。

传统数据更新操作问题:数据分析是顺序读取,数据更新是随机读写。

TPC www.tpc.org 测试

Our approach:使用SSD缓存在线更新。

SSD在线更新

日志记录分析及重要性

从各种硬件设备软件系统收集日志记录。

用于支持安全管理,故障排查,用户行为分析等重要应用。

目标:存储处理大量日志数据:存储10PB;提高日志获取能力:1.2GB/s(100TB/day)

基于时间窗口的连接操作:找匹配

挑战:日志获取是分布的,希望同一段时间的日志记录在同一个机器节点上。

解决方案 核心环节

增量更新

数据的新鲜性

增量计算:数据量增大-》计算量增大

Mapreduce编程模型

Mapreduce/Hadoop 模型

Mapreduce Word Count举例

MapReduce增量计算:粗粒度、细粒度

小结
上一篇下一篇

猜你喜欢

热点阅读