大数据入门

2018-06-09  本文已影响0人  javaBoy_hw

1 大数据

Hadoop& Spark& HDFS, rpc

大数据简介

大数据本质是一种方法,以非抽样数据为基础进行分析,辅助决策。

人工智能:
机器学习:svm,分类和聚合,
spark ml, dl。
GAN网络

大数据常用框架
仅批处理框架:Apache Hadoop;
仅流处理框架:Apache Storm、Apache Samza;
混合框架:Apache Spark、Apache Flink;

大数据误区

数据量大与高并发的区别
数据量:主要是指数据的总量;
高并发:并发量高,短时将数据量大,但总体数据量不一定大。

2 Hadoop MapReduce 框架

大致逻辑:
先把输入,打乱,每个打乱的块再分层几块,所有的第一块交由处理1的reduce去处理,其他相对应。

Map阶段、Shuffle(打乱)阶段、Reduce阶段。

边读写,当达到某个阈值时溢写。

为了解决溢写时的频繁io,使用本地聚合思路,提高性能。

单词共现矩阵的计算主要有两种方法:词对法,条纹法。

3 图数据库

3.1 图数据库简介

图数据库,应用图形理论存储实体之间的关系信息的数据库。,擅长于处理节点和边组成的复杂关系网络,例如六度空间理论。

图数据库主要用来处理:传统CRUD,联机事务处理(OLTP)。图计算:联机分析处理(OLAP),不支持事务。

3.1.2 图数据库基本概念

图数据库使用的是传统SQL语句,使用的是Cypher查询语句。

基本概念:节点、关系、标签、属性

节点(Node):图中的对象,又称顶点(vertex)。
关系(Relationship):连接节点。有类型、有方向、带属性,又称为边。
标签:给节点分类,可以有多个。
属性:丰富节点和关系。

3.1.3 图数据库应用场景

知识图谱、社交网络、欺诈检测、公交系统、股权关系、食品安全。

3.2 常见图数据库

Neo4j:使用最多。
Titan:基本已死
JanusGraph:Uber在用,发展较快
OrientDB:多模型的数据库,包括文档型,图数据库

其他非关系型数据库

键值对数据库:Redis
列式数据库:HBase
文档型数据库:MongoDB
图数据库:Neo4j

3.3 Cypher查询语句

3.3.1 CRUD

创建节点:
CREATE(yang:人物{name:"杨绛",born_date:"1911年7月17"}) return yang

参考文献

《neo4j权威指南》

上一篇 下一篇

猜你喜欢

热点阅读