39.复习1-38内容大数据相关知识(MR.HBASE,HIVE

2020-02-23  本文已影响0人  文茶君

大数据思想:
分布式存储
分而治之:

大数据基于什么样的计算场景

HADOOP

1.HADOOP简介

2.HDFS

3.MAPREDUCE

4.YARN

5.Hive

hive原理架构

DDL

DML
-增
1.insert into tablename values()
2.insert into directory dict as select_statement
3.load data local inpath 'path' into table tablename
4.from tablename insert into new_table select col
注意:1.2几乎不用,3,4,使用较多

hive的运行

6.HBASE


写表操作
多客户端并发写,创建多个HTable对象
属性设置:
1关闭autoFlush
2设置客户端缓存
3WAL Flag(不推荐关闭)
多线程写


读表操作
多客户端并发读,创建多个HTable对象
属性设置:
1.scan设置抓取数据的条数
2.关闭resultScanner
3.指定查询的column和family,不要将一整行的所有数据读取进来
多线程读
blockache:一个regionserver共享一个blockache
blockache默认占用0.2的内存空间,对于注重读响应的系统,可以适当增大值
blockache有默认采用LRU的默认机制,默认淘汰最老的一批数据

终于写完了,好累。。。。。。。。。。。。。。

上一篇 下一篇

猜你喜欢

热点阅读