hadoop入门系列--从本地把数据导入Hbase

2020-04-14  本文已影响0人  微生活_小阿楠

传送门
hadoop入门系列--hbase基础知识点
hadoop入门系列--从本地把数据导入Hbase
hadoop入门系列--用java代码实现创建hbase表
hadoop入门系列--使用hbase过滤器(一篇全掌握)
传送门

从本地把数据导入Hbase中

步骤一、先启动hadoop与hbase

步骤二、在hbase创建jobs表和一个叫info的列族

create 'jobs','info'

步骤三、把本地csv文件上传到hdfs中

hdfs dfs -put ./jobs.txt /user/jobs.txt

步骤四、在本地写导入命令

//说明:
//使用importTsv功能可以将csv格式的文件导入到HBase中,其格式如下:
// hbase [类] [分隔符] [行键,列族] [表] [导入文件]
个人总结:数据都是要指定rowkey的(不能重复),会默认把你第一个作为rowkey。
所以当遇到你第一个字段是会重复的,你就得自己额外加rowkey(字段就直接从第二个开始写,因为第一个变成rowkey了)
主要得看你数据是怎么样的!!!
比如:
小明  英语  90  
小明  数学   99
小红  英语   88

1 小明  英语  90  
2 小明  数学   99
3 小红  英语   88

hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator="," \
-Dimporttsv.columns=HBASE_ROW_KEY,info:company_name jobs /user/jobs.txt

步骤五、去hbase上查看是否导入成功

scan ‘表’

truncate '表' 清空数据
count '表' 统计数据

补充说明:如果在scan表时,没有导入成功。把hbase的lib文件下所有jar包上传到hdfs中(注意,路径要一模一样(如:usr/local/hbase/lib))

上一篇下一篇

猜你喜欢

热点阅读