大数据大数据,机器学习,人工智能Hadoop

sqoop导入数据

2018-07-14  本文已影响13人  lukeyan

1、从pgsql中导出整张表到hdfs上

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

--target-dir /sqoop/cities \

-m 1

执行结果:

注意事项:

1、目标文件夹必须是不存在的

2、由于sqoop传输数据时默认采用4个map任务,-m x 表示使用x个map任务处理,有几个任务就会在HDFS的执行结果上有几个part-m文件

3、这里 -m 1 是由于传输的数据表没有设置主键,而sqoop默认采用主键字段进行拆分来达到并行任务的目的(默认采用4个map任务)。此时,既可以手动设置拆分字段,也可以将 -m 的值设为1。

4、--target-dir 该参数制定了文件输出到HDFS上的路径,同时还可以缺省该参数,该参数缺省时,问价将会输出到HDFS上当前用户的home目录当中,例如/user/root/。

5、在指定目标路径的参数中还有一个 --warehouse-dir 用来指定目标文件父目录

手动设置拆分字段例子如下:

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

--target-dir /sqoop/cities \

--split-by id \

-m 4

执行结果如下:

此处只有三个文件是由于表中只有3条数据。。。

--target-dir 参数缺省的情况:

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

-m 1

执行结果:

--warehouse-dir 指定输出文件夹的父目录:

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

--warehouse-dir /sqoop/ \

-m 1

执行结果:


2、从pgsql上导出数据表的部分数据到HDFS

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

--where "country = 'USA'" \

-m 1

执行结果:


3、保护密码不暴露的三种方式:

使用 -P 参数,从标准输入读取密码:

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--table cities \

-m 1 \

-P

执行效果:

将密码保存到文件当中,使用参数 --passwrod-file 来读取密码文件:

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--table cities \

-m 1 \

--password-file file:///home/root/password.file

别名模式(基于HDFS和基于本地两种模式)

sqoop 1.4.5和hadoop 2.6.0以及之后的版本才支持

HDFS:

hadoop credential create pgsql.pwd.alias -provider jceks://hdfs/user/password/pgsql.pwd.jceks

sqoop import \

-Dhadoop.security.credential.provider.path=jceks://hdfs/user/password/pgsql.pwd.jceks \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password-alias pgsql.pwd.alias \

--table cities \

-m 1

本地模式:



4、两种二进制格式文件存储

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

-m 1 \

--as-sequencefile

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

-m 1 \

--as-avrodatafile


5、在传输过程中对数据进行压缩

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

-m 1 \

--compress

执行结果:

默认压缩格式为Gzip

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

-m 1 \

--compression-codec org.apache.hadoop.io.compress.BZip2Codec

sqoop可以使用hadoop支持的任何压缩格式,但hadoop不支持的压缩格式,sqoop无法使用 Not Splittable压缩格式,不能利用hadoop的并行性能

6、如何加快传输数据

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

-m 1 \

--direct

直连模式,传输速度更快,但是目前只有mysql和pgsql支持,而且据说HBase也不支持这种模式,反正限制比较多,具体情况大家可以亲身实践下


7、覆盖默认的数据映射类型

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

-m 1 \

--map-column-java id=Long

数据库字段在生成的java文件中会映射为各种属性,且默认的数据类型与数据库类型保持对应,比如数据库中某字段的类型为bigint,则在Java文件中的数据类型为long型,通过这个属性,可以改变数据库字段在java中映射的数据类型,格式如:–map-column-java DB_ID=String,id=Integer


8、导入数据中空值的处理

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

-m 1 \

--null-string '\\N' \

--null-non-string '\\N'

sqoop提供了--null-string来处理字符类型的空值,提供了--null-non-string来处理非字符类型的空值。值得注意的是,这两个参数可以让你用任意的值去替换空值。

另外,export导出数据则使用另外的参数来处理空值


9、一次性传输数据库中所有表

sqoop import-all-tables \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres

-m 1

传输除指定表之外的所有表:

sqoop import-all-tables \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--exclude-tables cities,countries \

-m 1


10、只导入新数据

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table users \

--incremental append \

--check-column id \

--last-value 1


11、pg数据表更新后同步导入hdfs

创建同步更新job(需要输入密码):

sqoop job \

--create users \

-- \

import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table users \

--incremental append \

--check-column id \

--last-value 0

执行job进行数据更新导入:

sqoop job --exec users

查看目前创建的自动更新导入的job:

sqoop job --list

删除job:

sqoop job --delete visits

查看已存在job的详细信息:

sqoop job --show users

创建在执行时不需要输入密码的job:

sqoop job \

--create users \

-- \

import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password-file file:///home/root/password.file \

--table users \

--incremental append \

--check-column id \

--last-value 0

执行job:

无需输入密码,直接执行

另外一种不需要输入密码的方式(安全性较低,不推荐):


12、

上一篇下一篇

猜你喜欢

热点阅读