Sqoop 导出数据

2017-04-25  本文已影响0人  john1king

官方文档 已经比较详细,这里只是介绍几个简单的例子

导出到 HDFS

按列导出

sqoop import \
    --connect jdbc:mysql://${host}:${port}/${db} \
    --username ${user} \
    --password ${passwd} \
    --table foos \
    --columns 'id,name,click,editdate' \
    --where 'click >= 100' \
    --delete-target-dir \
    --target-dir /path/to/foos \
    --hive-delims-replacement " " \
    --fields-terminated-by '\001' \
    --num-mappers 1

参数说明

按查询语句导出

sqoop import \
    --connect jdbc:mysql://${host}:${port}/${db} \
    --username ${user} \
    --password ${passwd} \
    --query "select id,name,click,editdate,'$day' as nowtime from foos where click >= 100 and \$CONDITIONS" \
    --delete-target-dir \
    --target-dir /path/to/foos \
    --fields-terminated-by '\001' \
    --hive-delims-replacement " " \
    --num-mappers 4 \
    --split-by id

--query 导出数据使用的查询语句,条件中必须包含 $CONDITIONS,用于并行导入任务。并行导入的条件由 --split-by 控制。查询语句导出比较灵活,如可以导出重复的字段和使用数据库函数转换格式等,本例中添加了一个数据库中没有的 nowtime 字段作为输出

导出到 HBase

sqoop import \
    --connect jdbc:mysql://${host}:${port}/${db} \
    --username ${user} \
    --password ${passwd} \
    --table foos \
    --columns "id,name,click,editdate" \
    --where "editdate > $start" \
    --hbase-table foos \
    --hbase-row-key id \
    --column-family cf \
    --num-mappers 1

和导出到 HDFS 的方式大致相同。目标位置从 HDFS 目录变为 HBase 的表名、RowKey 和 列族。一次只能导出数据到一个列族中

增量导出

用 last_value 的方式来代替时间戳进行增量更新也会遇到之前数据不断滚动导致丢失的问题(提交hadoop的任务太慢了)

参数 --check-column, --incremental, --last-value 用于指定增量导出的行为。下例中导出 editdate > 1469700476 的数据到 HBase.
注意增量导出用于时间戳字段时,可能会遇到更新很频繁的数据遗漏问题。sqoop 在查询前会获取 check-column 的最新值,但是提交任务到 hadoop 的有较大的延迟,可能已经有很多数据被修改而没有被导出

增量导出时候保存为任务执行,sqoop 会记录任务最后一次更新的值

sqoop import \
    --connect jdbc:mysql://${host}:${port}/${db} \
    --username ${user} \
    --password ${passwd} \
    --table foos \
    --columns ${columns} \
    --hbase-table foos \
    --hbase-row-key id \
    --column-family cf \
    --check-column editdate \
    --incremental append \
    --last-value 1469700476 \
    --num-mappers 1 \
    --verbose

保存任务

先修改 $SQOOP_HOME/conf/sqoop-site.xml 配置允许保存密码

<property>
  <name>sqoop.metastore.client.record.password</name>
  <value>true</value>
</property>

创建任务

sqoop job --create update_foos -- import \
    --connect jdbc:mysql://${host}:${port}/${db} \
    --username ${user} \
    --password ${passwd} \
    --table foos \
    --columns ${columns} \
    --hbase-table foos \
    --hbase-row-key id \
    --column-family cf \
    --check-column editdate \
    --incremental append \
    --num-mappers 1 \
    --verbose

然后从一个比较近的时间点开始执行

sqoop job --exec update_foos -- --last-value 1469700476

再查看任务信息,发现 incremental.last.value 属性已经更新

sqoop job --show update_foos
上一篇 下一篇

猜你喜欢

热点阅读