大数据

DataX原理及安装

2020-03-06  本文已影响0人  Rudolf_liu

DataX简介

DataX是什么?它是干什么用的?下面是官方给的介绍。

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。

DataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上DataX框架可以支持任意数据源类型的数据同步工作。同时DataX插件体系作为一套生态系统, 每接入一套新数据源该新加入的数据源即可实现和现有的数据源互通。

设计理念

传统的异构数据库之间的同步使用的是一对一的同步策略,实现起来极其复杂,如下图左边的同步模型。DataX的出现打破了这种观念,使用中心化的方式,将复杂的网状的同步链路变成了星型数据链路,如下图右边的同步模型。DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步,加大了代码的复用性。


设计理念

DataX本身采用Framework + plugin的架构,将数据源读取和写入抽象成为Reader/Writer插件。

DataX提供了丰富的插件,足够覆盖大多数场景,此外DataX还支持自定义插件,以满足个性化需求。DataX自定义插件开发指南

DataX核心架构

DataX 3.0 开源版本支持单机多线程模式完成同步作业运行(从源码上看是支持集群运行的)。


image.png

安装部署

准备工作

  1. 下载:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
  2. 在本地或者服务器上解压
  3. 需要python 2.6+环境(DataX的启动脚本是python文件,也可以自己将里面执行jar包的命令拿出来)

测试

python bin/datax.py job/job.json 

出现下图内容说明DataX功能测试完成


DataX执行日志

开始开发

下面以比较简单的mysql -> mysql为例讲解.

{
        "job": {
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "connection": [
                            {
                                "querySql": ["SELECT * FROM table1"],
                                "jdbcUrl": ["jdbc:mysql://localhost:3306/datax?useSSL=false&useUnicode=true&characterEncoding=UTF-8"]
                            }
                        ],
                        "password": "root",
                        "username": "root"
                    }
                },
                "writer": {
                    "name": "mysqlwriter",
                    "parameter": {
                        "column": ["*"],
                        "writeMode": "update",
                        "preSql": [
                            "delete from table2"
                        ],
                        "connection": [
                            {
                                "jdbcUrl": "jdbc:mysql://localhost:3306/datax?useSSL=false&useUnicode=true&characterEncoding=UTF-8",
                                "table": ["table2"]
                            }
                        ],
                        "password": "root",
                        "username": "root"
                    }
                }
            }
        ],
        "setting": {
            "speed": {
                                "byte": 1048576,
                                "channel": 5
            }
        }
    }
}

验证

执行DataX启动脚本以验证结果:bin/datax.py job/test.josn

上一篇 下一篇

猜你喜欢

热点阅读