java

kettle入门篇(一)

2020-07-12  本文已影响0人  Shawn_Shawn

简介

Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

安装

1. 官网各版本下载网址:https://sourceforge.net/projects/pentaho/files/

2. 点击Pentaho 9.0,并选择client-tools

3. 点击pdi-ce-9.0.0.0-423.zip,下载好解压即可

4. 由于Kettle是基于jdk环境运行,所以需要安装jdk,最小安装jdk1.8。

5. 解压以后,需要配置环境变量,KETTLE_HOME

目录结构

主要介绍:

lib: kettle运行需要的jar包,例如连接数据库资源库的时候,需要数据库驱动jar包。

libswt: kettle ui界面需要的jar包,分为linux,os,win32,win64

plugins:kettle是插件式开发模式,可以开发kettle plugin。例如big data plugin,json plugin等等。

pwd: 部署集群的时候需要

simples: kettle一些案例

ui: 控制kettle ui组件的显示

spoon: 允许你通过图形界面来设计ETL转换过程(Transformation)。

pan: 允许你批量运行由Spoon设计的ETL转换 (例如使用一个时间调度器)。Pan是一个后台执行的程序,没有图形界面。

chef: 任务通过允许每个转换,任务,脚本等等,更有利于自动化更新数据仓库的复杂工作。任务通过允许每个转换,任务,脚本等等。任务将会被检查,看看是否正确地运行了。

kitchen: 允许你批量使用由Chef设计的任务 (例如使用一个时间调度器)。KITCHEN也是一个后台运行的程序。

连接资源库

1. 检查是否有数据库驱动jar包,如果没有,先copy一份数据库驱动jar包到lib目录下,例如mysql数据库,需要mysql-connector-java-5.1.46.jar

2. 在数据库中创建数据库kettle_repository

3. 点击spoon.bat,打开了以后点击connect,点击repository manager

4. 点击Add

5. 点击other repository

6. 选择database repository然后点击get started

7. 填写display name,选择database connection

8. 点击new

9. 然后一直点击back,直到第七个步骤的界面,点击finish

10. 当出现以下见面的时候,表示kettle正在创建所需要的表。

(表截图截的不全)

11. 点击connect now,user name: admin, password: admin

上一篇 下一篇

猜你喜欢

热点阅读