Airflow知识总结

2021-02-15  本文已影响0人  天剑飞心

1.Airflow是什么

airflow是apache基金会的顶级开源项目之一,主要用于调度、监控工作流

2.airflow main concepts

airflow的基本组件架构
airflow scheduler.jpg
调度单元
调度参数

3.airflow实践

目前我们在生产环境使用airflow主要还是用于金融数据的ETL,ETL框架的基本结构如下图所示


airflow etl structure.png

我们的所有基础设施都是基于Openshift搭建的私有云,所有的airflow组件均实现容器化部署,容器化的好处主要在于快速的持续集成与发布,同时airflow关键组件均能实现主备容灾与弹性扩缩容.
所有的数据经过ETL处理之后存储于本地的数据仓库当中(时间序列金融数据库与对象存储数据文件).
通过插件将airflow与apache Atlas集成,构建数据生产流任务的血缘关系,进行数据治理,通过Amundsen集成数据检索与数据读写接口,将ETL后的数据开放给用户使用.

4.使用当中遇到的各类问题:

上一篇 下一篇

猜你喜欢

热点阅读