MLSQL Stack v1.2.0正式版发布
前言
MLSQL Stack 包含如下几个组件:
- MLSQL Engine v1.2.0
- MLSQL Cluster v1.2.0
- MLSQL Console v1.2.0
MLSQL Stack v1.2.0发布时间距离上个版本v1.7.1.1 已经有接近3个月了。这次我们跳过了v1.1.8/v1.1.9 是因为我们会认为v1.2.0能作为第一个稳定版本(主要是MLSQL Engine)。在后续的v1.3.0版本里,MLSQL Engine的目标以Stable为核心,同时进一步加强机器学习相关的能力。 MLSQL Cluster/MLSQL Engine则会进一步快速迭代,用于直接满足业务的交互和管理需求,同时逼近数据中台的目标。
文档和下载地址
Release Notes
参看: https://github.com/allwefantasy/streamingpro/blob/v1.2.0/RELEASES.md
新特性
MLSQL Console/MLSQL Cluster
在MLSQL Stack v1.2.0 中,我们一并发布了MLSQL Console/MLSQL Cluster 两个周边系统。关于他们的介绍,可查看博客集合MLSQL Blog,在SNAPSHOT迭代过程中,我们也完成了相应的博客撰写。他们的功能包括但不限于如完成了用户交互,脚本存储,多租户,权限体系(Team/Role),部分可视化,组件拖拽,多MLSQL Engine管理等众多功能。这些功能目前虽然不成熟,但是我们会尽快迭代并且让其稳定。
MLSQL语言引入宏
这是我们第一次增加了MLSQL语法,在博文MLSQL 语法扩展设计中,我们详细介绍了该功能。通过它,可以将任意一段MLSQL脚本封装成一个命令,用户可以实现脚本的深度复用,和include语法相协作。
阿里云支持
MLSQL Engine已经能够支持阿里云ECS集群部署,并且以OSS作为存储。我们为此开发了PyMLSQL项目,大家可以关注。
更加完善的权限控制
v1.2.0版本,首先支持编译时权限控制,其次我们也支持运行时权限控制(主要为了兼容直接select hive表)。在该版本中,我们统一了hive表,MySQL,HDFS等各种数据源的权限控制,并且能够到精细到列级别。
实时日志回显功能
和用户相关的Spark日志会实时刷新到用户的控制台。
语法校验功能
MLSQL原来只有在运行时才能发现语法错误,但是这个时候可能已经运行很久了。在v1.2.0版本里,用户可以开启运行前语法校验,SQL语句中如果有语法类的错误会及时报告给用户。在MLSQL Console中也是默认开启的。
更好的错误日志显示
在早先版本中,当发生异常时,往往在Console里看不到root cause,导致必须跑去看MLSQL Engine日志,在v1.2.0里,我们缓解了这个问题。
开发指南
随着使用指南的完善,我们添加了两篇开发指南的文章,将MLSQL中最重要的数据源和ET开放出来,大家可以据此对MLSQL做任意扩展。
版本节奏
在v1.2.0的发布过程中,我们尝试了更加积极的SNAPSHOT发布策略。一旦有bug修复或者新功能添加,我们会立刻更新到对应的SNAPSHOT发行版中,也包括docker中。在1.3.0版本中,我们会继续沿用该策略。v1.2.0比之前的版本理论上会稳定很多,在v1.2.0之前,我们采用较为激进的版本发布,也发现了一些弊端,现在看来三个月作为一个大版本是比较合理的,对于较为严重的bug我们会发布v1.2.x中来进行修复。
最后
期待更多的用户能参与使用。有需要可以私信我加群。现在已经有不少公司每天基于MLSQL Engine的任务数>1w。这些为MLSQL Stack的发展积累了宝贵的经验。
ChatRoom
imageimage