MLSQL Stack v1.2.0正式版发布

2019-04-14 本文已影响656人祝威廉

前言

MLSQL Stack 包含如下几个组件：

MLSQL Engine v1.2.0
MLSQL Cluster v1.2.0
MLSQL Console v1.2.0

MLSQL Stack v1.2.0发布时间距离上个版本v1.7.1.1 已经有接近3个月了。这次我们跳过了v1.1.8/v1.1.9 是因为我们会认为v1.2.0能作为第一个稳定版本（主要是MLSQL Engine）。在后续的v1.3.0版本里，MLSQL Engine的目标以Stable为核心，同时进一步加强机器学习相关的能力。 MLSQL Cluster/MLSQL Engine则会进一步快速迭代，用于直接满足业务的交互和管理需求,同时逼近数据中台的目标。

文档和下载地址

Release Notes

参看： https://github.com/allwefantasy/streamingpro/blob/v1.2.0/RELEASES.md

新特性

MLSQL Console/MLSQL Cluster

在MLSQL Stack v1.2.0 中，我们一并发布了MLSQL Console/MLSQL Cluster 两个周边系统。关于他们的介绍，可查看博客集合MLSQL Blog，在SNAPSHOT迭代过程中，我们也完成了相应的博客撰写。他们的功能包括但不限于如完成了用户交互，脚本存储，多租户，权限体系（Team/Role）,部分可视化，组件拖拽，多MLSQL Engine管理等众多功能。这些功能目前虽然不成熟，但是我们会尽快迭代并且让其稳定。

MLSQL语言引入宏

这是我们第一次增加了MLSQL语法，在博文MLSQL 语法扩展设计中，我们详细介绍了该功能。通过它，可以将任意一段MLSQL脚本封装成一个命令，用户可以实现脚本的深度复用，和include语法相协作。

阿里云支持

MLSQL Engine已经能够支持阿里云ECS集群部署，并且以OSS作为存储。我们为此开发了PyMLSQL项目，大家可以关注。

更加完善的权限控制

v1.2.0版本，首先支持编译时权限控制,其次我们也支持运行时权限控制（主要为了兼容直接select hive表）。在该版本中，我们统一了hive表，MySQL,HDFS等各种数据源的权限控制，并且能够到精细到列级别。

实时日志回显功能

和用户相关的Spark日志会实时刷新到用户的控制台。

语法校验功能

MLSQL原来只有在运行时才能发现语法错误，但是这个时候可能已经运行很久了。在v1.2.0版本里，用户可以开启运行前语法校验，SQL语句中如果有语法类的错误会及时报告给用户。在MLSQL Console中也是默认开启的。

更好的错误日志显示

在早先版本中，当发生异常时，往往在Console里看不到root cause,导致必须跑去看MLSQL Engine日志，在v1.2.0里，我们缓解了这个问题。

开发指南

随着使用指南的完善，我们添加了两篇开发指南的文章，将MLSQL中最重要的数据源和ET开放出来,大家可以据此对MLSQL做任意扩展。

版本节奏

在v1.2.0的发布过程中，我们尝试了更加积极的SNAPSHOT发布策略。一旦有bug修复或者新功能添加，我们会立刻更新到对应的SNAPSHOT发行版中，也包括docker中。在1.3.0版本中，我们会继续沿用该策略。v1.2.0比之前的版本理论上会稳定很多，在v1.2.0之前，我们采用较为激进的版本发布，也发现了一些弊端，现在看来三个月作为一个大版本是比较合理的，对于较为严重的bug我们会发布v1.2.x中来进行修复。

最后

期待更多的用户能参与使用。有需要可以私信我加群。现在已经有不少公司每天基于MLSQL Engine的任务数>1w。这些为MLSQL Stack的发展积累了宝贵的经验。

ChatRoom

image