利用Mesos构建多任务调度系统

2018-09-09 本文已影响19人扫帚的影子

一提到任务运行和调度，大部分人可能首先都会想到Kubernetes(k8s) + Docker, 跑起来如清风拂面。然而我们的业务机器大部分为centos 6.2, linux kernel 2.6的配置;
业务正在使用的机器，不能升级内核，不能重启机器，k8s这条路走不通;
还好，这个世界总是给我们多样选择，除了k8s, 我们还有mesos;

先放上官方网站
简单来说，Mesos就是用于整个计算中心的操作系统，它统一管理计算中心所有机器的cpu, memory, disk等计算资源，按任务所需分配资源，调度任务，支持故障转移等等;
Mesos最大特点是两级资源调度, 如下图：
m2.png
1. 各个Agent上报自的已计算资源给Master;
2. Master给各个二级调度框架Framework发送resource offer;
3. Framework将其上的task与收到的resource offer作匹配，反馈给Master;
4. Master将相应Framework反馈的task和resource offer发送到对应的Agent;
5. Agent使用Executor来运行task, 并限定资源使用;
Mesos系统架构：http://mesos.apache.org/documentation/latest/architecture/
任务隔离除了支持docker容器技术，还提供了它自己的Mesos Containerizer, 这正是我们所需要的;

我们在以下面会依次来聊一聊这些问题～

我们采用的是Mesos 1.4.1版本，用C++11编写，众所周知，C++的依赖问题是梦魇啊～～
部署原则就是不改变原有机器环境，针对libstdc++和其他一些so, 我们在打包时采用动态更改可执行程序的rpath的方法，使其运行时从我们的安装目录加载相应的so库;
这样部署完，Mesos agent只是一个单独的目录，卸载只需要停掉进程，删除目录就好;

task的部署目前我们采用Marathon，上手简单，功能够用; 如果需要更灵活的调整策略，可能就需要自己开采框架或基于某一框架二次开发了;
task其实是有重要，紧急之分，占用资源也不尽相同。对于重要紧急任务，为了保障任务的更好运行，我们会利用Mesos attribute,在调度任务时让特定任务只跑在具有特定attributes的agent上;
遇到了同样的问题，mesos不能在线动态调整attributes :-( 来来来，源码改起来～～～其实都比较简单，稍微梳理下mesos源码结构，改起来不难;
还有一个问题，attributes是动态调整的，agent如果重启了怎么办？我们为此部署了etcd集群，这台agent都是etcd上的一个node, 通过etcd提供的http接口更新其attribrtes, agent会周期性的从etcd上同步;同时各agent 上的attributes信息也很容易从etcd上获得。
task隔离问题，针对cpu和memory，mesos都是通过cgroup来完成，对于cpu的限制，我们使用cfs方式，前提是需要判断当前kernel是否支持.对于disk的限制，目前mesos使用的是du命令周期性检测的方式;
在我们的大部分环境中，受限于kernel版本，mount namespace不支持，因为我们采用rootfs + chroot的方式;
我们定制了若干版本的rootfs, 任务打包就是将任务本身的依赖和相应rootfs结合的过程, 打包好可以放到s3等存储上，供marathon等调用。

机器本身的基础监控由公司统一监控;
我们主要关注task的调整运行情况，目前的方案是mesos-exporter和mesos-agent(或mesos-master)一起部署，上报监控信息到prometheus，使用grafana来展示。