[Dis/MLsys]Elastic Parameter Ser
2021-06-30 本文已影响0人
sagfugetabf
[2021-06-30]
SoCC-2020
大意:当前分布式深度学习训练中,PS架构广泛流行,但是现有的方法里面,没有考虑到Elastic的问题。于是本文基于BytePS架构,添加了一个调度的层,收集每个服务器的信息,找出每次迭代中的Straggler,检测到straggler之后,调度器就调用负载均衡算法,进行调整。当集群中stragglers的数量过半时,调度器负责添加新的服务器。
这里的负载均衡算法:我的理解是更具不同服务器的情况,将parameter分成不同的大小。具体没看明白。看文章的意思是,将参数分割成4M的块儿。问题是,为什么能这么分割呢?
由于PS架构中,当server的数量不同时,不同的server上的parameter的大小不同,这导致了处理结果的不一致,也就是造成了stragglers的原因。
算法部分:感觉比较朴素
相关工作:
- 分布式学习中的Elasticity
elastic的PS架构:proteus,eurosysy 2017
litz,ATC 2018
这俩没考虑stragglers的问题
Allreduce中的Elastic
OR的MLsys 2020文章
这个考虑到stragglers的问题了,但考虑的比较简单,
本文是取两者的问题做个了补充
2.分布式学习中的Stragglers问题
SSP stale synchronous parallel。 2014
DSP dynamic synchronous parallel。2019
RRDP round-robin - - 2019
AS-PSGD
HOP
是上面方法的变形
考虑working stealing 的方法来解决stragglers
相关工作都比较早了,13年左右,最近的一个在2019年
基于All-reduce的stragglers 方案:
AS-PSGD icml 2018
HOP asplos 2019
方案可能存在死锁的问题。