论文阅读

[Dis/MLsys]Elastic Parameter Ser

2021-06-30  本文已影响0人  sagfugetabf

[2021-06-30]
SoCC-2020

大意:当前分布式深度学习训练中,PS架构广泛流行,但是现有的方法里面,没有考虑到Elastic的问题。于是本文基于BytePS架构,添加了一个调度的层,收集每个服务器的信息,找出每次迭代中的Straggler,检测到straggler之后,调度器就调用负载均衡算法,进行调整。当集群中stragglers的数量过半时,调度器负责添加新的服务器。

这里的负载均衡算法:我的理解是更具不同服务器的情况,将parameter分成不同的大小。具体没看明白。看文章的意思是,将参数分割成4M的块儿。问题是,为什么能这么分割呢?

由于PS架构中,当server的数量不同时,不同的server上的parameter的大小不同,这导致了处理结果的不一致,也就是造成了stragglers的原因。

算法部分:感觉比较朴素

相关工作:

  1. 分布式学习中的Elasticity
    elastic的PS架构:proteus,eurosysy 2017
    litz,ATC 2018
    这俩没考虑stragglers的问题

Allreduce中的Elastic
OR的MLsys 2020文章
这个考虑到stragglers的问题了,但考虑的比较简单,
本文是取两者的问题做个了补充

2.分布式学习中的Stragglers问题
SSP stale synchronous parallel。 2014
DSP dynamic synchronous parallel。2019
RRDP round-robin - - 2019

AS-PSGD
HOP
是上面方法的变形

考虑working stealing 的方法来解决stragglers
相关工作都比较早了,13年左右,最近的一个在2019年

基于All-reduce的stragglers 方案:
AS-PSGD icml 2018
HOP asplos 2019
方案可能存在死锁的问题。

上一篇下一篇

猜你喜欢

热点阅读