论文阅读

[Dis/MLsys/net]Herring: Rethinki

2021-07-08  本文已影响0人  sagfugetabf

2021-07-08
Herring: Rethinking the Parameter Server at Scale for the Cloud
地址:sc'20
今天看的这篇文章比较猛,一上来就是2048块GPU,看了一下单位,AWS,都不想看了,这种规模,我等10块GPU都没有的怎么玩,摊手。


大概:DMT在一开始都是用PS架构来就行运算的,但是到18年horovod出来之后,其实16年百度就提出用超算中MPI来加速训练,最近研究人员纷纷开始搞All-reduce模式的训练,原因是PS架构不能很好的利用网络资源,在每个时段,都会有不同程度的浪费,All-reduce模式可以利用pipeline更好的利用资源,但是理论上,PS架构是比All-reduce更少snd/receive数据的。All-reduce的另一个问题是,在GPU并行的规模再上一个数量级的时候,更多数据带来的问题也很明显,就ring-all-reduce而言,并行节点规模上去之后,如果中间有一个节点出问题,那么ring上的所有数据都会受到影响,我记得chentianqi好像是有一个容错的MPI-ring-all-reduce的版本,这个没细查存疑。

面对PS无法很好利用网络的情况下,AWS的土豪们,发现自己新推出的Elastic Fabric Adapter (EFA)技术可以一定程度解决这个问题,(但是一定要在大规模才有突出效果,然而AWS又不差GPU,所以就搞了一个这么大规模/不是)。
which uses OS bypass and the Scalable Reliable Datagram,OS bypass 和SRD不太明白。
EFA主要利用多路径,达到缓解TCP中常出现瓶颈问题,但是数据会乱序发送。但对于节点来说,可以保持一个大规模的并行流(这里没想明白,如果都乱序了,接收端的压力应该是变大了才是,对于RDMA这种需要顺序的功能是不是有很大的影响?)

--有了EFA,AWS吃嘛嘛香(doge)--
有了EFA,AWS的研究人员重新考虑PS这种对通讯需求更少的架构,写了一个herring的库来用这个新功能,作为参数的sharding技术。

贡献:

  1. 我们讨论了一下,PS架构比Allreduce架构的scale能力更好,即使在非常大的规模下
  2. 我们提出参数sharding的技术来更好的利用带宽
  3. 我们在tf,pytorch和mxnet上都做了支持
  4. 我们和NCCL做了一个对比,(肯定是我们厉害)
  5. 在2048块GPU这个规模,我们的方法最有efficiency(有几个能有您的规模)

二、背景和相关工作

  1. PS
  2. Allreduce-based approaches
  3. Gradient compression(为啥要提到梯度压缩)

三、介绍本文提出的Herring库

Herring 主要用到两个东西,EFA and balanced fusion buffer
Balanced fusion buffer is a buffer in the GPU that holds the gradients until the size of the buffer exceeds a threshold. In a setup with N parameter servers, when threshold exceeds, the BFB is copied to CPU memory, BFB is then sharded into N parts and ith part is sent to ith parameter server。
将梯度攒到阈值就复制到CPU,然后分N分,每个serve发一份,因为server收到的都是相同位置的数据,所以serve可以把数据sum起来,然后再传给其他所有人。好处就是充分利用了带宽
(这里有个疑问,为什么这样做是对的,也就是对PS的流程还不完全清楚,需要再次补上)
这样每个server的工作量就趋于平等了。

这里有个一个难点就是,如何保证切分的块都在正确的位置上,
看了一半,明天继续。

四、实验


基础复习

  1. 一文读懂「Parameter Server」的分布式机器学习训练原理 - 王喆的文章 - 知乎
    https://zhuanlan.zhihu.com/p/82116922

2.腾讯机智团队分享--AllReduce算法的前世今生 - 兰瑞Frank的文章 - 知乎
https://zhuanlan.zhihu.com/p/79030485

上一篇 下一篇

猜你喜欢

热点阅读