[DLtrain/Comm]Heterogeneity-Awar
2021-09-13 本文已影响0人
sagfugetabf
论文题目:Heterogeneity-Aware Distributed Machine Learning Training via Partial Reduce
文章时间:2021年1月14日
会议/期刊: Sigmod 2021 june
作者背景:北京大学,腾讯
笔记时间:2021年9月12日周日-2021年9月13日周一
摘要:all-reduce对stragglers和通信延迟很敏感。本文提出allreduce的一种变形,将同步的all-reduce变成并行异步的partial reduce。我们进行了理论证明,且提出一种动态staleness-aware的分布式平均算法,实现了一种组生成机制来阻止可能的更新孤立。我们在真实环境中实现并验证,效果是1.21x-2x.
Intro,
异构的三种层次
- 通讯异构
2.硬件异构
3.资源共享
PS的问题在于模型存在主存,没有利用到GPU内部的快速通讯通道。由此,allreduce通讯模式产生。
然而,人们很少研究allreduce中的异构问题
集中化的PS架构
去中心化的集合通讯:careful的点对点通信
相同通讯环境中,密集网络在allreduce比PS算法表现出更好的效果
算法流程
设置一个中心节点,N个all-reduce服务器,每收到p个的请求,就做一次参数更新。
实验效果:
可以比非partial的的工作快50%
partial的idea不是本文工作首创的,是针对这个idea提出了一个新的算法,
构建了一个异构环境证明自己的算法的效果
在真实环境中测试了
是一个完整的工作。