[DLtrain/Comm]Heterogeneity-Awar

2021-09-13 本文已影响0人 sagfugetabf

论文题目：Heterogeneity-Aware Distributed Machine Learning Training via Partial Reduce
文章时间：2021年1月14日
会议/期刊： Sigmod 2021 june
作者背景：北京大学，腾讯
笔记时间：2021年9月12日周日-2021年9月13日周一

摘要：all-reduce对stragglers和通信延迟很敏感。本文提出allreduce的一种变形，将同步的all-reduce变成并行异步的partial reduce。我们进行了理论证明，且提出一种动态staleness-aware的分布式平均算法，实现了一种组生成机制来阻止可能的更新孤立。我们在真实环境中实现并验证，效果是1.21x-2x.

Intro,
异构的三种层次

通讯异构
2.硬件异构
3.资源共享

PS的问题在于模型存在主存，没有利用到GPU内部的快速通讯通道。由此，allreduce通讯模式产生。
然而，人们很少研究allreduce中的异构问题

集中化的PS架构
去中心化的集合通讯：careful的点对点通信
相同通讯环境中，密集网络在allreduce比PS算法表现出更好的效果

算法流程
设置一个中心节点，N个all-reduce服务器，每收到p个的请求，就做一次参数更新。

实验效果：
可以比非partial的的工作快50%

partial的idea不是本文工作首创的，是针对这个idea提出了一个新的算法，
构建了一个异构环境证明自己的算法的效果
在真实环境中测试了

是一个完整的工作。

[DLtrain/Comm]Heterogeneity-Awar

猜你喜欢

热点阅读