深度模型常见加速训练策略架构篇(一)---分布式训练介绍

2021-03-06  本文已影响0人  加油11dd23

一、当前模型训练速度的瓶颈

(一)、当前模型训练步骤

  1. 读取Mini batch,前向传播计算loss
  2. loss反向传播得到各个参数的梯度
  3. 根据算出的梯度,选用特性的优化器更新参数

(二)、当前模型训练模式分类

  1. 单机单卡
  2. 单机多卡
  3. 多级多卡

(三)、采用分布式系统训练中涉及到的通信方式分类

  1. 点对点通信(只有一个发送者和接收者)
  2. 集合通信(有多个发送者和接收者)

(四)、分布式系统中基于集合通信的常用操作

  1. boradcast,将参数从一个node发到多个node上
  2. reduce,将参数从多个node收集到一个node上,同时对手机到的参数进行归并(求和求积)

(五)、大规模训练的技术挑战(研究点/优化点)

1. 显存墙(决定能否训练)

(1)介绍

(2)优化方式

2. 通信墙(决定训练速度)

(1)介绍

在进行分布式训练时对神经网络进行了各种各样的切分,但是神经网络的训练任务仍是一个整体,因而,切分需要通信来进行聚合。

聚合所产生的通信需求隐含了不少问题,首先,深度学习迭代式训练的特性导致更新频繁,需要大量的交换局部更新。但是目前网络的传输速率远远不能匹配 GPU 或 TPU 这种专用加速芯片的运算速率。

3.计算墙(决定训练速度)

(1)介绍

顾名思义,前向传播和反向传播的计算以及参数更新的计算瓶颈。

opeator-level算子级别的优化
Graph-level计算图级别的优化
Task-level训练阶段的系统设计

与传统训练不同,在包含大规模训练技术的训练系统设计时,不仅要考虑到庞大的节点数,也要考虑到在解决显存、通信问题时带来的系统层面的变化。因此,Task-level 的关键挑战在于,如何给出一个最终计算效率最高的系统设计

二、如何从系统框架层面上对训练加速---并行

(一)分类

一旦使用分布式并行计算,就会涉及到数据通信的问题,因此还需要对通信进行加速(解决通信墙)

一般来说,模型并行比数据并行的通信量更少。但是模型并行需要自己地将模型的计算进行分解。因此一般使用数据并行加速。

(二)数据并行

1. Parameter Server模式(tensorflow)

(1)结构介绍

类似于master-slave 的同步模式:


image.png

将 node 分成两种角色:

(2)优化方式介绍

优化方式分为两类:同步更新(synchronous update)和异步更新(asynchronous update)。

同步更新

ps 会同时充当 reducer 的角色,等待所有 worker 都发来梯度和参数更新请求后,ps 会对梯度取平均(reduce mean),并用平均过后的梯度更新一次参数。各个 worker 在从 ps 读取最新参数的过程中,以及等待 ps 更新参数的过程中,都是处于空闲状态。

异步更新

与同步更新不同,异步更新中 ps 在收到 worker 的梯度以及更新请求的时候,会立即对参数发起更新,而不等待其他 worker。在完成梯度的计算后,worker 会立刻从 ps 上读取参数,进行下一步的迭代。

(3)PS方式优缺点

优点: 容错能力强(设置多个PS)
缺点:PS传输带宽制约训练速度
目前,因为机器计算能力增强,需要地机器数越来越少,所以机器故障率贬低,因此不需要容错能力,反而需要加快训练速度。

2. All Reduce模式

image.png

(1)介绍

在 Allreduce 模式中,所有 node 同时充当 ps 和 worker 的角色。

(2)优缺点

3.主流方案 ring-allreduce

(1).介绍

(三)、附录

梯度平均的实现细节

image.png

Reference:

https://zhuanlan.zhihu.com/p/350707888
https://zhuanlan.zhihu.com/p/50116885

上一篇下一篇

猜你喜欢

热点阅读