多GPU-TensorFlow

2018-05-06 本文已影响303人听风1996

首先，TensorFlow并行计算分为：模型并行，数据并行。

模型并行:根据不同模型设计不同并行方式，模型不同计算节点放在不同GPU或者机器上进行计算。
数据并行是比较通用简便的实现大规模并行方式，同时使用多个硬件资源计算不同batch数据梯度，汇总梯度进行全局参数更新。

数据并行:多块GPU同时训练多个batch数据，运行在每块GPU模型基于同一神经网络，网络结构一样，共享模型参数。

1.同步数据并行，所有GPU计算完batch数据梯度，统计将多个梯度合在一起，更新共享模型参数，类似使用较大batch。GPU型号、速度一致时，效率最高。

数据同步并行

2.异步数据并行，不等待所有GPU完成一次训练，哪个GPU完成训练，立即将梯度更新到共享模型参数。

数据异步并行

同步数据并行，比异步收敛速度更快，模型精度更高。

同步数据并行，数据集CIFAR-10。载入依赖库，TensorFlow Models cifar10类，下载CIFAR-10数据预处理。设置batch大小 128,最大步数100万步(中间随时停止，模型定期保存)，GPU数量4。
定义计算损失函数tower_loss。cifar10.distorted_inputs产生数据增强images、labels，调用cifar10.inference生成卷积网络，每个GPU生成单独网络，结构一致，共享模型参数。根据卷积网络、labels，调用cifar10.loss计算损失函数(loss储存到collection)，tf.get_collection('losses',scope)获取当前GPU loss(scope限定范围)，tf.add_n 所有损失叠加一起得total_loss。返回total_loss作函数结果。

定义函数average_gradients，不同GPU计算梯度合成。输入参数tower_grads梯度双层列表，外层列表不同GPU计算梯度，内层列表GPU计算不同Variable梯度。最内层元素(grads,variable)，tower_grads基本元素二元组(梯度、变量)，具体形式[[(grad0_gpu0,var0_gpu0),(grad1_gpu0,var1_gpu0)……],[(grad0_gpu1,var0_gpu1),(grad1_gpu1,var1_gpu1)……]……]。创建平均梯度列表average_grads，梯度在不同GPU平均。zip(*tower_grads)双层列表转置，变[[(grad0_gpu0,var0_gpu0),(grad0_gpu1,var0_gpu1)……],[(grad1_gpu0,var1_gpu0),(grad1_gpu1,var1_gpu1)……]……]形式，循环遍历元素。循环获取元素grad_and_vars，同Variable梯度在不同GPU计算结果。同Variable梯度不同GPU计算副本，计算梯度均值。梯度N维向量，每个维度平均。tf.expand_dims给梯度添加冗余维度0,梯度放列表grad。tf.concat 维度0上合并。tf.reduce_mean维度0平均，其他维度全部平均。平均梯度，和Variable组合得原有二元组(梯度、变量)格式，添加到列表average_grads。所有梯度求均后，返回average_grads。

定义训练函数。设置默认计算设备CPU。global_step记录全局训练步数，计算epoch对应batch数，学习速率衰减需要步数decay_steps。tf.train.exponential_decay创建随训练步数衰减学习速率，第一参数初始学习速率，第二参数全局训练步数，第三参数每次衰减需要步数，第四参数衰减率，staircase设true，阶梯式衰减。设置优化算法GradientDescent，传入随机步数衰减学习速率。

定义储存GPU计算结果列表tower_grads。创建循环，循环次数GPU数量。循环中tf.device限定使用哪个GPU。tf.name_scope命名空间。

GPU用tower_loss获取损失。tf.get_variable_scope().reuse_variables()重用参数。GPU共用一个模型入完全相同参数。opt.compute_gradients(loss)计算单个GPU梯度，添加到梯度列表tower_grads。average_gradients计算平均梯度，opt.apply_gradients更新模型参数。

创建模型保存器saver，Session allow_soft_placement 参数设True。有些操作只能在CPU上进行，不使用soft_placement。初始化全部参数，tf.train.start_queue_runner()准备大量数据增强训练样本，防止训练被阻塞在生成样本。

训练循环，最大迭代次数max_steps。每步执行一次更新梯度操作apply_gradient_op(一次训练操作)，计算损失操作loss。time.time()记录耗时。每隔10步，展示当前batch loss。每秒钟可训练样本数和每个batch训练花费时间。每隔1000步，Saver保存整个模型文件。

cifar10.maybe_download_and_extract()下载完整CIFAR-10数据，train()开始训练。

loss从最开始4点几，到第70万步，降到0.07。平均每个batch耗时0.021s，平均每秒训练6000个样本，单GPU 4倍。

多GPU-TensorFlow

同步数据并行，比异步收敛速度更快，模型精度更高。

猜你喜欢

热点阅读