[HPC/ML]MLPerfTM HPC: A Holistic

2021-11-01 本文已影响0人 sagfugetabf

论文题目：MLPerfTM HPC: A Holistic Benchmark Suite for Scientific Machine Learning on HPC Systems
文章时间：2021年10月26日
会议/期刊：arxiv 2021
作者背景：美国的超算中心们，谷歌，微软，日本超算中心，瑞士
笔记时间：2021年11月1日周一
论文地址：https://arxiv.org/abs/2110.11466

超算系统上的ML的benchmark。

Abstract

科学计算领域也开始用ML/DL来加速计算。HPC系统有着丰富的硬件资源和大规模的扩展能力，推进着性能的极限。代表真实世界科学应用的ML benchmark是非常重要的。MLPerf是一个由社区驱动的ml workload 的benchmark，聚焦于端到端的性能度量。在本文中，我们介绍了MLPerf HPC，是大规模科学ML训练的应用的benchmark suite。我们展现了在世界最大规模的超算系统上运行的结果。我们开发了一套框架，就数据staging，算法收敛性，计算性能等方法，用于比较分析结果。作为结果，我们获得了对子系统量化的优化理解，比如staging和节点的数据负载，计算单元的利用率，规模扩展时的通信调度性能提升。值得注意的是，我们的分析显示出了与规模相关的内在联系，在数据大小，系统内存结构，训练收敛性强调了靠近计算存储的重要性。为了克服数据并行在大batch的可扩展问题，我们讨论特定的学习计算，和混合数据模型并行，在大系统上是有效的。我们用低层级内存，IO，网络行为来刻画每一个benchmatk，参数化将来的扩展屋顶性能模型。

cosmoflow ，deepcam
一个宇宙学，一个气象学

第五章 workload 特征

本章节中，我们展示了内存网络io性能特征的度量技术。这是来自于扩展的roofline模型的参数，用来刻画未来MLPerfHPC提交的特征，关于系统capability和剩余的软件硬件优化空间。这些数据由高层次的日志来不足。这些度量来自于2个epoch的纯数据并行的运行数据。

5.1 内存带宽

想要阅读的相关文献

[HPC/ML]MLPerfTM HPC: A Holistic

Abstract

第五章 workload 特征

猜你喜欢

热点阅读