[HPC/MLsys]Characterizing Machin
2021-10-16 本文已影响0人
sagfugetabf
论文题目:Characterizing Machine Learning I/O Workloads on Leadership Scale HPC Systems
文章时间:2021年11月
会议/期刊:IEEE MASCOTS 2021 CCF C
作者背景: 超算中心 Oak Ridge National
笔记时间:2021年10月15日周五
论文地址:https://arnabkrpaul.github.io/publications/mascots21.pdf
Abstract
用submit自己的darshan工具,分析HPC系统的IO工具。分析了submit一年内23k的ML作业的io日志。分析了ML任务使用并行文件系统情况和burst buffer问题。
分析了MPI-IO ,POSIX,STDIO
如何选出ML的workloads,使用一些keywords来筛选。
什么是burst buffer
A 1.6 TB NVMe device is present on each compute node to be used as node-local storage -
burst buffer (BB)
文件系统
250 PB IBM Spectrum Scale (GPFS)
分析的部分不是很想看,直接去看discussion的部分
第五章 Discussion
经验
-
对于使用者来说
ML的workloads生成了大量的小文件的读写,适合使用BB(burst buffer)。但是实际上很少人在用BB
计算机专业的人用BB比其他专业的人好的多。 -
对于存储架构来说
ML的数量将要指数增长,他们的IO特征和HPC应用是不同的
如何优化IO而不改动应用代码值得研究
系统的存储也将要被ML任务占领