论文阅读

[HPC/MLsys]Characterizing Machin

2021-10-16  本文已影响0人  sagfugetabf

论文题目:Characterizing Machine Learning I/O Workloads on Leadership Scale HPC Systems
文章时间:2021年11月
会议/期刊:IEEE MASCOTS 2021 CCF C
作者背景: 超算中心 Oak Ridge National
笔记时间:2021年10月15日周五
论文地址:https://arnabkrpaul.github.io/publications/mascots21.pdf


Abstract
用submit自己的darshan工具,分析HPC系统的IO工具。分析了submit一年内23k的ML作业的io日志。分析了ML任务使用并行文件系统情况和burst buffer问题。

分析了MPI-IO ,POSIX,STDIO
如何选出ML的workloads,使用一些keywords来筛选。

什么是burst buffer
A 1.6 TB NVMe device is present on each compute node to be used as node-local storage -
burst buffer (BB)

文件系统
250 PB IBM Spectrum Scale (GPFS)

分析的部分不是很想看,直接去看discussion的部分

第五章 Discussion

经验

  1. 对于使用者来说
    ML的workloads生成了大量的小文件的读写,适合使用BB(burst buffer)。但是实际上很少人在用BB
    计算机专业的人用BB比其他专业的人好的多。

  2. 对于存储架构来说
    ML的数量将要指数增长,他们的IO特征和HPC应用是不同的
    如何优化IO而不改动应用代码值得研究
    系统的存储也将要被ML任务占领

上一篇下一篇

猜你喜欢

热点阅读