论文阅读

[HPC/Net]Evaluating HPC Networks

2021-10-14  本文已影响0人  sagfugetabf

论文题目:Evaluating HPC Networks via Simulation of Parallel Workloads
文章时间:2016年11月
会议/期刊:SC/16
作者背景: 超算中心 Lawrence Livermore National Laboratory,UIUC
笔记时间:2021年10月14日周四
论文地址:https://ieeexplore.ieee.org/document/7877012
论文引用:70+


Abstract
本文展示了三种HPC拓扑网络的评估和比较。我们提出了一个通用全面的方法,展示了包级别的网络模拟器,TraceR。我们的实验表明,不存在最优的拓扑,只有针对特定workload最合适的选择。

第一章 Intro

HPC网络很重要;
传统的方法[1-8]使用分析模型,对通信流和拥塞作了简单的假设,这也造成了较低的准确度。一些基于flit和package的工作出现了[9-12]。但是这类工作执行时间太长,对真实大规模的应用模拟不可行。

之前的工作用的度量比如平均包延迟,吞吐量,来比较网络和路由[8,13-17],这些工作通过对注入率,消息大小,消息地址等调整来合成workload的特征。合成的workloads与真实环境中的情况相去甚远。

本文的工作基于三个软件

  1. 大规模模拟包级别网络的PDES[18,19],它是基于CODES框架[20-22].
  2. BigSim+CODES = TraceR。可以重放MPI的控制和通讯流,可以建模计算时间。BigSim中可以模拟的规模比较大。
  3. 一些工作可以很方便的重放一些HPC应用的控制和通信流。如Mantevo project [26], the CORAL collaboration [27], and NERSC-8/Trinity benchmarks [28]。

本文贡献

  1. TraceR可以对复杂workload进行模拟
  2. 我们改进了CODES
  3. 我们设计了一种比较方案,比较不同的网络的性能
  4. 我们研究了复杂真实系统的网络情况。

第二章 CODES和TraceR

两者都在先前工作的基础上增加了新功能

输入,输出

第三章 验证方法

流程

  1. 配置好原型系统

2.选择实验workload
4个benchmark和2个proxy application。
模拟三类工作

  1. single job

  2. 少量大规模作业一起运行

  3. 大量各种各样规模的作业一起运行。

  4. 运行和评估
    作业参数的选择来源于CORAL和Trinity,运行时间来自当前系统。

  5. 整合结果
    比较不同网络间性能的差别

下文:
对原型系统细致的描述
硬件设备,torus,dragonfly,fattree,以及拓扑

第4,5,6章

三类工作具体的数据

第七章 聚合性能度量

衡量标准时,一个workload中,多个作业有效带宽的和


(作业使用的带宽之和/作业的运行时间)的总和

第八章 讨论和未来工作

单个作业情况下,什么网络的都差不多;
少作业时,torus表现更多
多作业时,fattree效果更理想。

未来的工作希望加入对不同网络开销的评估。


就很规整的工作,看完也不知道具体怎么做,因为都是基于之前的工具的拓展。

上一篇下一篇

猜你喜欢

热点阅读