论文阅读

[HPC/Tool]SCALANA: Automating Sc

2021-10-09  本文已影响0人  sagfugetabf

论文题目:SCALANA: Automating Scaling Loss Detection with Graph Analysis
文章时间:看github记录应该做了两三年了
会议/期刊:SC 2020
作者背景: 清华大学
笔记时间:2021年10月08日周五/周六
论文地址: https://dl.acm.org/doi/abs/10.5555/3433701.3433738


本文是天河二号的相关的项目,目标是找出天河二号集群上,并行程序无法扩大规模的原因。
对比的工具有scalasca,HPCtoolkit

他们组也有其他关于程序结构分析的工作,比如Spindle。

工作思路
先利用编译器抓取代码的计算和通信结构
然后利用代码运行时的profiling工具,构建出代码运行时,在不同节点上的运行结构图
再利用profiling的工具,找出其中有问题的地方,通过不断的迭代回溯,找到问题的根结点。

定位扩展的性能瓶颈,HPCtoolkit其实已经做的很好了。
回溯找到瓶颈root的工作也有,改工作是基于tracing数据,本文是基于自己构建的PPG查找。
计算开销和内存较小。

上一篇下一篇

猜你喜欢

热点阅读