美国能源部E级超算
最新一期TOP500超算榜单(202311)发布,相比于6月份榜单,排名第一的仍是美国能源部(DOE)的橡树岭国家实验室(ORNL)的Frontier,但第2名变成DOE的Argonne国家实验室的Aurora,第3名是微软的Eagle。原先第2名的Fugaku排名降至第4。
Frontier目前仍是唯一的E级超算。Aurora超算设计的计算性能为2 EFlop/s,但目前没有完成整体建设,只测试了一半系统,计算能力为585.34 PFlop/s。
根据“NERSC GPU for Science Day"报告整理了美国能源部旗下三个机构的E级超算建设情况。
三家E级超算都是CPU+GPU异构超算,但GPU来自不同的厂商,包括NVIDIA/AMD/Intel。下面是DOE的E级超算路线图。
不同厂商的GPU支持不同的编程模型,这给应用可移植性带来了巨大挑战。
下面介绍三家E级超算情况。
Frontier (ORNL)
Frontier计算节点组成:1颗CPU + 4颗GPU。
Aurora (ANL)
Argonne Leadership Computing Facility(ALCF)
Aurora计算节点组成:两颗Intel CPU + 6颗 Intel GPU。
Aurora使用Intel oneAPI(DPC++、SYCL、OpenMP),不能使用CUDA和OpenACC。
Perlmutter and NERSC-10 (NERSC)
NERSC超算命名约定“NERSC-数字”,每隔四五年计算能力提升一个数量级。
Perlmutter超算硬件特点:
1792 GPU加速节点
- 每个节点4块NVIDIA A100
- 每隔节点1颗AMD Milan CPU
3072 CPU单独节点
- 每个节点 2颗AMD Milan CPU
- 每个节点512GB内存
- HPE Cray “Slingshot 11"网络
- GPU节点带宽为四倍
NERSC E级超算NERSC-10:
ECP(Exascale Computing Project)
为了保持领导地位并应对未来在经济影响领域和安全威胁方面的挑战,美国在HPC领域采取了战略举措,即协同设计、建模和仿真、数据分析、机器学习和人工智能方面的进步的大融合。ECP 项目就是为了推动这项工作,支持E级超算生态建设。
项目官方地址:https://www.exascaleproject.org
参考资料
- https://top500.org/lists/top500/2023/11/
- https://www.youtube.com/watch?v=iRyaJN9KyxQ&t=9435s
- https://www.exascaleproject.org/
注:文中图片信息来自”NERSC GPU for Science Day“报告视频截图。

