默认分类

气象超算跟踪系列（二）ECMWF's HPC

MetMan博主

2023-10-21

0 评论

445 阅读

551 个字

百度已收录

10/21

本文最后更新于 2023年10月21日，已超过 884天没有更新。如果文章内容或图片资源失效，请留言反馈，我会及时处理，谢谢！

ECMWF新一代超算HPC2020采购自欧洲（法国）高性能计算机公司Atos，基于该公司BullSequana XH2000超算技术。新超算部署在意大利博洛尼亚(Bologna)，于2022年10月18日开始业务运行。

Atos Sequana XH2000配置

新超算系统由四个独立集群组成，每个集群都能连接所有高性能存储。

集群构成

集群节点包括：

计算节点运行并行作业
GPIL节点运行通用交互任务（General Purpose and Interactive workLoads）
其它节点有特定功能，包括管理系统、作业调度和存储连接

集群硬件架构：

90 rack（机架）（80个液冷机架、10个风冷机架）
32 blades（刀片）/rack
3个双socket nodes/blade
液冷，高密度rack

集群具体配置及与ECMWF前一代超算Cray XC40对比见下表。

配置	Cray XC40	Atos Sequana XH2000
集群	2	4
CPU	Intel Broadwell	AMD Epyc Rome
Cores	18 cores/socket, 36 cores/node	64 cores/socket, 128 cores/node
基础主频	2.10 GHz	2.25 GHz(计算节点), 2.5 GHz(GPIL节点)
节点内存	128GB	256GB（计算节点），512GB（GPIL）
计算节点数	7072	7680
GPIL节点数	208	448
总内存	0.9PB	2.1PB
总核心数	260,208	1,040,384

其中GPIL节点比计算节点主频更高、内存更多。

高性能存储

使用Lustre并行文件系统，引入新功能“Data on Metadata”改善性能。由于存储阵列和Lustre主要设计用于处理大文件，在处理大量小文件时会很慢。新元数据功能允许小文件存储在控制器上，而不是主磁盘阵列，显著地改善了I/O性能。

	Time critical- short term	Time critical- working	Research
Storage	DDN ES200NV	DDN ES7990	DDN ES7990
Usable storage	1.4 PB	12 PB	77 PB
Bandwidth	614 GB/s	224 GB/s	1570 GB/s

高速互联网络

采用Mellanox InfiniBand HDR 200 Gb/s高速互联网络。

网络拓扑：全带宽Dragonfly+拓扑。

集群中计算节点分组为四个机架的Cells。每个计算节点连接到“叶”交换机，每个“叶”交换机连接到“spine”交换机，使得cell中所有384个节点连接到非阻塞“胖树”网络。每个“spine”交换机连接其它cell的对应“spine”交换机，产生“全带宽Dragonfly+”拓扑。

系统软件环境

值得注意的是虽然该集群采用了AMD CPU，但主力编译器仍然是Intel编译套件。

Component	Description
Operating system	Red Hat Enterprise Linux
Main compiler suite	Intel Parallel Studio XE Cluster Edition
Secondary compiler suites	- PGI compilers and development tools - AMD AOCC compilers and development tools
Profiler / debug tool	ARM Forge Professional
Batch Scheduler	Slurm

Remarks

ECMWF新一代超算系统性能是之前一代集群五倍左右，以应对规划的全球9公里集合预报计算需求。本文主要介绍的是ECMWF新一代超算系统的软硬件方面，但更值得关注的是ECMWF对超算系统设计和采购的考虑，后面再继续介绍。

信息来源

朗读

版权属于：

MetMan's Blog

本文链接：

https://blog.metman.top/index.php/archives/35/（转载时请注明本文出处及文章链接）

作品采用：

《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权