气象超算跟踪系列(二)ECMWF's HPC
10/21
本文最后更新于
2023年10月21日,已超过
500天没有更新。如果文章内容或图片资源失效,请留言反馈,我会及时处理,谢谢!
ECMWF新一代超算HPC2020采购自欧洲(法国)高性能计算机公司Atos,基于该公司BullSequana XH2000超算技术。新超算部署在意大利博洛尼亚(Bologna),于2022年10月18日开始业务运行。
Atos Sequana XH2000配置
新超算系统由四个独立集群组成,每个集群都能连接所有高性能存储。
集群构成
集群节点包括:
- 计算节点运行并行作业
- GPIL节点运行通用交互任务(General Purpose and Interactive workLoads)
- 其它节点有特定功能,包括管理系统、作业调度和存储连接
集群硬件架构:
- 90 rack(机架)(80个液冷机架、10个风冷机架)
- 32 blades(刀片)/rack
- 3个双socket nodes/blade
- 液冷,高密度rack
集群具体配置及与ECMWF前一代超算Cray XC40对比见下表。
配置 | Cray XC40 | Atos Sequana XH2000 |
---|---|---|
集群 | 2 | 4 |
CPU | Intel Broadwell | AMD Epyc Rome |
Cores | 18 cores/socket, 36 cores/node | 64 cores/socket, 128 cores/node |
基础主频 | 2.10 GHz | 2.25 GHz(计算节点), 2.5 GHz(GPIL节点) |
节点内存 | 128GB | 256GB(计算节点),512GB(GPIL) |
计算节点数 | 7072 | 7680 |
GPIL节点数 | 208 | 448 |
总内存 | 0.9PB | 2.1PB |
总核心数 | 260,208 | 1,040,384 |
其中GPIL节点比计算节点主频更高、内存更多。
高性能存储
使用Lustre并行文件系统,引入新功能“Data on Metadata”改善性能。由于存储阵列和Lustre主要设计用于处理大文件,在处理大量小文件时会很慢。新元数据功能允许小文件存储在控制器上,而不是主磁盘阵列,显著地改善了I/O性能。
Time critical- short term | Time critical- working | Research | |
---|---|---|---|
Storage | DDN ES200NV | DDN ES7990 | DDN ES7990 |
Usable storage | 1.4 PB | 12 PB | 77 PB |
Bandwidth | 614 GB/s | 224 GB/s | 1570 GB/s |
高速互联网络
采用Mellanox InfiniBand HDR 200 Gb/s高速互联网络。
网络拓扑:全带宽Dragonfly+拓扑。
集群中计算节点分组为四个机架的Cells。每个计算节点连接到“叶”交换机,每个“叶”交换机连接到“spine”交换机,使得cell中所有384个节点连接到非阻塞“胖树”网络。每个“spine”交换机连接其它cell的对应“spine”交换机,产生“全带宽Dragonfly+”拓扑。
系统软件环境
值得注意的是虽然该集群采用了AMD CPU,但主力编译器仍然是Intel编译套件。
Component | Description |
---|---|
Operating system | Red Hat Enterprise Linux |
Main compiler suite | Intel Parallel Studio XE Cluster Edition |
Secondary compiler suites | - PGI compilers and development tools - AMD AOCC compilers and development tools |
Profiler / debug tool | ARM Forge Professional |
Batch Scheduler | Slurm |
Remarks
ECMWF新一代超算系统性能是之前一代集群五倍左右,以应对规划的全球9公里集合预报计算需求。本文主要介绍的是ECMWF新一代超算系统的软硬件方面,但更值得关注的是ECMWF对超算系统设计和采购的考虑,后面再继续介绍。
信息来源

