TypechoJoeTheme

MetMan's Blog

网站页面

气象超算跟踪系列(二)ECMWF's HPC

MetMan博 主
2023-10-21
/
0 评论
/
157 阅读
/
551 个字
/
百度已收录
10/21
本文最后更新于 2023年10月21日,已超过 335天没有更新。如果文章内容或图片资源失效,请留言反馈,我会及时处理,谢谢!

ECMWF新一代超算HPC2020采购自欧洲(法国)高性能计算机公司Atos,基于该公司BullSequana XH2000超算技术。新超算部署在意大利博洛尼亚(Bologna),于2022年10月18日开始业务运行。

Atos Sequana XH2000配置

新超算系统由四个独立集群组成,每个集群都能连接所有高性能存储。

集群构成

集群节点包括:

  • 计算节点运行并行作业
  • GPIL节点运行通用交互任务(General Purpose and Interactive workLoads)
  • 其它节点有特定功能,包括管理系统、作业调度和存储连接

集群硬件架构:

  • 90 rack(机架)(80个液冷机架、10个风冷机架)
  • 32 blades(刀片)/rack
  • 3个双socket nodes/blade
  • 液冷,高密度rack

集群具体配置及与ECMWF前一代超算Cray XC40对比见下表。

配置Cray XC40Atos Sequana XH2000
集群24
CPUIntel BroadwellAMD Epyc Rome
Cores18 cores/socket, 36 cores/node64 cores/socket, 128 cores/node
基础主频2.10 GHz2.25 GHz(计算节点), 2.5 GHz(GPIL节点)
节点内存128GB256GB(计算节点),512GB(GPIL)
计算节点数70727680
GPIL节点数208448
总内存0.9PB2.1PB
总核心数260,2081,040,384

其中GPIL节点比计算节点主频更高、内存更多。

高性能存储

使用Lustre并行文件系统,引入新功能“Data on Metadata”改善性能。由于存储阵列和Lustre主要设计用于处理大文件,在处理大量小文件时会很慢。新元数据功能允许小文件存储在控制器上,而不是主磁盘阵列,显著地改善了I/O性能。

Time critical- short termTime critical- workingResearch
StorageDDN ES200NVDDN ES7990DDN ES7990
Usable storage1.4 PB12 PB77 PB
Bandwidth614 GB/s224 GB/s1570 GB/s

高速互联网络

采用Mellanox InfiniBand HDR 200 Gb/s高速互联网络。

网络拓扑:全带宽Dragonfly+拓扑。

集群中计算节点分组为四个机架的Cells。每个计算节点连接到“叶”交换机,每个“叶”交换机连接到“spine”交换机,使得cell中所有384个节点连接到非阻塞“胖树”网络。每个“spine”交换机连接其它cell的对应“spine”交换机,产生“全带宽Dragonfly+”拓扑。

系统软件环境

值得注意的是虽然该集群采用了AMD CPU,但主力编译器仍然是Intel编译套件。

ComponentDescription
Operating systemRed Hat Enterprise Linux
Main compiler suiteIntel Parallel Studio XE Cluster Edition
Secondary compiler suites- PGI compilers and development tools
- AMD AOCC compilers and development tools
Profiler / debug toolARM Forge Professional
Batch SchedulerSlurm

Remarks

ECMWF新一代超算系统性能是之前一代集群五倍左右,以应对规划的全球9公里集合预报计算需求。本文主要介绍的是ECMWF新一代超算系统的软硬件方面,但更值得关注的是ECMWF对超算系统设计和采购的考虑,后面再继续介绍。

信息来源

  1. https://www.ecmwf.int/en/computing/our-facilities/supercomputer-facility
  2. https://www.ecmwf.int/en/newsletter/163/computing/hpc2020-ecmwfs-new-high-performance-computing-facility
朗读
赞(0)
赞赏
感谢您的支持,我会继续努力哒!
版权属于:

MetMan's Blog

本文链接:

https://blog.metman.top/index.php/archives/35/(转载时请注明本文出处及文章链接)

评论 (0)

互动读者

标签云

最新回复

暂无回复

登录
X
用户名
密码