TypechoJoeTheme

MetMan's Blog

网站页面

气象超算跟踪系列(三)ECMWF超算采购策略

MetMan博 主
2023-10-21
/
0 评论
/
199 阅读
/
1928 个字
/
百度已收录
10/21
本文最后更新于 2023年10月21日,已超过 335天没有更新。如果文章内容或图片资源失效,请留言反馈,我会及时处理,谢谢!

ECMWF超算采购策略

从2021年起,新的Atos超算HPC2020将支持ECMWF未来四年的运营和研究活动。

在之前的ECMWF HPC采购中,计算需求是由合同期早期高分辨率预测(HRES)的分辨率升级驱动的,随后是该期间后期的其他预测改进。这导致了一个两阶段的实施方法:首先是具备足够的计算性能的初期安装,以实现HRES分辨率升级,然后是中期升级。

但ECMWF发布的《2016-2025年战略》要求采用不同的方法,因为它将重点放在显著提高集合预报(ENS)的分辨率上。这需要从一开始就在能力和容量方面对计算性能进行重大升级,而不是两步走策略。集合预报水平分辨率计划从目前的18公里升级到9公里(或在任何情况下升级到10公里左右,确切分辨率取决于将要进行的测试)预计将在新的超算设施投入使用后不久实施。因此,HPC2020合同是一份为期四年的服务合同,没有合同中期升级。

但是,HPC2020合同包括ECMWF在合同期限内增强其HPC资源的选项。ECMWF可能会根据未来签订的协议获得额外的资金来运行新服务,包括为额外的HPC需求提供资金。这可能需要增强HPC设施和大幅增加容量。此外,为了使系统的配置符合不断变化的要求,设想对系统进行可能的较小增强或调整。这些措施可能包括通过添加更多的计算节点或存储基础设施或引入其他硬件(如通用GPU) 来增强计算性能,以支持ECMWF应用程序的持续开发,使用最先进的HPC和AI技术。

ECMWF的超算采购策略是在可用预算范围内最大限度地提高其主要应用的性能。因此,设计的性能基准测试是基于ECMWF两种不同的工作流程的运行场景:一是模拟未来可能的分辨率的time-critical预报工作流程的性能基准,包括产品生成;二是基于典型研发工作流程的性能基准,以衡量预期研究负载的系统吞吐量。为了与真实的工作流程更加接近,这些基准测试由相互依赖的任务组成,包括从持久化存储读写完整的业务数据集。

注:针对满足(未来)业务需求设计超算采购计划,而不是关注浮点峰值性能指标。

新超算设计理念

  • 高性能计算设施

该项目旨在提供完整的HPC设施,而不仅仅是一台新的超级计算机(硬件)。这些要求包括 7x24小时软硬件支持、全职应用分析师以及数据中心的定制。

  • 多个集群

ECMWF HPC 工作负载以短时间运行作业的高吞吐量为主:系统资源 90% 由需要少于 8000 个处理器核的作业消耗。这一特性与 ecFlow 工作负载管理的灵活性相结合,消除了将所有资源放在一个大型集群中的需要。因此,对于许多之前的HPC系统,ECMWF设计为一个具有两个独立集群的系统,即使其中一个集群发生故障或因维护而关闭,也可以在另一个集群运行业务作业。拆分计算资源还可以减少对共享组件(如作业调度和网络)的资源的竞争,从而使系统更加可靠和易于管理。对于 HPC2020,集群数量增加到四个,以进一步提高弹性。比如可以将其中一个集群升级到最新版本的软件进行测试,同时仍然保持一个弹性的业务系统。

注:对于数值业务中心,超算建设思路都是两套集群互为备份,保证业务运行的稳定性和可靠性,ECMWF这次建立四套。
  • 研发和业务的文件系统的分离

业务系统的运行时间表非常紧凑。在将研究转换到业务(R2O) 期间,系统经过精心设置和测试,以满足业务调度,而良好的 I/O 性能是其中的关键部分。为了避免可预测的业务作业与来自其他来源的 I/O 密集型作业竞争的可能性,有专用且独立的文件系统用于业务和研发工作。

  • 多个文件系统

与拥有多个计算集群一样,拥有多个文件系统可提高弹性和可维护性,并限制对资源的大规模竞争。这些注意事项对于存储子系统尤其重要。这部分是由于所使用的Lustre文件系统的设计,每个文件系统只有一个元数据服务器,部分原因是机械硬盘可能发生故障。所有文件系统都连接到四个集群。这带来很大的好处,即可以将作业调度到任何集群,但它确实为整个系统引入了一个常见的故障点,因为潜在的文件系统故障可能会影响所有集群。

注:多套文件系统,业务与研发分离,减少降低I/O资源竞争。
  • 通用和交互式登录节点 (GPIL)

HPC系统始终运行不同类型的工作负载,主要是在多个节点上运行的并行作业,但也包括只需要一个节点甚至一个核的作业。将整个 128 核节点专用于只需要一个处理器核心的作业显然会浪费资源,因此这种类型的工作通常分配给专用节点,其中多个作业可以有效地共享节点。ECMWF Linux 集群 lxc、lxop 和 ecgate 过去也提供了其他位置来运行此工作负载。随着数据量的显著增加,将大量数据移动到其他平台变得越来越不可取。因此,由于应用程序大量重叠,这项工作的所有资源都包含在新的HPC系统中。此外,由于数据量大,我们期望在系统上进行更多的交互式数据分析、可视化和软件开发。这些活动还将在一组专用的 GPIL 节点上运行。

注:对于数据处理、绘图等需求,建立特殊节点。
  • 时间关键型存储层次结构

自从ECMWF采购上一台超算系统以来,固态硬盘(SSD)已经变得常见。它们具有更好的访问时间和更低的延迟。因此,它们是在少量存储空间中实现高 I/O 性能的宝贵手段,尤其是在访问小文件时。然而,在相同容量下它们仍然比传统的机械硬盘更昂贵。因此,新的高性能超算设施采取分层存储设计,除了传统的磁盘存储池外,还具有两个SSD存储池。每个 SSD 池旨在将业务系统生成的数据保存几天。后面会将数据移动到容量较高但性能较低的存储池。

  • Home文件系统

除了高性能的并行文件系统外,还需要通用存储空间。在当前的高性能超算设施中,高性能超算设施上的“home”和“perm”文件系统从系统外部是不可见的。在新的高性能超算设施中,home和perm空间将在高性能超算设施和其他系统之间是通用的。

关注time-critical业务应用运行的高效、稳定、可靠性。

信息来源

https://www.ecmwf.int/en/computing/our-facilities/supercomputer-facility

https://www.ecmwf.int/en/newsletter/163/computing/hpc2020-ecmwfs-new-high-performance-computing-facility

朗读
赞(0)
赞赏
感谢您的支持,我会继续努力哒!
版权属于:

MetMan's Blog

本文链接:

https://blog.metman.top/index.php/archives/36/(转载时请注明本文出处及文章链接)

评论 (0)

互动读者

标签云

最新回复

暂无回复

登录
X
用户名
密码