气象超算跟踪系列(一)US Air Force's HPC
10/21
本文最后更新于
2023年10月21日,已超过
386天没有更新。如果文章内容或图片资源失效,请留言反馈,我会及时处理,谢谢!
美国空军(U.S. Air Force)和能源部橡树岭国家实验室(Department of Energy's Oak Ridge National Laboratory, ORNL)2021年开始共同运营的新一代超级计算机系统,用于美国空军全球/区域数值天气预报运行。
新一代系统由两台相同的HPE Cray EX超算构成,由ORNL管理。两台超算分别命名为“Fawbush”和“Miller”,用于纪念两位空军气象学家。使用双超算系统策略考虑除了冗余备份外,另一个优势是动态负载平衡。新一代超算将促使全球模式分辨率从17公里提高到10公里。
HPE Cray EX 超级计算机架构是一种全新的设计,多用途功能,包括建模、模拟、AI 和分析。每个系统由四个机柜构成,800个二代AMD EPYC处理器节点。两个超算总峰值性能为7.2Petaflops,总计算性能是空军之前的超算性能的6.5倍。此外,每个系统可扩展到1024个节点,允许未来安装GPU加速卡,可以将其浮点性能提高十倍。
美国空军主力模式是基于英国气象局的UM模式,同时也在开发其专用模式。比如全物理云预报,它使用云微物理参数化来改进中短期预测,比现有的统计递归模型好。空军对云更加关注,因为其很多任务非常依赖于云层状况。
另一个专业模型是全球水文模型,用于预测溪流,洪水或淹没-有多少土地将在水下以及深度。这将涉及在数百个流域上准确绘制地图和运行计算。
单集群系统配置
- 800个计算节点
- 每个节点两颗64核AMD Rome CPU,主频2.2GHz
- 每个节点256GB内存(16x16GB DDR4内存条)
- 100Gb/s Slingshot 10高速互联技术,Dragonfly拓扑
- HPCM(HPE Performance Cluster Manager)集群管理软件
- Slurm作业调度系统
Remarks
- 前面提到的两台集群实现任务动态负载均衡功能是利用的作业调度软件Slurm的Federated Scheduling功能,即在一台集群提交作业,Slurm可以复制该作业到其他集群运行。
- 系统验收经过了严格细致的测试,验收标准、测试内容和经验教训值得借鉴,具体可见参考资料2。
参考资料
- US Air Force, ORNL launch next-generation global weather forecasting system | ORNL
- Melesse Vergara, Veronica, Reuben Budiardja, Paul Peltz, Jeffery Niles Jr, Christopher Zimmer, Dan Dietz, Christopher Fuson, et al. “A Step Towards the Final Frontier: Lessons Learned from Acceptance Testing of the First HPE/Cray EX 3000 System at ORNL.” Oak Ridge National Lab. (ORNL), Oak Ridge, TN (United States), May 1, 2021. https://www.osti.gov/biblio/1819537.