2025-03-22 Ubuntu on WSL安装作业调度器Slurm Ubuntu on WSL安装作业调度器Slurm 前言Slurm是高性能计算机上使用最广泛的作业资源调度器,它能够管理多节点CPU计算资源,也支持管理GPU计算资源。下面介绍单节点部署slurm的方法,通过slurm管理小型工作站计算资源。单节点安装相比集群安装简化很多步骤。测试环境工作站:12核24线程 CPU,1块NVIDIA RTX 3060 GPU。Ubuntu 24.04 LTS @WSLslurm-wlm 23.11.4安装这里通过Ubuntu apt包管理器安装slurm,相比源代码安装简单方便。安装slurm及依赖munge$ sudo apt install munge slurm-wlm查询节点信息,后续slurm配置需要$ hostname $ slurmd -C配置slurm.conf文件slurm提供了网页版生成配置信息的方法,只需要填入对应的参数,就能一键生成配置信息。使用浏览器打开/usr/share/doc/slurmctld/slurm-wlm-configurator.easy.html(WSL中可以利用wslview调用Windows的浏览器打开网页或者拷贝这个文件到Windows中打开)... 2025年03月22日 12 阅读 0 评论
2023-10-24 Slurm解除作业内存限制方法 Slurm解除作业内存限制方法 问题有一个串行作业通过Slurm提交到计算节点计算,程序需要的内存量虽然没有超过计算节点的物理内存,但因为Slurm对作业分配的单个CPU核的内存进行了限制,导致程序进程因out-of-memory(OOM)被Slurm强制杀掉。我们通过以下程序来复现问题。该程序申请了一个1024*1024*1024*8字节大小(8GB)的双精度buffer数组,加上其它一些量的内存需求,该程序实际上需要>8GB的内存空间。program main implicit none integer,parameter :: NX = 1024 real*8,allocatable,dimension(:,:,:) :: buffer integer :: i,j,k allocate(buffer(NX,NX,NX)) buffer = 1.0d0 buffer = buffer + sqrt(buffer+3.0) print*, buffer(1,1,1) deallocate(buffer) end运行对应的Slurm作业脚本如下#!/usr/bin/... 2023年10月24日 1,025 阅读 1 评论