计算化学公社

标题: slurm提交多个任务堆积在相同的核心 [打印本页]

作者
Author:
落花雨    时间: 2025-4-25 20:38
标题: slurm提交多个任务堆积在相同的核心
请教各位老师,双路EPYC9654服务器,RockyLinux8.10系统。使用gcc+openmpi编译好了cp2k,intel全家桶2018编译的vasp544。Slurm版本20.11.9,配置文件如下:
TaskPlugin=task/affinity
SchedulerType=sched/backfill
SelectType=select/cons_tres
SelectTypeParameters=CR_Core

NodeName=localhost.localdomain CPUs=192 RealMemory=773565 Sockets=2 CoresPerSocket=96 ThreadsPerCore=1 State=UNKNOWN
# Node
PartitionName=localhost.localdomain Nodes=localhost.localdomain Default=YES MaxTime=INFINITE State=UP

cp2k,vasp运行都正常。用slurm提交任务,设置每个任务用48个核,希望可以同时跑4个任务,现在遇到的问题是同时提交的任务会堆在相同的核心计算,请问应该怎么解决。

提交脚本如下:
#!/bin/bash
#SBATCH --job-name cp2k
#SBATCH --partition=localhost.localdomain
#SBATCH --nodes=1
#SBATCH --ntasks-per-node=48
#SBATCH --cpus-per-task=1
#SBATCH -t 1000:00:00
#SBATCH -o job%j.out
#SBATCH -e job%j.out
ulimit -s unlimited
source /home/lmlab/software/cp2k-2025.1/tools/toolchain/install/setup
export PATH=$PATH:/home/lmlab/software/cp2k-2025.1/exe/local
mpirun -n 48 cp2k.popt xx.inp 1> xx.out 2> xx.er


作者
Author:
student0618    时间: 2025-4-27 00:59
试试参考这帖用srun?http://bbs.keinsci.com/thread-48808-1-1.html
(其他软件也适用,我先前mpirun plumed+gmx跑REMD也遇过楼主的问题,换srun便解决了。我的OS和mpi和楼主不同,但该帖有给intel mpi 和openmpi的写法)
作者
Author:
落花雨    时间: 2025-4-27 09:25
student0618 发表于 2025-4-27 00:59
试试参考这帖用srun?http://bbs.keinsci.com/thread-48808-1-1.html
(其他软件也适用,我先前mpirun plum ...

谢谢您的建议,按照您列的帖子修改为srun后,提交的任务Run2~3秒后就结束
作者
Author:
糖炒DFT    时间: 2025-7-28 23:01
slurm版本太低 需要升级到slurm 22以上,采用cgroup v2才可以,并且slurm.conf 中的部分参数需要修改成如下参数:ProctrackType=proctrack/cgroup TaskPlugin=task/affinity,task/cgroup ;并且需要将cgroup.conf 修改为如下:CgroupMountpoint=XXX  #自己的实际位置
ConstrainCores=yes
ConstrainRAMSpace=yes
ConstrainSwapSpace=yes
ConstrainDevices=yes,应该就可以解决了。
作者
Author:
落花雨    时间: 2025-7-31 09:16
糖炒DFT 发表于 2025-7-28 23:01
slurm版本太低 需要升级到slurm 22以上,采用cgroup v2才可以,并且slurm.conf 中的部分参数需要修改成如下 ...

十分感谢您的建议,我们已经通过其他途径解决了问题,后续有机会我们再测试下您的建议。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3