计算化学公社

 找回密码 Forget password
 注册 Register
Views: 478|回复 Reply: 4
打印 Print 上一主题 Last thread 下一主题 Next thread

[任务提交/队列管理] slurm提交多个任务堆积在相同的核心

[复制链接 Copy URL]

3

帖子

0

威望

932

eV
积分
935

Level 4 (黑子)

跳转到指定楼层 Go to specific reply
楼主
请教各位老师,双路EPYC9654服务器,RockyLinux8.10系统。使用gcc+openmpi编译好了cp2k,intel全家桶2018编译的vasp544。Slurm版本20.11.9,配置文件如下:
TaskPlugin=task/affinity
SchedulerType=sched/backfill
SelectType=select/cons_tres
SelectTypeParameters=CR_Core

NodeName=localhost.localdomain CPUs=192 RealMemory=773565 Sockets=2 CoresPerSocket=96 ThreadsPerCore=1 State=UNKNOWN
# Node
PartitionName=localhost.localdomain Nodes=localhost.localdomain Default=YES MaxTime=INFINITE State=UP

cp2k,vasp运行都正常。用slurm提交任务,设置每个任务用48个核,希望可以同时跑4个任务,现在遇到的问题是同时提交的任务会堆在相同的核心计算,请问应该怎么解决。

提交脚本如下:
#!/bin/bash
#SBATCH --job-name cp2k
#SBATCH --partition=localhost.localdomain
#SBATCH --nodes=1
#SBATCH --ntasks-per-node=48
#SBATCH --cpus-per-task=1
#SBATCH -t 1000:00:00
#SBATCH -o job%j.out
#SBATCH -e job%j.out
ulimit -s unlimited
source /home/lmlab/software/cp2k-2025.1/tools/toolchain/install/setup
export PATH=$PATH:/home/lmlab/software/cp2k-2025.1/exe/local
mpirun -n 48 cp2k.popt xx.inp 1> xx.out 2> xx.er

3

帖子

0

威望

932

eV
积分
935

Level 4 (黑子)

5#
 楼主 Author| 发表于 Post on 2025-7-31 09:16:49 | 只看该作者 Only view this author
糖炒DFT 发表于 2025-7-28 23:01
slurm版本太低 需要升级到slurm 22以上,采用cgroup v2才可以,并且slurm.conf 中的部分参数需要修改成如下 ...

十分感谢您的建议,我们已经通过其他途径解决了问题,后续有机会我们再测试下您的建议。

11

帖子

0

威望

199

eV
积分
210

Level 3 能力者

4#
发表于 Post on 2025-7-28 23:01:26 | 只看该作者 Only view this author
slurm版本太低 需要升级到slurm 22以上,采用cgroup v2才可以,并且slurm.conf 中的部分参数需要修改成如下参数:ProctrackType=proctrack/cgroup TaskPlugin=task/affinity,task/cgroup ;并且需要将cgroup.conf 修改为如下:CgroupMountpoint=XXX  #自己的实际位置
ConstrainCores=yes
ConstrainRAMSpace=yes
ConstrainSwapSpace=yes
ConstrainDevices=yes,应该就可以解决了。

3

帖子

0

威望

932

eV
积分
935

Level 4 (黑子)

3#
 楼主 Author| 发表于 Post on 2025-4-27 09:25:36 | 只看该作者 Only view this author
student0618 发表于 2025-4-27 00:59
试试参考这帖用srun?http://bbs.keinsci.com/thread-48808-1-1.html
(其他软件也适用,我先前mpirun plum ...

谢谢您的建议,按照您列的帖子修改为srun后,提交的任务Run2~3秒后就结束

485

帖子

1

威望

1131

eV
积分
1636

Level 5 (御坂)

A Student

2#
发表于 Post on 2025-4-27 00:59:44 | 只看该作者 Only view this author
试试参考这帖用srun?http://bbs.keinsci.com/thread-48808-1-1.html
(其他软件也适用,我先前mpirun plumed+gmx跑REMD也遇过楼主的问题,换srun便解决了。我的OS和mpi和楼主不同,但该帖有给intel mpi 和openmpi的写法)
敬仰一针见血的指责,厌倦别有用心的赞美。

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-12 23:01 , Processed in 0.240503 second(s), 21 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list