计算化学公社

标题: slurm无法实现任务并行 [打印本页]

作者
Author:
xaver2010    时间: 2023-11-18 13:57
标题: slurm无法实现任务并行
大佬们求助,
我现在有的机器是7R32-96核的服务器,但是发现用slurm提交任务后只能运行一个,没办法两个48核的任务运行,然后按 http://bbs.keinsci.com/forum.php ... ht=slurm&page=1 这个帖子里老师们的建议把slurm.conf从
SelectType=SELECT/LINEAR
改成了SelectType=select/cons_tres,SelectTypeParameters=CR_Core。
结果发现任务没办法运行了,如下

             JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
              1187 localhost     vasp   xingpu PD       0:00      1 (launch failed requeued held)


slurmd -c显示为

            slurmd: fatal: Unable to determine this slurmd's NodeName



下面是我的slurm.conf

#
# See the slurm.conf man page for more information.
#
ControlMachine=localhost
ControlAddr=127.0.0.1

#
AuthType=auth/munge

CryptoType=crypto/munge

MpiDefault=pmix

ProctrackType=proctrack/cgroup

ReturnToService=1

SlurmctldPidFile=/var/run/slurm/slurmctld.pid
SlurmctldPort=6817
SlurmdPidFile=/var/run/slurm/slurmd.pid
SlurmdPort=6818
SlurmdSpoolDir=/var/spool/slurm/d
SlurmUser=root

StateSaveLocation=/var/spool/slurm/ctld
SwitchType=switch/none

TaskPlugin=task/none

InactiveLimit=0
KillWait=30

MinJobAge=300
#OverTimeLimit=0
SlurmctldTimeout=120
SlurmdTimeout=300

Waittime=0

FastSchedule=1
SchedulerType=sched/backfill
SelectType=select/cons_tres
SelectTypeParameters=CR_Core

AccountingStorageType=accounting_storage/none
AccountingStoreJobComment=YES
ClusterName=cluster
JobCompType=jobcomp/none
JobAcctGatherFrequency=30
JobAcctGatherType=jobacct_gather/none
SlurmctldDebug=3
SlurmdDebug=3

# COMPUTE NODES
NodeName=node1 Sockets=2 CoresPerSocket=48 ThreadsPerCore=1 State=UNKNOWN
NodeName=node2 Sockets=2 CoresPerSocket=48 ThreadsPerCore=1 State=UNKNOWN
PartitionName=localhost Nodes=all Default=YES MaxTime=INFINITE State=UP



求助大佬们,谢谢谢谢



作者
Author:
啊不错的飞过海    时间: 2023-11-18 18:56
把node1、node2删了,跑一遍slurmd -c把输出复制到slurm.conf里。哪里来的48核的机器?
作者
Author:
xaver2010    时间: 2023-11-18 21:06
啊不错的飞过海 发表于 2023-11-18 18:56
把node1、node2删了,跑一遍slurmd -c把输出复制到slurm.conf里。哪里来的48核的机器?

谢谢您的回复,我试了下,把node信息删除后,slurmd -c 完全没有输出信息了。。。这可能是什么愿意呢?
作者
Author:
xaver2010    时间: 2023-11-18 21:09
啊不错的飞过海 发表于 2023-11-18 18:56
把node1、node2删了,跑一遍slurmd -c把输出复制到slurm.conf里。哪里来的48核的机器?

谢谢您的回复,我试了下,把node信息删除后,slurmd -c 完全没有输出信息了。。。这可能是什么原因呢?
作者
Author:
xaver2010    时间: 2023-11-18 21:32
啊不错的飞过海 发表于 2023-11-18 18:56
把node1、node2删了,跑一遍slurmd -c把输出复制到slurm.conf里。哪里来的48核的机器?

老师您好,问题已经解决了,谢谢您
作者
Author:
paramecium86    时间: 2023-11-19 01:07
xaver2010 发表于 2023-11-18 21:32
老师您好,问题已经解决了,谢谢您

请问 最后是调整哪里解决的这个问题?
作者
Author:
xaver2010    时间: 2023-11-19 09:41
paramecium86 发表于 2023-11-19 01:07
请问 最后是调整哪里解决的这个问题?

我重装了下slurm,然后参数改后就可以正常运行了不过并行后计算速度还是影响很大
作者
Author:
啊不错的飞过海    时间: 2023-11-20 15:12
xaver2010 发表于 2023-11-18 21:09
谢谢您的回复,我试了下,把node信息删除后,slurmd -c 完全没有输出信息了。。。这可能是什么原因呢 ...

抱歉,打错了,应该是大写的C。会输出形如“NodeName=master CPUs=20 Boards=1 SocketsPerBoard=2 CoresPerSocket=10 ThreadsPerCore=1 RealMemory=95324
UpTime=176-04:28:16”的信息,我想的是把这个复制到slurm.conf里。实在抱歉。
作者
Author:
xaver2010    时间: 2023-11-21 23:20
啊不错的飞过海 发表于 2023-11-20 15:12
抱歉,打错了,应该是大写的C。会输出形如“NodeName=master CPUs=20 Boards=1 SocketsPerBoard=2 CoresP ...

嗯嗯,谢谢您
作者
Author:
zmjsce    时间: 2023-11-22 01:30
xaver2010 发表于 2023-11-19 09:41
我重装了下slurm,然后参数改后就可以正常运行了不过并行后计算速度还是影响很大

请问楼主:96核情况下,每个任务调用48核同时计算两任务 对比  96核心全部调用,依次计算两个任务,哪个计算会更低一点?你们的使用场景是什么样的?
作者
Author:
xaver2010    时间: 2023-12-7 16:55
zmjsce 发表于 2023-11-22 01:30
请问楼主:96核情况下,每个任务调用48核同时计算两任务 对比  96核心全部调用,依次计算两个任务,哪个 ...

个人的经验算vasp,96核不如60核快(试了很多参数,可能并不是最优方案),所以最后只跑60个核了.并行的话因为我不太会绑定核心,所以速度会慢很多
作者
Author:
qiuyunfeng    时间: 2024-1-22 17:27
我用的单节点安装的slurm也有这样的问题,重新安装了slurm也不行




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3