计算化学公社

 找回密码 Forget password
 注册 Register
Views: 2183|回复 Reply: 11
打印 Print 上一主题 Last thread 下一主题 Next thread

[并行运算] slurm无法实现任务并行

[复制链接 Copy URL]

18

帖子

0

威望

335

eV
积分
353

Level 3 能力者

跳转到指定楼层 Go to specific reply
楼主
大佬们求助,
我现在有的机器是7R32-96核的服务器,但是发现用slurm提交任务后只能运行一个,没办法两个48核的任务运行,然后按 http://bbs.keinsci.com/forum.php ... ht=slurm&page=1 这个帖子里老师们的建议把slurm.conf从
SelectType=SELECT/LINEAR
改成了SelectType=select/cons_tres,SelectTypeParameters=CR_Core。
结果发现任务没办法运行了,如下

             JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
              1187 localhost     vasp   xingpu PD       0:00      1 (launch failed requeued held)


slurmd -c显示为

            slurmd: fatal: Unable to determine this slurmd's NodeName



下面是我的slurm.conf

#
# See the slurm.conf man page for more information.
#
ControlMachine=localhost
ControlAddr=127.0.0.1

#
AuthType=auth/munge

CryptoType=crypto/munge

MpiDefault=pmix

ProctrackType=proctrack/cgroup

ReturnToService=1

SlurmctldPidFile=/var/run/slurm/slurmctld.pid
SlurmctldPort=6817
SlurmdPidFile=/var/run/slurm/slurmd.pid
SlurmdPort=6818
SlurmdSpoolDir=/var/spool/slurm/d
SlurmUser=root

StateSaveLocation=/var/spool/slurm/ctld
SwitchType=switch/none

TaskPlugin=task/none

InactiveLimit=0
KillWait=30

MinJobAge=300
#OverTimeLimit=0
SlurmctldTimeout=120
SlurmdTimeout=300

Waittime=0

FastSchedule=1
SchedulerType=sched/backfill
SelectType=select/cons_tres
SelectTypeParameters=CR_Core

AccountingStorageType=accounting_storage/none
AccountingStoreJobComment=YES
ClusterName=cluster
JobCompType=jobcomp/none
JobAcctGatherFrequency=30
JobAcctGatherType=jobacct_gather/none
SlurmctldDebug=3
SlurmdDebug=3

# COMPUTE NODES
NodeName=node1 Sockets=2 CoresPerSocket=48 ThreadsPerCore=1 State=UNKNOWN
NodeName=node2 Sockets=2 CoresPerSocket=48 ThreadsPerCore=1 State=UNKNOWN
PartitionName=localhost Nodes=all Default=YES MaxTime=INFINITE State=UP



求助大佬们,谢谢谢谢


7

帖子

0

威望

15

eV
积分
22

Level 1 能力者

12#
发表于 Post on 2024-1-22 17:27:34 | 只看该作者 Only view this author
我用的单节点安装的slurm也有这样的问题,重新安装了slurm也不行

18

帖子

0

威望

335

eV
积分
353

Level 3 能力者

11#
 楼主 Author| 发表于 Post on 2023-12-7 16:55:07 | 只看该作者 Only view this author
zmjsce 发表于 2023-11-22 01:30
请问楼主:96核情况下,每个任务调用48核同时计算两任务 对比  96核心全部调用,依次计算两个任务,哪个 ...

个人的经验算vasp,96核不如60核快(试了很多参数,可能并不是最优方案),所以最后只跑60个核了.并行的话因为我不太会绑定核心,所以速度会慢很多

54

帖子

0

威望

683

eV
积分
737

Level 4 (黑子)

10#
发表于 Post on 2023-11-22 01:30:02 | 只看该作者 Only view this author
xaver2010 发表于 2023-11-19 09:41
我重装了下slurm,然后参数改后就可以正常运行了不过并行后计算速度还是影响很大

请问楼主:96核情况下,每个任务调用48核同时计算两任务 对比  96核心全部调用,依次计算两个任务,哪个计算会更低一点?你们的使用场景是什么样的?

18

帖子

0

威望

335

eV
积分
353

Level 3 能力者

9#
 楼主 Author| 发表于 Post on 2023-11-21 23:20:16 | 只看该作者 Only view this author
啊不错的飞过海 发表于 2023-11-20 15:12
抱歉,打错了,应该是大写的C。会输出形如“NodeName=master CPUs=20 Boards=1 SocketsPerBoard=2 CoresP ...

嗯嗯,谢谢您

186

帖子

1

威望

505

eV
积分
711

Level 4 (黑子)

8#
发表于 Post on 2023-11-20 15:12:10 | 只看该作者 Only view this author
xaver2010 发表于 2023-11-18 21:09
谢谢您的回复,我试了下,把node信息删除后,slurmd -c 完全没有输出信息了。。。这可能是什么原因呢 ...

抱歉,打错了,应该是大写的C。会输出形如“NodeName=master CPUs=20 Boards=1 SocketsPerBoard=2 CoresPerSocket=10 ThreadsPerCore=1 RealMemory=95324
UpTime=176-04:28:16”的信息,我想的是把这个复制到slurm.conf里。实在抱歉。

18

帖子

0

威望

335

eV
积分
353

Level 3 能力者

7#
 楼主 Author| 发表于 Post on 2023-11-19 09:41:47 | 只看该作者 Only view this author
paramecium86 发表于 2023-11-19 01:07
请问 最后是调整哪里解决的这个问题?

我重装了下slurm,然后参数改后就可以正常运行了不过并行后计算速度还是影响很大

320

帖子

1

威望

5357

eV
积分
5697

Level 6 (一方通行)

6#
发表于 Post on 2023-11-19 01:07:35 | 只看该作者 Only view this author
xaver2010 发表于 2023-11-18 21:32
老师您好,问题已经解决了,谢谢您

请问 最后是调整哪里解决的这个问题?

18

帖子

0

威望

335

eV
积分
353

Level 3 能力者

5#
 楼主 Author| 发表于 Post on 2023-11-18 21:32:32 | 只看该作者 Only view this author
啊不错的飞过海 发表于 2023-11-18 18:56
把node1、node2删了,跑一遍slurmd -c把输出复制到slurm.conf里。哪里来的48核的机器?

老师您好,问题已经解决了,谢谢您

18

帖子

0

威望

335

eV
积分
353

Level 3 能力者

4#
 楼主 Author| 发表于 Post on 2023-11-18 21:09:51 | 只看该作者 Only view this author
啊不错的飞过海 发表于 2023-11-18 18:56
把node1、node2删了,跑一遍slurmd -c把输出复制到slurm.conf里。哪里来的48核的机器?

谢谢您的回复,我试了下,把node信息删除后,slurmd -c 完全没有输出信息了。。。这可能是什么原因呢?

18

帖子

0

威望

335

eV
积分
353

Level 3 能力者

3#
 楼主 Author| 发表于 Post on 2023-11-18 21:06:29 | 只看该作者 Only view this author
啊不错的飞过海 发表于 2023-11-18 18:56
把node1、node2删了,跑一遍slurmd -c把输出复制到slurm.conf里。哪里来的48核的机器?

谢谢您的回复,我试了下,把node信息删除后,slurmd -c 完全没有输出信息了。。。这可能是什么愿意呢?

186

帖子

1

威望

505

eV
积分
711

Level 4 (黑子)

2#
发表于 Post on 2023-11-18 18:56:08 | 只看该作者 Only view this author
把node1、node2删了,跑一遍slurmd -c把输出复制到slurm.conf里。哪里来的48核的机器?

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 15:17 , Processed in 0.192968 second(s), 22 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list