计算化学公社

 找回密码 Forget password
 注册 Register
Views: 65|回复 Reply: 3
打印 Print 上一主题 Last thread 下一主题 Next thread

[集群维护] 请问为什么slurm22的conf在slurm23里不能正常工作呢?

[复制链接 Copy URL]

85

帖子

0

威望

394

eV
积分
479

Level 3 能力者

跳转到指定楼层 Go to specific reply
楼主
我从slurm21开始用,之前的conf设制 在slurm21和slurm22都能工作正常,但是现在升级到slurm23后就没法正常工作了,请问设置里是不是有需要修改的地方呢?我测试了ubuntu和rocky,都发现slurm21和22的conf 在 slurm23的版本里不能正常工作。
原始的slurm.conf如下:
ClusterName=cluster
SlurmctldHost=localhost

MpiDefault=none
ProctrackType=proctrack/pgid
ReturnToService=1
SlurmctldPidFile=/run/slurmctld.pid
SlurmctldPort=6817
SlurmdPidFile=/run/slurmd.pid
SlurmdPort=6818
SlurmdSpoolDir=/var/lib/slurm/slurmd
SlurmUser=root
StateSaveLocation=/var/lib/slurm/slurmctld
SwitchType=switch/none
TaskPlugin=task/affinity

# TIMERS
InactiveLimit=0
KillWait=30
MinJobAge=300
SlurmctldTimeout=120
SlurmdTimeout=300
Waittime=0

# SCHEDULING
SchedulerType=sched/backfill
SelectType=select/cons_tres

# LOGGING AND ACCOUNTING
AccountingStorageType=accounting_storage/none
JobCompType=jobcomp/none
JobAcctGatherFrequency=30
JobAcctGatherType=jobacct_gather/none
SlurmctldDebug=info
SlurmctldLogFile=/var/log/slurm/slurmctld.log
SlurmdDebug=info
SlurmdLogFile=/var/log/slurm/slurmd.log

# COMPUTE NODES
NodeName=422-44C CPUs=44 RealMemory=125000 Sockets=2 CoresPerSocket=22 ThreadsPerCore=1 State=UNKNOWN
PartitionName=debug Nodes=ALL Default=YES MaxTime=INFINITE State=UP

83

帖子

2

威望

3011

eV
积分
3134

Level 5 (御坂)

2#
发表于 Post on 2024-11-14 14:37:54 | 只看该作者 Only view this author
没法正常工作你也说个具体的问题或提示吧

85

帖子

0

威望

394

eV
积分
479

Level 3 能力者

3#
 楼主 Author| 发表于 Post on 2024-11-14 16:09:38 | 只看该作者 Only view this author
Santz 发表于 2024-11-14 14:37
没法正常工作你也说个具体的问题或提示吧

在slurm23里 使用sinfo的时候,state那一栏会显示 idle*,提交一个简单的任务,比如输出当前时间,state那一栏就显示comp*,然后一直没任何输出。在slurm22中使用sinfo,state那一栏显示的是 idle,没有*号,是不是这里有区别呢?

83

帖子

2

威望

3011

eV
积分
3134

Level 5 (御坂)

4#
发表于 Post on 2024-11-14 16:27:49 | 只看该作者 Only view this author
sun35mr 发表于 2024-11-14 16:09
在slurm23里 使用sinfo的时候,state那一栏会显示 idle*,提交一个简单的任务,比如输出当前时间,state ...
NOTE: The suffix "*" identifies nodes that are presently not responding.
*一般意味着节点未正确响应。检查下该计算节点的配置和 slurmd.log。看你没有使用 configless 配置,检查下配置是否统一以及计算节点的设置是否超过 slurmd -C。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 08:12 , Processed in 0.161268 second(s), 21 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list