计算化学公社
标题:
求助 slurm报错-centos7.9系统
[打印本页]
作者Author:
qzm
时间:
2024-6-18 07:38
标题:
求助 slurm报错-centos7.9系统
本帖最后由 qzm 于 2024-6-18 09:02 编辑
单机centos7.9系统,正常使用slurm
突然停电,开机后slurm不好使,
报错s batch: error: Batch job submission failed: Socket timed out on send/recv operation
命令:sinfo
显示如下
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
sm* up infinite 1 alloc ms
命令:
slurmd -C
显示如下
NodeName=ms CPUs=72 Boards=1 SocketsPerBoard=2 CoresPerSocket=18 ThreadsPerCore=2 RealMemory=128836
UpTime=0-22:25:34
作者Author:
abin
时间:
2024-6-18 09:50
我应该可以处理. 有偿.
签名信息有联系方式.
自己动手也可以处理.
看看日志, 按照日志提示的错误信息处理即可.
具体需要看CentOS7.9管理员手册, 以及Slurm手册.
我提到的这些信息, 你通过bing.com都可以找到的.
完毕.
作者Author:
Kamistry
时间:
2024-6-18 09:50
这两个命令对这个问题的排查没有帮助。
检查munge、slurmd、slurmctld服务是否正常
作者Author:
Santz
时间:
2024-6-18 10:36
munge -n | ssh ms unmunge
cat /var/log/slurm/slurmctld.log
cat /var/log/slurm/slurmd.log
复制代码
欢迎光临 计算化学公社 (http://bbs.keinsci.com/)
Powered by Discuz! X3.3