计算化学公社

标题: 求助 slurm报错-centos7.9系统 [打印本页]

作者
Author:
qzm    时间: 2024-6-18 07:38
标题: 求助 slurm报错-centos7.9系统
本帖最后由 qzm 于 2024-6-18 09:02 编辑

单机centos7.9系统,正常使用slurm
突然停电,开机后slurm不好使,

报错s batch: error: Batch job submission failed: Socket timed out on send/recv operation

命令:sinfo
显示如下
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
sm*          up   infinite      1    alloc ms


命令:slurmd -C
显示如下
NodeName=ms CPUs=72 Boards=1 SocketsPerBoard=2 CoresPerSocket=18 ThreadsPerCore=2 RealMemory=128836
UpTime=0-22:25:34




作者
Author:
abin    时间: 2024-6-18 09:50
我应该可以处理.  有偿.

签名信息有联系方式.

自己动手也可以处理.

看看日志, 按照日志提示的错误信息处理即可.
具体需要看CentOS7.9管理员手册, 以及Slurm手册.

我提到的这些信息, 你通过bing.com都可以找到的.

完毕.
作者
Author:
Kamistry    时间: 2024-6-18 09:50
这两个命令对这个问题的排查没有帮助。
检查munge、slurmd、slurmctld服务是否正常
作者
Author:
Santz    时间: 2024-6-18 10:36
  1. munge -n | ssh ms unmunge
  2. cat /var/log/slurm/slurmctld.log
  3. cat /var/log/slurm/slurmd.log
复制代码





欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3