计算化学公社

 找回密码 Forget password
 注册 Register
Views: 553|回复 Reply: 3
打印 Print 上一主题 Last thread 下一主题 Next thread

[任务提交/队列管理] 求助 slurm报错-centos7.9系统

[复制链接 Copy URL]

58

帖子

0

威望

267

eV
积分
325

Level 3 能力者

跳转到指定楼层 Go to specific reply
楼主
本帖最后由 qzm 于 2024-6-18 09:02 编辑

单机centos7.9系统,正常使用slurm
突然停电,开机后slurm不好使,

报错s batch: error: Batch job submission failed: Socket timed out on send/recv operation

命令:sinfo
显示如下
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
sm*          up   infinite      1    alloc ms


命令:slurmd -C
显示如下
NodeName=ms CPUs=72 Boards=1 SocketsPerBoard=2 CoresPerSocket=18 ThreadsPerCore=2 RealMemory=128836
UpTime=0-22:25:34



2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

2#
发表于 Post on 2024-6-18 09:50:04 | 只看该作者 Only view this author
我应该可以处理.  有偿.

签名信息有联系方式.

自己动手也可以处理.

看看日志, 按照日志提示的错误信息处理即可.
具体需要看CentOS7.9管理员手册, 以及Slurm手册.

我提到的这些信息, 你通过bing.com都可以找到的.

完毕.
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

35

帖子

3

威望

794

eV
积分
889

Level 4 (黑子)

3#
发表于 Post on 2024-6-18 09:50:38 | 只看该作者 Only view this author
这两个命令对这个问题的排查没有帮助。
检查munge、slurmd、slurmctld服务是否正常

83

帖子

2

威望

3013

eV
积分
3136

Level 5 (御坂)

4#
发表于 Post on 2024-6-18 10:36:44 | 只看该作者 Only view this author
  1. munge -n | ssh ms unmunge
  2. cat /var/log/slurm/slurmctld.log
  3. cat /var/log/slurm/slurmd.log
复制代码

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-24 02:38 , Processed in 0.150876 second(s), 21 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list