计算化学公社

 找回密码 Forget password
 注册 Register
Views: 1231|回复 Reply: 17
打印 Print 上一主题 Last thread 下一主题 Next thread

[任务提交/队列管理] slurm队列系统异常,无法使用相关命令

[复制链接 Copy URL]

184

帖子

2

威望

4878

eV
积分
5102

Level 6 (一方通行)

能科top50

本人一台centos7.9系统的双路服务器,可能是由于之前重启了一次,slurm队列系统突然失灵,squeue等命令无法再使用了,详情如图。请问各位老师各位大佬,这是什么原因、如何解决?是否需要重新安装slurm队列系统啊?
In defeat, malice. In victory, revenge.

184

帖子

2

威望

4878

eV
积分
5102

Level 6 (一方通行)

能科top50

2#
 楼主 Author| 发表于 Post on 2023-11-15 20:06:44 | 只看该作者 Only view this author
另外还有错误如图

202311152006323573..png (18.7 KB, 下载次数 Times of downloads: 51)

202311152006323573..png
In defeat, malice. In victory, revenge.

186

帖子

1

威望

505

eV
积分
711

Level 4 (黑子)

3#
发表于 Post on 2023-11-15 21:19:10 | 只看该作者 Only view this author
munge启动了吗?ps -aux |grep munged试试

184

帖子

2

威望

4878

eV
积分
5102

Level 6 (一方通行)

能科top50

4#
 楼主 Author| 发表于 Post on 2023-11-15 21:21:32 | 只看该作者 Only view this author
啊不错的飞过海 发表于 2023-11-15 21:19
munge启动了吗?ps -aux |grep munged试试

感谢您回复,应该是启动了:

202311152121277028..png (17.69 KB, 下载次数 Times of downloads: 48)

202311152121277028..png
In defeat, malice. In victory, revenge.

2302

帖子

1

威望

5481

eV
积分
7803

Level 6 (一方通行)

5#
发表于 Post on 2023-11-15 21:28:04 | 只看该作者 Only view this author
机器时间有没有回到过去?
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

186

帖子

1

威望

505

eV
积分
711

Level 4 (黑子)

6#
发表于 Post on 2023-11-15 21:36:57 | 只看该作者 Only view this author
zorow 发表于 2023-11-15 21:21
感谢您回复,应该是启动了:

abin老师讲的也是个情况,时间不对的话munge间通信会出问题;不过这里报不存在munge.socket.2应该和时间无关?也可以看看。
一个可能是/usr/sbin的这个munged默认不把socket放在/var而是放在/usr/var之类的地方,但这个设置随slurm的编译是传递的,换句话说slurm编译时如果链接的是这个munge的话应该不会有找不到munge.socket的问题,ps -aux |grep slurmctld查查slurm路径看看。
还有就是可能munge启动有问题?systemctl status munge.service看看,不过楼主的munge不一定是走服务启动起来的。

184

帖子

2

威望

4878

eV
积分
5102

Level 6 (一方通行)

能科top50

7#
 楼主 Author| 发表于 Post on 2023-11-15 22:13:42 | 只看该作者 Only view this author
abin 发表于 2023-11-15 21:28
机器时间有没有回到过去?

感谢abin老师,系统时间没回到过去
In defeat, malice. In victory, revenge.

184

帖子

2

威望

4878

eV
积分
5102

Level 6 (一方通行)

能科top50

8#
 楼主 Author| 发表于 Post on 2023-11-15 22:15:21 | 只看该作者 Only view this author
啊不错的飞过海 发表于 2023-11-15 21:36
abin老师讲的也是个情况,时间不对的话munge间通信会出问题;不过这里报不存在munge.socket.2应该和时间 ...

感谢您,munge的状态好像是正常的。我好像是两三天重启了一下机器以后变成这样,我没改过slurm的设置,会是重启导致问题吗

202311152214482171..png (46.22 KB, 下载次数 Times of downloads: 54)

202311152214482171..png
In defeat, malice. In victory, revenge.

2302

帖子

1

威望

5481

eV
积分
7803

Level 6 (一方通行)

9#
发表于 Post on 2023-11-16 07:23:39 | 只看该作者 Only view this author
如果所描述的都是真实情况的话……
那就见鬼了……

就一台机器,也不涉及多个机器时间同步的问题……
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

197

帖子

1

威望

1108

eV
积分
1325

Level 4 (黑子)

10#
发表于 Post on 2023-11-16 09:59:38 | 只看该作者 Only view this author
systemctl resart munge
systemctl restart slurmctld
systemctl resatrt slurmd
scontrol update nodename=master
mater换成自己的节点名称

1063

帖子

0

威望

3277

eV
积分
4340

Level 6 (一方通行)

11#
发表于 Post on 2023-11-16 10:36:46 | 只看该作者 Only view this author
Weldingspock 发表于 2023-11-16 09:59
systemctl resart munge
systemctl restart slurmctld
systemctl resatrt slurmd

我之前在自己的小工作站(Ubuntu 22.04 系统)安装过 slurm,没有安装 munge

最开始还挺正常的,暑假关机了之后就发现 slurm 的状态变成 strain

按照你说的
systemctl restart slurmctld
systemctl resatrt slurmd
scontrol update nodename=master(master 是我的工作站的名称)
没效果

卸载 slurm 然后重装,依旧是 strain,很诡异……

2302

帖子

1

威望

5481

eV
积分
7803

Level 6 (一方通行)

12#
发表于 Post on 2023-11-16 13:18:59 | 只看该作者 Only view this author
开SSH, 我来看看? (有偿).
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

186

帖子

1

威望

505

eV
积分
711

Level 4 (黑子)

13#
发表于 Post on 2023-11-16 14:48:03 | 只看该作者 Only view this author
zorow 发表于 2023-11-15 22:15
感谢您,munge的状态好像是正常的。我好像是两三天重启了一下机器以后变成这样,我没改过slurm的设置,会 ...

看看slurmctld/slurmd跑没跑起来?
以及munge默认的socket目录应该是/var/run/munge,可以看一下munge.socket.2在不在。你的slurm报/var/munge/run/munge底下没有munge.socket.2,可能slurm依赖的munge和现在跑着的不是一个?

184

帖子

2

威望

4878

eV
积分
5102

Level 6 (一方通行)

能科top50

14#
 楼主 Author| 发表于 Post on 2023-11-16 14:51:58 | 只看该作者 Only view this author
啊不错的飞过海 发表于 2023-11-16 14:48
看看slurmctld/slurmd跑没跑起来?
以及munge默认的socket目录应该是/var/run/munge,可以看一下munge.s ...

我找了一下发现这个socket.2的文件没有了... 我需要重新安装munge或者slurm吗
In defeat, malice. In victory, revenge.

186

帖子

1

威望

505

eV
积分
711

Level 4 (黑子)

15#
发表于 Post on 2023-11-16 15:00:38 | 只看该作者 Only view this author
zorow 发表于 2023-11-16 14:51
我找了一下发现这个socket.2的文件没有了... 我需要重新安装munge或者slurm吗

是/var/run/munge底下没有,/var/munge/run/munge底下没有,还是find / -name "munge.socket.2"都找不见?
munge运行着没死就应该会有这个socket,可能是你的/usr/sbin的这个没放在常见位置。
以及,slurm依赖munge,重装munge的话最好把slurm也重编译一遍。我个人建议还是找找socket看。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-27 14:53 , Processed in 0.297823 second(s), 24 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list