计算化学公社

 找回密码 Forget password
 注册 Register

slurm队列系统异常,无法使用相关命令

查看数: 1845 | 评论数: 17 | 收藏 Add to favorites 0
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2023-11-15 17:57

正文摘要:

本人一台centos7.9系统的双路服务器,可能是由于之前重启了一次,slurm队列系统突然失灵,squeue等命令无法再使用了,详情如图。请问各位老师各位大佬,这是什么原因、如何解决?是否需要重新安装slurm队列系统啊? ...

回复 Reply

啊不错的飞过海 发表于 Post on 2023-11-16 21:29:31
zorow 发表于 2023-11-16 20:44
发现有是有,但是都是0 byte... 我感觉我可能需要重新编译一下了...

几个位置都有,且都是0byte?
我看了下我的,只在/var/run/munge有,srwxrwxrwx权限,0byte。muinge应该是正常在跑的,看看slurm是不是你安的slurm吧,可能除了手编译的以外还从apt之类的地方下载过。
zorow 发表于 Post on 2023-11-16 20:44:29
啊不错的飞过海 发表于 2023-11-16 15:00
是/var/run/munge底下没有,/var/munge/run/munge底下没有,还是find / -name "munge.socket.2"都找不见 ...

发现有是有,但是都是0 byte... 我感觉我可能需要重新编译一下了...
Weldingspock 发表于 Post on 2023-11-16 16:37:18
乐平 发表于 2023-11-16 10:36
我之前在自己的小工作站(Ubuntu 22.04 系统)安装过 slurm,没有安装 munge

最开始还挺正常的,暑假 ...

我的系统是Rocky linux9.2, 感觉装slurm方便一点,毛病也少不少。要不你换个系统试一试
啊不错的飞过海 发表于 Post on 2023-11-16 15:00:38
zorow 发表于 2023-11-16 14:51
我找了一下发现这个socket.2的文件没有了... 我需要重新安装munge或者slurm吗

是/var/run/munge底下没有,/var/munge/run/munge底下没有,还是find / -name "munge.socket.2"都找不见?
munge运行着没死就应该会有这个socket,可能是你的/usr/sbin的这个没放在常见位置。
以及,slurm依赖munge,重装munge的话最好把slurm也重编译一遍。我个人建议还是找找socket看。
zorow 发表于 Post on 2023-11-16 14:51:58
啊不错的飞过海 发表于 2023-11-16 14:48
看看slurmctld/slurmd跑没跑起来?
以及munge默认的socket目录应该是/var/run/munge,可以看一下munge.s ...

我找了一下发现这个socket.2的文件没有了... 我需要重新安装munge或者slurm吗
啊不错的飞过海 发表于 Post on 2023-11-16 14:48:03
zorow 发表于 2023-11-15 22:15
感谢您,munge的状态好像是正常的。我好像是两三天重启了一下机器以后变成这样,我没改过slurm的设置,会 ...

看看slurmctld/slurmd跑没跑起来?
以及munge默认的socket目录应该是/var/run/munge,可以看一下munge.socket.2在不在。你的slurm报/var/munge/run/munge底下没有munge.socket.2,可能slurm依赖的munge和现在跑着的不是一个?
abin 发表于 Post on 2023-11-16 13:18:59
开SSH, 我来看看? (有偿).
乐平 发表于 Post on 2023-11-16 10:36:46
Weldingspock 发表于 2023-11-16 09:59
systemctl resart munge
systemctl restart slurmctld
systemctl resatrt slurmd

我之前在自己的小工作站(Ubuntu 22.04 系统)安装过 slurm,没有安装 munge

最开始还挺正常的,暑假关机了之后就发现 slurm 的状态变成 strain

按照你说的
systemctl restart slurmctld
systemctl resatrt slurmd
scontrol update nodename=master(master 是我的工作站的名称)
没效果

卸载 slurm 然后重装,依旧是 strain,很诡异……
Weldingspock 发表于 Post on 2023-11-16 09:59:38
systemctl resart munge
systemctl restart slurmctld
systemctl resatrt slurmd
scontrol update nodename=master
mater换成自己的节点名称
abin 发表于 Post on 2023-11-16 07:23:39
如果所描述的都是真实情况的话……
那就见鬼了……

就一台机器,也不涉及多个机器时间同步的问题……
zorow 发表于 Post on 2023-11-15 22:13:42
abin 发表于 2023-11-15 21:28
机器时间有没有回到过去?

感谢abin老师,系统时间没回到过去
啊不错的飞过海 发表于 Post on 2023-11-15 21:36:57
zorow 发表于 2023-11-15 21:21
感谢您回复,应该是启动了:

abin老师讲的也是个情况,时间不对的话munge间通信会出问题;不过这里报不存在munge.socket.2应该和时间无关?也可以看看。
一个可能是/usr/sbin的这个munged默认不把socket放在/var而是放在/usr/var之类的地方,但这个设置随slurm的编译是传递的,换句话说slurm编译时如果链接的是这个munge的话应该不会有找不到munge.socket的问题,ps -aux |grep slurmctld查查slurm路径看看。
还有就是可能munge启动有问题?systemctl status munge.service看看,不过楼主的munge不一定是走服务启动起来的。
abin 发表于 Post on 2023-11-15 21:28:04
机器时间有没有回到过去?

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-13 12:20 , Processed in 1.889905 second(s), 25 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list