计算化学公社

标题: slurm队列系统异常,无法使用相关命令 [打印本页]

作者
Author:
zorow    时间: 2023-11-15 17:57
标题: slurm队列系统异常,无法使用相关命令
本人一台centos7.9系统的双路服务器,可能是由于之前重启了一次,slurm队列系统突然失灵,squeue等命令无法再使用了,详情如图。请问各位老师各位大佬,这是什么原因、如何解决?是否需要重新安装slurm队列系统啊? (, 下载次数 Times of downloads: 52)

作者
Author:
zorow    时间: 2023-11-15 20:06
另外还有错误如图
作者
Author:
啊不错的飞过海    时间: 2023-11-15 21:19
munge启动了吗?ps -aux |grep munged试试
作者
Author:
zorow    时间: 2023-11-15 21:21
啊不错的飞过海 发表于 2023-11-15 21:19
munge启动了吗?ps -aux |grep munged试试

感谢您回复,应该是启动了:
作者
Author:
abin    时间: 2023-11-15 21:28
机器时间有没有回到过去?
作者
Author:
啊不错的飞过海    时间: 2023-11-15 21:36
zorow 发表于 2023-11-15 21:21
感谢您回复,应该是启动了:

abin老师讲的也是个情况,时间不对的话munge间通信会出问题;不过这里报不存在munge.socket.2应该和时间无关?也可以看看。
一个可能是/usr/sbin的这个munged默认不把socket放在/var而是放在/usr/var之类的地方,但这个设置随slurm的编译是传递的,换句话说slurm编译时如果链接的是这个munge的话应该不会有找不到munge.socket的问题,ps -aux |grep slurmctld查查slurm路径看看。
还有就是可能munge启动有问题?systemctl status munge.service看看,不过楼主的munge不一定是走服务启动起来的。
作者
Author:
zorow    时间: 2023-11-15 22:13
abin 发表于 2023-11-15 21:28
机器时间有没有回到过去?

感谢abin老师,系统时间没回到过去
作者
Author:
zorow    时间: 2023-11-15 22:15
啊不错的飞过海 发表于 2023-11-15 21:36
abin老师讲的也是个情况,时间不对的话munge间通信会出问题;不过这里报不存在munge.socket.2应该和时间 ...

感谢您,munge的状态好像是正常的。我好像是两三天重启了一下机器以后变成这样,我没改过slurm的设置,会是重启导致问题吗

作者
Author:
abin    时间: 2023-11-16 07:23
如果所描述的都是真实情况的话……
那就见鬼了……

就一台机器,也不涉及多个机器时间同步的问题……
作者
Author:
Weldingspock    时间: 2023-11-16 09:59
systemctl resart munge
systemctl restart slurmctld
systemctl resatrt slurmd
scontrol update nodename=master
mater换成自己的节点名称
作者
Author:
乐平    时间: 2023-11-16 10:36
Weldingspock 发表于 2023-11-16 09:59
systemctl resart munge
systemctl restart slurmctld
systemctl resatrt slurmd

我之前在自己的小工作站(Ubuntu 22.04 系统)安装过 slurm,没有安装 munge

最开始还挺正常的,暑假关机了之后就发现 slurm 的状态变成 strain

按照你说的
systemctl restart slurmctld
systemctl resatrt slurmd
scontrol update nodename=master(master 是我的工作站的名称)
没效果

卸载 slurm 然后重装,依旧是 strain,很诡异……
作者
Author:
abin    时间: 2023-11-16 13:18
开SSH, 我来看看? (有偿).
作者
Author:
啊不错的飞过海    时间: 2023-11-16 14:48
zorow 发表于 2023-11-15 22:15
感谢您,munge的状态好像是正常的。我好像是两三天重启了一下机器以后变成这样,我没改过slurm的设置,会 ...

看看slurmctld/slurmd跑没跑起来?
以及munge默认的socket目录应该是/var/run/munge,可以看一下munge.socket.2在不在。你的slurm报/var/munge/run/munge底下没有munge.socket.2,可能slurm依赖的munge和现在跑着的不是一个?
作者
Author:
zorow    时间: 2023-11-16 14:51
啊不错的飞过海 发表于 2023-11-16 14:48
看看slurmctld/slurmd跑没跑起来?
以及munge默认的socket目录应该是/var/run/munge,可以看一下munge.s ...

我找了一下发现这个socket.2的文件没有了... 我需要重新安装munge或者slurm吗
作者
Author:
啊不错的飞过海    时间: 2023-11-16 15:00
zorow 发表于 2023-11-16 14:51
我找了一下发现这个socket.2的文件没有了... 我需要重新安装munge或者slurm吗

是/var/run/munge底下没有,/var/munge/run/munge底下没有,还是find / -name "munge.socket.2"都找不见?
munge运行着没死就应该会有这个socket,可能是你的/usr/sbin的这个没放在常见位置。
以及,slurm依赖munge,重装munge的话最好把slurm也重编译一遍。我个人建议还是找找socket看。
作者
Author:
Weldingspock    时间: 2023-11-16 16:37
乐平 发表于 2023-11-16 10:36
我之前在自己的小工作站(Ubuntu 22.04 系统)安装过 slurm,没有安装 munge

最开始还挺正常的,暑假 ...

我的系统是Rocky linux9.2, 感觉装slurm方便一点,毛病也少不少。要不你换个系统试一试
作者
Author:
zorow    时间: 2023-11-16 20:44
啊不错的飞过海 发表于 2023-11-16 15:00
是/var/run/munge底下没有,/var/munge/run/munge底下没有,还是find / -name "munge.socket.2"都找不见 ...

发现有是有,但是都是0 byte... 我感觉我可能需要重新编译一下了...
作者
Author:
啊不错的飞过海    时间: 2023-11-16 21:29
zorow 发表于 2023-11-16 20:44
发现有是有,但是都是0 byte... 我感觉我可能需要重新编译一下了...

几个位置都有,且都是0byte?
我看了下我的,只在/var/run/munge有,srwxrwxrwx权限,0byte。muinge应该是正常在跑的,看看slurm是不是你安的slurm吧,可能除了手编译的以外还从apt之类的地方下载过。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3