zorow 发表于 2023-11-16 20:44 几个位置都有,且都是0byte? 我看了下我的,只在/var/run/munge有,srwxrwxrwx权限,0byte。muinge应该是正常在跑的,看看slurm是不是你安的slurm吧,可能除了手编译的以外还从apt之类的地方下载过。 |
啊不错的飞过海 发表于 2023-11-16 15:00 发现有是有,但是都是0 byte... 我感觉我可能需要重新编译一下了... ![]() |
乐平 发表于 2023-11-16 10:36 我的系统是Rocky linux9.2, 感觉装slurm方便一点,毛病也少不少。要不你换个系统试一试 |
zorow 发表于 2023-11-16 14:51 是/var/run/munge底下没有,/var/munge/run/munge底下没有,还是find / -name "munge.socket.2"都找不见? munge运行着没死就应该会有这个socket,可能是你的/usr/sbin的这个没放在常见位置。 以及,slurm依赖munge,重装munge的话最好把slurm也重编译一遍。我个人建议还是找找socket看。 |
啊不错的飞过海 发表于 2023-11-16 14:48 我找了一下发现这个socket.2的文件没有了... 我需要重新安装munge或者slurm吗 ![]() |
zorow 发表于 2023-11-15 22:15 看看slurmctld/slurmd跑没跑起来? 以及munge默认的socket目录应该是/var/run/munge,可以看一下munge.socket.2在不在。你的slurm报/var/munge/run/munge底下没有munge.socket.2,可能slurm依赖的munge和现在跑着的不是一个? |
开SSH, 我来看看? (有偿). |
Weldingspock 发表于 2023-11-16 09:59 我之前在自己的小工作站(Ubuntu 22.04 系统)安装过 slurm,没有安装 munge 最开始还挺正常的,暑假关机了之后就发现 slurm 的状态变成 strain 按照你说的 systemctl restart slurmctld systemctl resatrt slurmd scontrol update nodename=master(master 是我的工作站的名称) 没效果 卸载 slurm 然后重装,依旧是 strain,很诡异…… |
systemctl resart munge systemctl restart slurmctld systemctl resatrt slurmd scontrol update nodename=master mater换成自己的节点名称 |
如果所描述的都是真实情况的话…… 那就见鬼了…… 就一台机器,也不涉及多个机器时间同步的问题…… |
abin 发表于 2023-11-15 21:28 感谢abin老师,系统时间没回到过去 |
zorow 发表于 2023-11-15 21:21 abin老师讲的也是个情况,时间不对的话munge间通信会出问题;不过这里报不存在munge.socket.2应该和时间无关?也可以看看。 一个可能是/usr/sbin的这个munged默认不把socket放在/var而是放在/usr/var之类的地方,但这个设置随slurm的编译是传递的,换句话说slurm编译时如果链接的是这个munge的话应该不会有找不到munge.socket的问题,ps -aux |grep slurmctld查查slurm路径看看。 还有就是可能munge启动有问题?systemctl status munge.service看看,不过楼主的munge不一定是走服务启动起来的。 |
机器时间有没有回到过去? |
手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图
GMT+8, 2025-8-13 12:20 , Processed in 1.889905 second(s), 25 queries , Gzip On.