计算化学公社

标题: torque计算节点pbs_mom 启动不了 [打印本页]

作者
Author:
didi_dudu    时间: 2016-1-22 11:47
标题: torque计算节点pbs_mom 启动不了
Starting TORQUE Mom: pbs_mom: LOG_ERROR::No locks available (37) in pbs_mom, cannot lock '/opt/tsce/share/cu07/mom_priv/mom.lock' - another mom running
cannot lock '/opt/tsce/share/cu07/mom_priv/mom.lock' - another mom running
                                                           [FAILED]
================================================================
求助 之前集群都用的好好的,突然有一次断电重启之后,其中一个节点就出现这个情况了。这是什么原因呢?google查询过说什么和qnoded冲突。我把qnoded删掉之后重启计算节点,还是依然有这个问题。暂时我就没查到其他解决办法了。有没有谁知道的能给点建议啊?谢谢!


作者
Author:
didi_dudu    时间: 2016-1-22 16:43
后来发现把计算节点中某个同学算的gauss的tmp文件删除掉之后。。。。节点的pbs_mom就能启动了。。。还是不晓得原因是为什么
作者
Author:
zin    时间: 2021-7-31 12:20
Thanks. I found it. nfslock was turned off on the master node. All the nodes were fine. Someone chkconfig'd nfslock off on the master.
https://torqueusers.supercluster ... s-problems-starting

打开服务就好了 systemctl start nfslock.service  
作者
Author:
thorium    时间: 2023-11-17 17:38
今天遇到了同样的症状,baidu里第一个帖子就是这个,但没能解决我的问题。
后来我发现是计算节点硬盘满了,Gaussian在/tmp里留下一个巨大的文件,删掉就好了。
同时写了一个脚本,检查一下计算节点的磁盘空间,快满了删/tmp/*,添加到crontab每小时运行一次。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3