计算化学公社

标题: PBS提交任务后一直处于等待状态 [打印本页]

作者
Author:
mol    时间: 2019-4-25 11:21
标题: PBS提交任务后一直处于等待状态
本帖最后由 mol 于 2019-4-27 16:39 编辑

各位老师好:

参考本论坛的帖子http://bbs.keinsci.com/thread-4547-1-1.html,以及https://blog.csdn.net/u012460749/article/details/78583026,和张鋆老师编的计算化学集群构建教程,配置好了一个集群:
NIS+NFS+Torque+Maui+mpiexec
安装了mpi版本的gmx2019.1

主节点和子节点防火墙也都关了,firewall-cmd --state显示not running
qnodes命令均显示free
然后qsub一个gmx作业测试,但是状态一直是Q:
  1. Job ID                    Name             User            Time Use S Queue
  2. ------------------------- ---------------- --------------- -------- - -----
  3. 9.compuchem                test1            chem                   0 Q batch
复制代码


qsub脚本如下:
  1. #!/bin/sh
  2. #PBS -l nodes=4:ppn=2
  3. #PBS -q batch
  4. #PBS -j oe
  5. #PBS -N test1
  6. gmx_mpi grompp -f md.mdp -c mini.gro -p test.top -o md.tpr
  7. mpiexec gmx_mpi mdrun -s md.tpr -deffnm md > test.log
复制代码



checkjob 作业id显示:
  1. ERROR:    'checkjob' failed
  2. ERROR:  cannot locate job '9'
复制代码

tracejob 作业id显示:
  1. /var/spool/torque/server_priv/accounting/20190425: Permission denied
  2. /var/spool/torque/mom_logs/20190425: No matching job records located
  3. /var/spool/torque/sched_logs/20190425: No such file or directory

  4. Job: 10.compuchem

  5. 04/25/2019 13:19:49.968 S    enqueuing into batch, state 1 hop 1
复制代码




请各位指教有可能是哪儿出问题了,多谢!

作者
Author:
mol    时间: 2019-4-27 16:40
问题解决了,谢谢各位老师。
作者
Author:
最爱喵星人    时间: 2019-5-22 10:09
mol 发表于 2019-4-27 16:40
问题解决了,谢谢各位老师。

你好,请问你是怎么解决的?
作者
Author:
xuhj199508    时间: 2020-5-27 09:33
mol 发表于 2019-4-27 16:40
问题解决了,谢谢各位老师。
  1. /var/spool/torque/mom_logs/20200527: No matching job records located
  2. /var/spool/torque/sched_logs/20200527: No such file or directory

  3. Job: 15084.master

  4. 05/27/2020 09:21:33  S    enqueuing into batch, state 1 hop 1
  5. 05/27/2020 09:21:33  S    Job Run at request of root@master
  6. 05/27/2020 09:21:33  A    queue=batch
  7. 05/27/2020 09:21:36  S    unable to run job, MOM rejected/timeout
  8. 05/27/2020 09:21:36  S    unable to run job, send to MOM '10.10.18.194' failed
复制代码

你好,我的集群最近意外断电重启后也出现了提交任务一直处于排队状态的的问题,用了tracejob显示如上,请问你当时是如何解决这一问题的?
作者
Author:
mol    时间: 2020-5-27 09:40
xuhj199508 发表于 2020-5-27 09:33
你好,我的集群最近意外断电重启后也出现了提交任务一直处于排队状态的的问题,用了tracejob显示如上, ...

哎呀,当时没记录。。。现在也想不起来了。。。后悔死了




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3