计算化学公社

 找回密码 Forget password
 注册 Register
Views: 7962|回复 Reply: 4
打印 Print 上一主题 Last thread 下一主题 Next thread

[任务提交/队列管理] PBS提交任务后一直处于等待状态

[复制链接 Copy URL]

306

帖子

0

威望

4869

eV
积分
5175

Level 6 (一方通行)

跳转到指定楼层 Go to specific reply
楼主
本帖最后由 mol 于 2019-4-27 16:39 编辑

各位老师好:

参考本论坛的帖子http://bbs.keinsci.com/thread-4547-1-1.html,以及https://blog.csdn.net/u012460749/article/details/78583026,和张鋆老师编的计算化学集群构建教程,配置好了一个集群:
NIS+NFS+Torque+Maui+mpiexec
安装了mpi版本的gmx2019.1

主节点和子节点防火墙也都关了,firewall-cmd --state显示not running
qnodes命令均显示free
然后qsub一个gmx作业测试,但是状态一直是Q:
  1. Job ID                    Name             User            Time Use S Queue
  2. ------------------------- ---------------- --------------- -------- - -----
  3. 9.compuchem                test1            chem                   0 Q batch
复制代码


qsub脚本如下:
  1. #!/bin/sh
  2. #PBS -l nodes=4:ppn=2
  3. #PBS -q batch
  4. #PBS -j oe
  5. #PBS -N test1
  6. gmx_mpi grompp -f md.mdp -c mini.gro -p test.top -o md.tpr
  7. mpiexec gmx_mpi mdrun -s md.tpr -deffnm md > test.log
复制代码



checkjob 作业id显示:
  1. ERROR:    'checkjob' failed
  2. ERROR:  cannot locate job '9'
复制代码

tracejob 作业id显示:
  1. /var/spool/torque/server_priv/accounting/20190425: Permission denied
  2. /var/spool/torque/mom_logs/20190425: No matching job records located
  3. /var/spool/torque/sched_logs/20190425: No such file or directory

  4. Job: 10.compuchem

  5. 04/25/2019 13:19:49.968 S    enqueuing into batch, state 1 hop 1
复制代码




请各位指教有可能是哪儿出问题了,多谢!

306

帖子

0

威望

4869

eV
积分
5175

Level 6 (一方通行)

5#
 楼主 Author| 发表于 Post on 2020-5-27 09:40:10 | 只看该作者 Only view this author
xuhj199508 发表于 2020-5-27 09:33
你好,我的集群最近意外断电重启后也出现了提交任务一直处于排队状态的的问题,用了tracejob显示如上, ...

哎呀,当时没记录。。。现在也想不起来了。。。后悔死了

104

帖子

0

威望

2867

eV
积分
2971

Level 5 (御坂)

Yukikaze

4#
发表于 Post on 2020-5-27 09:33:59 | 只看该作者 Only view this author
mol 发表于 2019-4-27 16:40
问题解决了,谢谢各位老师。
  1. /var/spool/torque/mom_logs/20200527: No matching job records located
  2. /var/spool/torque/sched_logs/20200527: No such file or directory

  3. Job: 15084.master

  4. 05/27/2020 09:21:33  S    enqueuing into batch, state 1 hop 1
  5. 05/27/2020 09:21:33  S    Job Run at request of root@master
  6. 05/27/2020 09:21:33  A    queue=batch
  7. 05/27/2020 09:21:36  S    unable to run job, MOM rejected/timeout
  8. 05/27/2020 09:21:36  S    unable to run job, send to MOM '10.10.18.194' failed
复制代码

你好,我的集群最近意外断电重启后也出现了提交任务一直处于排队状态的的问题,用了tracejob显示如上,请问你当时是如何解决这一问题的?

93

帖子

0

威望

415

eV
积分
508

Level 4 (黑子)

3#
发表于 Post on 2019-5-22 10:09:31 | 只看该作者 Only view this author
mol 发表于 2019-4-27 16:40
问题解决了,谢谢各位老师。

你好,请问你是怎么解决的?

306

帖子

0

威望

4869

eV
积分
5175

Level 6 (一方通行)

2#
 楼主 Author| 发表于 Post on 2019-4-27 16:40:09 | 只看该作者 Only view this author
问题解决了,谢谢各位老师。

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-24 00:16 , Processed in 0.178477 second(s), 22 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list