计算化学公社

 找回密码 Forget password
 注册 Register
Views: 5695|回复 Reply: 2
打印 Print 上一主题 Last thread 下一主题 Next thread

[任务提交/队列管理] Torque在意外断电之后无法自动运行队列中的任务

[复制链接 Copy URL]

451

帖子

9

威望

6043

eV
积分
6674

Level 6 (一方通行)

BSJ Institute

我在自己的机器(Ubuntu系统)上安装了单节点Torque,并成功实现了排队功能,提交任务后不需人为干预就能自动分配资源执行任务。但一次意外断电(此时队列中尚有未完成的任务),重启后发现只能用qrun强制执行才能让队列中的任务开始运行了。后续新提交的任务也无法自动运行。尝试重启Torque相关服务无效。求解决方法。

81

帖子

0

威望

1024

eV
积分
1105

Level 4 (黑子)

2#
发表于 Post on 2017-9-28 16:15:44 | 只看该作者 Only view this author
检查pbs_sched 进程是否启动

451

帖子

9

威望

6043

eV
积分
6674

Level 6 (一方通行)

BSJ Institute

3#
 楼主 Author| 发表于 Post on 2017-10-8 20:08:07 | 只看该作者 Only view this author
根据ls的方法解决了这一问题。但是服务器重启之后就有了新的问题,节点信息好像丢失了一样,显示节点数为0.我把Torque卸掉重装了一次,并按照http://www.mamicode.com/info-detail-874473.html的方法配置,但是在qmgr一步遇到了图中的报错。 请问这要如何解决?

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-27 07:40 , Processed in 0.176476 second(s), 24 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list