计算化学公社

 找回密码 Forget password
 注册 Register
Views: 7619|回复 Reply: 7
打印 Print 上一主题 Last thread 下一主题 Next thread

[任务提交/队列管理] 集群上提交任务排队异常请问什么原因

[复制链接 Copy URL]

255

帖子

0

威望

2370

eV
积分
2625

Level 5 (御坂)

最近发现我的账号在集群上提交多个任务时只能运算第一个,从第二个开始就一直排队,即使当前集群上有很多空节点和足够多的内存,并且,第一个任务算完以后,第二个以及以后的那些在排队的仍然不会给算,还是在排队。
我试了下,如果我不管他们,他们会一直在排队,也不计算。但是我如果在第一个任务算完以后,再提交一个任务,这个新提交的就会给算;如果新提交多个任务,会发生同样的现象:只算这些任务中的第一个。其余仍然一直排队。所有计算输入文件均没有错误。
问了管理员你,都搞不清是什么原因,希望有老师和大神能指点下~
(为了便于理解,贴图说明)(在公社qq群里问过,但是没有回复,我觉得是我没贴图,没能让人理解)
十分感谢!

1-1.jpg (94.29 KB, 下载次数 Times of downloads: 78)

提交第一批任务

提交第一批任务

2.jpg (97.05 KB, 下载次数 Times of downloads: 85)

查询集群上空余节点

查询集群上空余节点

3-1.jpg (77.73 KB, 下载次数 Times of downloads: 69)

第一个算完了,其余仍然排队,不能接上

第一个算完了,其余仍然排队,不能接上

4-1.jpg (94.83 KB, 下载次数 Times of downloads: 69)

之后立刻提交第二批,只有第一个能算

之后立刻提交第二批,只有第一个能算

54

帖子

3

威望

9428

eV
积分
9542

Level 6 (一方通行)

2#
发表于 Post on 2017-10-10 22:23:24 | 只看该作者 Only view this author
是不是和定义的队列属性有关?每个人每个群组每个队列至多能提交的任务数被限制了。

174

帖子

0

威望

5199

eV
积分
5373

Level 6 (一方通行)

3#
发表于 Post on 2017-10-11 08:28:07 | 只看该作者 Only view this author
安装了maui吗? Torque版本?

212

帖子

1

威望

2306

eV
积分
2538

Level 5 (御坂)

4#
发表于 Post on 2017-10-11 08:59:33 | 只看该作者 Only view this author
是不是设置了你的帐户属性不对。比如每次只能有1个running job。

357

帖子

0

威望

2069

eV
积分
2426

Level 5 (御坂)

真 掘墓者

5#
发表于 Post on 2017-10-16 09:43:56 | 只看该作者 Only view this author
  系统里有一个queueing formula,管理员有实力可以改,另计划任务是有预见性的,需要在一定周期内达到资源可足够分配才能分配资源,这不意味着你所看到资源可用即可分配
圣诞刨坟忙

255

帖子

0

威望

2370

eV
积分
2625

Level 5 (御坂)

6#
 楼主 Author| 发表于 Post on 2017-10-16 20:39:29 | 只看该作者 Only view this author
谢谢各位老师的回复!
我观察了这几天, 却又有的时候可以跑3、4个任务,有的时候只能跑一个,也不是账户属性的设置,可能是kyuu老师说的“不一定看到的资源可用即可分配”

357

帖子

0

威望

2069

eV
积分
2426

Level 5 (御坂)

真 掘墓者

7#
发表于 Post on 2017-10-16 23:04:23 | 只看该作者 Only view this author
本帖最后由 kyuu 于 2017-10-16 23:12 编辑
万卷书万里路 发表于 2017-10-16 20:39
谢谢各位老师的回复!
我观察了这几天, 却又有的时候可以跑3、4个任务,有的时候只能跑一个,也不是账户属 ...

影响排队时间的几个主要因子:节点数、CPU核数、wall time、GPU数量、内存,
你把任务的size缩小,一定能快速排上队,如果只是为了测试任务脚本,1,用一到两个cpu,wall time别设几百个小时,几个小时即可, 2,使用互动模式, 3, 如果任务足够快,几分钟内可结束,登录节点直接算没问题(尽量使用2),一定要学会合理的预估计算资源规模,有利于减少排队时间
圣诞刨坟忙

255

帖子

0

威望

2370

eV
积分
2625

Level 5 (御坂)

8#
 楼主 Author| 发表于 Post on 2017-10-17 09:05:58 | 只看该作者 Only view this author
kyuu 发表于 2017-10-16 23:04
影响排队时间的几个主要因子:节点数、CPU核数、wall time、GPU数量、内存,
你把任务的size缩小,一定 ...

好的,学到啦谢谢老师!

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-13 22:09 , Processed in 0.194741 second(s), 23 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list