计算化学公社

标题: 集群上提交任务排队异常请问什么原因 [打印本页]

作者
Author:
万卷书万里路    时间: 2017-10-10 21:42
标题: 集群上提交任务排队异常请问什么原因
最近发现我的账号在集群上提交多个任务时只能运算第一个,从第二个开始就一直排队,即使当前集群上有很多空节点和足够多的内存,并且,第一个任务算完以后,第二个以及以后的那些在排队的仍然不会给算,还是在排队。
我试了下,如果我不管他们,他们会一直在排队,也不计算。但是我如果在第一个任务算完以后,再提交一个任务,这个新提交的就会给算;如果新提交多个任务,会发生同样的现象:只算这些任务中的第一个。其余仍然一直排队。所有计算输入文件均没有错误。
问了管理员你,都搞不清是什么原因,希望有老师和大神能指点下~
(为了便于理解,贴图说明)(在公社qq群里问过,但是没有回复,我觉得是我没贴图,没能让人理解)
十分感谢!


作者
Author:
limaolin0    时间: 2017-10-10 22:23
是不是和定义的队列属性有关?每个人每个群组每个队列至多能提交的任务数被限制了。
作者
Author:
bluewhale    时间: 2017-10-11 08:28
安装了maui吗? Torque版本?
作者
Author:
abdoman    时间: 2017-10-11 08:59
是不是设置了你的帐户属性不对。比如每次只能有1个running job。
作者
Author:
kyuu    时间: 2017-10-16 09:43
  系统里有一个queueing formula,管理员有实力可以改,另计划任务是有预见性的,需要在一定周期内达到资源可足够分配才能分配资源,这不意味着你所看到资源可用即可分配

作者
Author:
万卷书万里路    时间: 2017-10-16 20:39
谢谢各位老师的回复!
我观察了这几天, 却又有的时候可以跑3、4个任务,有的时候只能跑一个,也不是账户属性的设置,可能是kyuu老师说的“不一定看到的资源可用即可分配”
作者
Author:
kyuu    时间: 2017-10-16 23:04
本帖最后由 kyuu 于 2017-10-16 23:12 编辑
万卷书万里路 发表于 2017-10-16 20:39
谢谢各位老师的回复!
我观察了这几天, 却又有的时候可以跑3、4个任务,有的时候只能跑一个,也不是账户属 ...

影响排队时间的几个主要因子:节点数、CPU核数、wall time、GPU数量、内存,
你把任务的size缩小,一定能快速排上队,如果只是为了测试任务脚本,1,用一到两个cpu,wall time别设几百个小时,几个小时即可, 2,使用互动模式, 3, 如果任务足够快,几分钟内可结束,登录节点直接算没问题(尽量使用2),一定要学会合理的预估计算资源规模,有利于减少排队时间
作者
Author:
万卷书万里路    时间: 2017-10-17 09:05
kyuu 发表于 2017-10-16 23:04
影响排队时间的几个主要因子:节点数、CPU核数、wall time、GPU数量、内存,
你把任务的size缩小,一定 ...

好的,学到啦谢谢老师!




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3