计算化学公社
标题: 集群上CP2K OMP跨节点并行出错 [打印本页]
作者Author: zhou9527 时间: 2021-10-21 09:48
标题: 集群上CP2K OMP跨节点并行出错
各位老师、同学,大家好!我在集群上编译好了CP2K-7.1,因为之前编译的6.1版本在使用杂化泛函计算一直会报错,提示libint的问题,在google group上发现别人也有类似的问题,然后并没有有效的解决方案。但是,用7.1可以顺利计算(ps: 在自己本地的机器有安装好的7.1版本),所以新编译了7.1版本。然后CP2K用得是GNU+OMP版本,在集群上不跨节点的时候任务能正常运行,请求多节点并行运算就会报错。以前用得是intel编译的6.1,可以正常的跨节点运算,但是新编译的OMP跨节点却不行。集群的管理员也不清楚,所以希望能够请教各位老师、同学,十分感谢。任务提交上去后,并不会被kill掉,只是out文件一直没有输出,然后在error文件中提示如图信息:
(, 下载次数 Times of downloads: 20)
我以为是线程的问题,也切换过psmp的版本,然后用和节点一样的线程,发现也会报相应的错误。这里,附上我的任务提交脚本:(ps: popt的时候OMP_THREADS_NUM=1,我用psmp版本的时候1和2都试过,报错信息都是一致的)
(, 下载次数 Times of downloads: 22)
最后,真心希望各位老师能够不吝赐教,谢谢哦!!!!
作者Author: abin 时间: 2021-10-21 11:04
集群是100G IB网。
你当前的设定是,在以太网模式下使用IB,
结论是,带宽高,但是延时和以太网一样,十分慢。
我应该可以搞定……
通过签名联系我。
不是修改一两行脚本就能搞定的。
作者Author: zhou9527 时间: 2021-10-21 11:22
嗯嗯,您说的这些,我都不懂0.0,方便私聊您吗
| 欢迎光临 计算化学公社 (http://bbs.keinsci.com/) |
Powered by Discuz! X3.3 |