计算化学公社

标题: 求助:重复购买资料中截断能收敛性测试实例时调用MPI并行出错 [打印本页]

作者
Author:
dahai7719    时间: 2024-5-25 16:49
标题: 求助:重复购买资料中截断能收敛性测试实例时调用MPI并行出错
卢老师和各位大神您们好,我是购买CP2K资料自学,在重复截断能收敛性测试实例(用cutconv.sh 和 relconv.sh两个脚本测试资料文件SP\convtest\SiC_cutconv\下的cutconv.inp时),MPI无法调用,显示:
MPI_ABORT was invoked on rank 0 in communicator MPI_COMM_WORLDwith errorcode 1.

NOTE: invoking MPI_ABORT causes Open MPI to kill all MPI processes.
You may or may not see output from other processes, depending on
exactly when Open MPI kills them.

我用的是Rocky9.3,  最大核数32核,每个任务用8核跑,(nproc_per_calc=8 ;nproc_to_use=32 )这个设置对做K点收敛性(脚本kpconv.sh测试K点输入文件)的时候都没有问题,但是做这个cutoff 收敛性测试就会出这样的错误,没有搜到相关的针对性的解决办法,望老师指点,谢谢!




作者
Author:
dahai7719    时间: 2024-5-25 21:53
老师这个问题解决了,就是把原来输入文件里面的 MAX_SCF 1 改为128就可以,如果用比较小的1 或者2,3 都会出现同样的错误,按道理来说做SCF的轮数不应该对并行核数的调用产生直接影响,但是确实就是不行,想不通是什么逻辑,还望老师能够解惑,谢谢!
作者
Author:
Graphite    时间: 2024-5-25 23:02
这个纯粹是并行编程的问题,进程间负载不均衡、数据不同步等都有可能造成。SCF计算的任务分解也不止一种方式。对于小任务最简单的办法是减少核数或增加SCF圈数,拉长总计算时间,使各个进程负载均衡、通信一致。
作者
Author:
sobereva    时间: 2024-5-26 04:33
我这里用的时候没有发现过此问题。看输出文件里其它信息判断。如果并行环境正常、脚本用法正确的话,原理上MAX_SCF不会产生这种影响。
作者
Author:
dahai7719    时间: 2024-5-26 07:49
Graphite 发表于 2024-5-25 23:02
这个纯粹是并行编程的问题,进程间负载不均衡、数据不同步等都有可能造成。SCF计算的任务分解也不止一种方 ...

谢谢解惑!
作者
Author:
dahai7719    时间: 2024-5-26 07:50
sobereva 发表于 2024-5-26 04:33
我这里用的时候没有发现过此问题。看输出文件里其它信息判断。如果并行环境正常、脚本用法正确的话,原理上 ...

谢谢老师解惑!
作者
Author:
spinel    时间: 2025-1-3 10:02
dahai7719 发表于 2024-5-25 21:53
老师这个问题解决了,就是把原来输入文件里面的 MAX_SCF 1 改为128就可以,如果用比较小的1 或者2,3 都会 ...

感谢大佬,我也遇到了相同的问题,改为128后已经正常运行
作者
Author:
spinel    时间: 2025-1-3 23:59
请问各位老师,我也是在运行这个阶段能收敛性测试脚本的时候,脚本成功运行完成了每个文件夹中的inp文件,但是最后无法成功输出CUTOFF.txt,报错如图,请问各位知道如何解决吗?
作者
Author:
sobereva    时间: 2025-1-4 02:19
遇到问题的,在&SCF里加上IGNORE_CONVERGENCE_FAILURE T,否则对于较新CP2K版本,到达MAX_SCF时如果没收敛就会报错
作者
Author:
sobereva    时间: 2025-1-4 02:20
spinel 发表于 2025-1-3 23:59
请问各位老师,我也是在运行这个阶段能收敛性测试脚本的时候,脚本成功运行完成了每个文件夹中的inp文件, ...

凭这些无法判断。先确保按我9L说的做了,并且确保能正常运行培训里的SiC的CUTOFF收敛性测试。如果我的例子都可以,去检查你的测试里的out文件末尾看是否有什么异常




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3