计算化学公社

标题: 求助CP2K计算时核数用多了中途会卡住 [打印本页]

作者
Author:
supersrh    时间: 2025-8-31 22:34
标题: 求助CP2K计算时核数用多了中途会卡住
本帖最后由 supersrh 于 2025-9-1 15:11 编辑

最近在做一些GEO_OPT或者CELL_OPT时,时不时会遇到以下情形:
在若干次优化后,out文件输出EXTRAPOLATION METHOD:initial_guess 之后就不动了,用top命令检查cpu发现cpu都在跑cp2k.psmp程序,这种状态会一直持续下去。用scancel命令杀掉任务后,再次提交(把.inp文件改为.restart),计算是可以继续的。然后经过几次优化循环后可能又会卡住,必须手动杀掉任务再提交restart。小的胞算得快,可以人工盯着,大的胞就有点无能为力了。
经过测试发现这种卡住的情况和sbatch任务提交是的核数n有关系,刚刚测了一个任务是n为80时会不停出现卡住,但是可以人工杀任务重启使计算全部结束。而n调成72,64时,出现cpassert failed,无法继续计算。而把n调成60,程序能全部顺利跑完,没有出现卡住的情况。这个n到底该取多少也是很玄学。
有没有大神能够给解答一下。是否可以从根源上解决这个问题,如果不行的话是否可以用一个监控程序自动杀掉任务提交restart


根据下面老师的回答做了一些测试,无论改成popt模式,还是定义OMP_NUM_THREADS,还是没有解决问题。
附上inp文件
(, 下载次数 Times of downloads: 1)

sbatch提交脚本如下:
#!/bin/bash
#SBATCH -n 80
#SBATCH -N 1

export OMP_NUM_THREADS=1

module load CP2K/2024.1-gnu

mpirun cp2k.psmp  Usupercelltest.inp  > Usupercelltest.out 2> Usupercelltest.err


作者
Author:
Stardust0831    时间: 2025-9-1 00:54
本帖最后由 Stardust0831 于 2025-9-1 00:56 编辑

正常来说应该是首选cp2k的popt版本才对。只有内存吃紧,或者需要用DFT-D4这种特定的并行方式特殊的功能的时候才有考虑psmp版本。
确保正确设置了psmp版本的并行线程和进程数。线程数*进程数需要小于等于任务可以用的核数。
作者
Author:
sobereva    时间: 2025-9-1 07:04
不要自己在标题里手写【求助】这种碍眼的标签,http://bbs.keinsci.com/thread-9348-1-1.html里明确说了。这次给你改了,以后注意
作者
Author:
sobereva    时间: 2025-9-1 07:25
用psmp版最常犯的错误是不知道要设OMP_NUM_THREADS
作者
Author:
supersrh    时间: 2025-9-1 12:42
sobereva 发表于 2025-9-1 07:04
不要自己在标题里手写【求助】这种碍眼的标签,http://bbs.keinsci.com/thread-9348-1-1.html里明确说了。 ...

好的老师
作者
Author:
supersrh    时间: 2025-9-1 12:44
Stardust0831 发表于 2025-9-1 00:54
正常来说应该是首选cp2k的popt版本才对。只有内存吃紧,或者需要用DFT-D4这种特定的并行方式特殊的功能的时 ...

谢谢,装机的人给我的sbatch例子里就用的psmp,以前没注意过psmp和popt的差别,我再多尝试下
作者
Author:
supersrh    时间: 2025-9-1 12:45
sobereva 发表于 2025-9-1 07:25
用psmp版最常犯的错误是不知道要设OMP_NUM_THREADS

好的老师,我再试一下
作者
Author:
supersrh    时间: 2025-9-1 15:11
sobereva 发表于 2025-9-1 07:25
用psmp版最常犯的错误是不知道要设OMP_NUM_THREADS

老师,我上传了inp文件和sbatch的提交脚本,能再看看吗?
作者
Author:
reid    时间: 2025-9-1 16:18
请问你解决了没有?我是近一周才碰上这个问题,原来没事的。
作者
Author:
徐帅气    时间: 2025-9-2 09:10
我之前跑第一性原理培训班的石墨晶胞优化的时候也遇到这个问题,按照卢天老师的PPT一条条的尝试,调参数什么的都没用,每次续算比起VASP又太麻烦,本不该这样嘛。最后请超算的工程师给我了所有版本的cp2k调用脚本,试了一圈发现9.1版本的cp2k能完整跑完整个案例了。
作者
Author:
sobereva    时间: 2025-9-2 09:27
supersrh 发表于 2025-9-1 15:11
老师,我上传了inp文件和sbatch的提交脚本,能再看看吗?

北京科音CP2K第一性原理计算培训班(http://www.keinsci.com/KFP)里面我专门讲了
(, 下载次数 Times of downloads: 1)

作者
Author:
supersrh    时间: 2025-9-7 19:52
reid 发表于 2025-9-1 16:18
请问你解决了没有?我是近一周才碰上这个问题,原来没事的。

我测试了好多参数,然后还和一个朋友讨论了,目前只知道降低核数可以避免
作者
Author:
supersrh    时间: 2025-9-7 19:54
sobereva 发表于 2025-9-2 09:27
北京科音CP2K第一性原理计算培训班(http://www.keinsci.com/KFP)里面我专门讲了

一定要找个时间来北京参加一下培训。其实这俩年都关注了,年初的班的时间我们都开学上课了来不了
作者
Author:
supersrh    时间: 2025-9-7 19:56
reid 发表于 2025-9-1 16:18
请问你解决了没有?我是近一周才碰上这个问题,原来没事的。

我也是最近遇到这个问题,我是在类似的结构的胞,但是元素变得更复杂的时候遇到的




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3