计算化学公社

标题: 求助 最近一直出现这个问题 老是自动停止任务了 [打印本页]

作者
Author:
萧瑟    时间: 2021-6-26 21:30
标题: 求助 最近一直出现这个问题 老是自动停止任务了
本帖最后由 萧瑟 于 2025-3-20 16:09 编辑

Program received signal SIGSEGV: Segmentation fault - invalid memory reference.
Backtrace for this error:
#31  0x560f1df42f7e in main
        at ~/task/cp2k/src/start/cp2k.F:44
--------------------------------------------------------------------------
Primary job  terminated normally, but 1 process returned
a non-zero exit code. Per user-direction, the job has been aborted.
--------------------------------------------------------------------------
--------------------------------------------------------------------------
mpirun noticed that process rank 0 with PID 0 on node xxxxx exited on signal 11 (Segmentation fault).

一般来看这个问题还是有很多同学会碰到,我会把一些经验及收集到的信息在此贴不定期更新,希望能帮助到大家。
最初遇到这个问题是初次接触理论计算,服务器和CP2K,一些问题没有注意
1)服务器本身内存受限。和运行游戏一样,不同体量的程序运行需要的内存大小都不一样,如果硬件不满足自然会崩溃出错;
2)下楼有大佬指出某些版本的openMPI(IntelMPI)可能会存在持续占用内存直到内存爆掉然后停止任务,更换版本也是一种解决办法;
3)对于振动分析、过渡态搜索等任务需要分一个或多个任务(副本)同时进行计算的,副本数越多所需内存也越大,可以把副本数减少一些,以降低内存占用的压力;



作者
Author:
萧瑟    时间: 2021-6-26 21:32
本帖最后由 萧瑟 于 2021-6-26 21:40 编辑

服务器上监测  内存的使用率快速增加到2/3 任务就停了  不知道是什么问题   
作者
Author:
abin    时间: 2021-6-27 15:29
这玩意叫做“MPI内存爆浆”。

有没有100%用官方推荐的方案? 我指的是toolchain。
作者
Author:
萧瑟    时间: 2021-6-27 15:34
abin 发表于 2021-6-27 15:29
这玩意叫做“MPI内存爆浆”。

有没有100%用官方推荐的方案? 我指的是toolchain。

基本是按 sob老师的博文 使用的toolchain   遇到的一些问题就是SIRIUS 没有装
作者
Author:
萧瑟    时间: 2021-6-27 15:34
abin 发表于 2021-6-27 15:29
这玩意叫做“MPI内存爆浆”。

有没有100%用官方推荐的方案? 我指的是toolchain。

请问要怎么解决?

作者
Author:
abin    时间: 2021-6-27 16:47
萧瑟 发表于 2021-6-27 15:34
请问要怎么解决?

使用7.1试试。

或者给我你的输入文件,我用我的版本试试。

你的机器什么配置,跑了多久出现的问题。

如果你认为编译没有问题,就是github发issue。


作者
Author:
萧瑟    时间: 2021-6-27 17:24
abin 发表于 2021-6-27 16:47
使用7.1试试。

或者给我你的输入文件,我用我的版本试试。

输入文件放在2楼   机器比较一般  12核v2690的cpu  内存16
作者
Author:
abin    时间: 2021-6-27 17:29
萧瑟 发表于 2021-6-27 17:24
输入文件放在2楼   机器比较一般  12核v2690的cpu  内存16

Send the input file to hpc4you@163.com.

And make clear how to run this calculation.


作者
Author:
孙小莫    时间: 2021-11-18 10:03
萧瑟 发表于 2021-6-27 17:24
输入文件放在2楼   机器比较一般  12核v2690的cpu  内存16

楼主解决了吗?我也遇到同样的问题
作者
Author:
萧瑟    时间: 2021-11-22 09:49
孙小莫 发表于 2021-11-18 10:03
楼主解决了吗?我也遇到同样的问题

好像是内存不够用了,我之前一直在摸索,所以算了很多失败的例子   每次都会生成一个很大的 .kp 文件很占内存,清理一下就好了
作者
Author:
孙小莫    时间: 2021-11-22 11:00
萧瑟 发表于 2021-11-22 09:49
好像是内存不够用了,我之前一直在摸索,所以算了很多失败的例子   每次都会生成一个很大的 .kp 文件很占 ...

感谢楼主应答,我也经过一段时间摸索,感觉像是系统的mpi和cp2k的mpi没有匹配,在单核计算时就完全没有这个情况
作者
Author:
Weldingspock    时间: 2023-4-26 19:26
孙小莫 发表于 2021-11-22 11:00
感谢楼主应答,我也经过一段时间摸索,感觉像是系统的mpi和cp2k的mpi没有匹配,在单核计算时就完全没有这 ...

那请问怎么解决的呢
作者
Author:
DoorBell    时间: 2023-4-26 20:12
萧瑟 发表于 2021-11-22 09:49
好像是内存不够用了,我之前一直在摸索,所以算了很多失败的例子   每次都会生成一个很大的 .kp 文件很占 ...

注意区分“内存”和“硬盘”
作者
Author:
DoorBell    时间: 2023-4-26 20:16
CP2K搭配某些特定版本的MPI时会有内存泄漏问题,表现就是内存占用量越来越大直到内存爆掉程序停止运行。解决办法是换一个版本的MPI。一般来说如果是同一种MPI(Intel MPI/OpenMPI)换版本不需要重新编译,只要弄好MPI的环境即可
作者
Author:
萧瑟    时间: 2023-4-27 13:03
DoorBell 发表于 2023-4-26 20:16
CP2K搭配某些特定版本的MPI时会有内存泄漏问题,表现就是内存占用量越来越大直到内存爆掉程序停止运行。解 ...

了解,谢谢老师
作者
Author:
chen0201    时间: 2023-6-10 09:23
萧瑟 发表于 2021-11-22 09:49
好像是内存不够用了,我之前一直在摸索,所以算了很多失败的例子   每次都会生成一个很大的 .kp 文件很占 ...

请问楼主,我没有生成.kp的文件诶,但是仍然显示同样的失败,请问这个怎么回事呢
作者
Author:
leeru    时间: 2023-6-10 12:42
我以前在用cp2k跑MD时经常出现这个问题,最后发现解决内存溢出比较好的方案就是采用docker转singularity方案,后面就再没出现过内存溢出的问题了
作者
Author:
萧瑟    时间: 2023-6-12 10:11
chen0201 发表于 2023-6-10 09:23
请问楼主,我没有生成.kp的文件诶,但是仍然显示同样的失败,请问这个怎么回事呢

用到K点的时候才会生成.kp文件,不加k点的话是生成.wfn文件  本质都是波函数文件。至于你说的显示失败的话,可能也是内存不够了  任务才会自动被杀,如果不是关键词设置出问题了  那大概率是设备配置跟不上吧
作者
Author:
chen0201    时间: 2023-6-19 09:07
萧瑟 发表于 2023-6-12 10:11
用到K点的时候才会生成.kp文件,不加k点的话是生成.wfn文件  本质都是波函数文件。至于你说的显示失败的 ...

好的,谢谢您的回复
作者
Author:
zhangtp    时间: 2024-9-30 15:42
leeru 发表于 2023-6-10 12:42
我以前在用cp2k跑MD时经常出现这个问题,最后发现解决内存溢出比较好的方案就是采用docker转singularity方 ...

请问可以教一下这个怎么操作吗?我现在算cp2k也碰到了这个问题

作者
Author:
kytc    时间: 2025-3-20 11:11
请问楼主您解决这个问题了吗?
作者
Author:
萧瑟    时间: 2025-3-20 15:51
kytc 发表于 2025-3-20 11:11
请问楼主您解决这个问题了吗?

最有效的解决办法  租个服务器#doge,估计要么是自身计算配置过低  内存本身就不支持多大体系任务运算,自然出问题,这个和一般的电脑应用程序同时打开的多了 卡死或者蓝屏差不多。还有就是MPI并行的问题了,前面有大佬提过  你尝试换个MPI的版本吧

作者
Author:
kytc    时间: 2025-3-20 18:19
萧瑟 发表于 2025-3-20 15:51
最有效的解决办法  租个服务器#doge,估计要么是自身计算配置过低  内存本身就不支持多大体系任务运算, ...

感谢您的回复,刚才试了换mpi版本确实好了
作者
Author:
kytc    时间: 2025-3-20 18:22
DoorBell 发表于 2023-4-26 20:16
CP2K搭配某些特定版本的MPI时会有内存泄漏问题,表现就是内存占用量越来越大直到内存爆掉程序停止运行。解 ...

感谢老师您的建议,换了MPI版本后正常运行了




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3