计算化学公社

标题: 求助:VASP运行报错,段错误 [打印本页]

作者
Author:
ccduck    时间: 2023-6-29 10:17
标题: 求助:VASP运行报错,段错误
这里应该是使用openmpi,但是运行没一会儿报了段错误。

==== backtrace (tid: 122709) ====
0 0x000000000006de40 opal_mutex_unlock()  /root/jpsun/hpcx-v2.4.1.0-gcc-MLNX_OFED_LINUX-4.5-1.0.1.0-redhat7.6-x86_64/sources/openmpi-gitclone/ompi/mpi/c/profile/../../../../opal/threads/mutex_unix.h:158
1 0x000000000006de40 PMPI_Comm_size()  /root/jpsun/hpcx-v2.4.1.0-gcc-MLNX_OFED_LINUX-4.5-1.0.1.0-redhat7.6-x86_64/sources/openmpi-gitclone/ompi/mpi/c/profile/pcomm_size.c:63
2 0x0000000000029cd9 MKLMPI_Comm_size()  ???:0
3 0x0000000000027f71 mkl_blacs_init()  ???:0
4 0x0000000000027eb8 Cblacs_pinfo()  ???:0
5 0x00000000000187a5 blacs_gridmap_()  ???:0
6 0x000000000001817f blacs_gridinit_()  ???:0
7 0x0000000000498579 scala_mp_init_scala_desc_()  ???:0
8 0x0000000000478163 scala_mp_pdssyex_zheevx_()  ???:0
9 0x0000000000e25351 david_mp_eddav_()  ???:0
10 0x0000000000e9a622 elmin_()  ???:0
11 0x00000000018970aa vamp_IP_electronic_optimization_()  main.f90:0
12 0x0000000001871f52 MAIN__()  ???:0
13 0x0000000000415e0e main()  ???:0
14 0x00000000000223d5 __libc_start_main()  ???:0
15 0x0000000000415d29 _start()  ???:0
=================================
--------------------------------------------------------------------------
Primary job  terminated normally, but 1 process returned
a non-zero exit code. Per user-direction, the job has been aborted.
--------------------------------------------------------------------------
--------------------------------------------------------------------------
mpirun noticed that process rank 2 with PID 0 on node beegfsclient exited on signal 11 (Segmentation fault).


OUTVAR最后输出,不确定这样是否是运行完成。

--------------------------------------------------------------------------------------------------------

Maximum index for augmentation-charges         1364 (set IRDMAX)

--------------------------------------------------------------------------------------------------------


First call to EWALD:  gamma=   0.164
Maximum number of real-space cells 3x 3x 3
Maximum number of reciprocal cells 3x 3x 3

    FEWALD:  cpu time    0.0044: real time    0.0044

--------------------------------------- Iteration      1(   1)  ---------------------------------------

    POTLOK:  cpu time    0.0168: real time    0.0168
    SETDIJ:  cpu time    0.0119: real time    0.0119




作者
Author:
Weldingspock    时间: 2023-6-29 14:34
用intelmpi编译,这是没算完,第一个电子步就挂了
作者
Author:
ccduck    时间: 2023-6-29 17:54
Weldingspock 发表于 2023-6-29 14:34
用intelmpi编译,这是没算完,第一个电子步就挂了

谢谢您的回答,换成Intelmpi确实成功了。但是开始的时候会报这样的错,您知道为什么吗?
[1688032067.784353] [beegfsstorage:15652:0]         select.c:528  UCX  ERROR cannot add rma_bw lane - reached limit (6)
[1688032067.784356] [beegfsstorage:15653:0]         select.c:528  UCX  ERROR cannot add rma_bw lane - reached limit (6)

作者
Author:
Weldingspock    时间: 2023-6-29 18:08
ccduck 发表于 2023-6-29 17:54
谢谢您的回答,换成Intelmpi确实成功了。但是开始的时候会报这样的错,您知道为什么吗?
[1688032067.78 ...

这个报错我也没见过,计算能正常进行的话就不用管
作者
Author:
ccduck    时间: 2023-6-29 19:05
Weldingspock 发表于 2023-6-29 18:08
这个报错我也没见过,计算能正常进行的话就不用管

好的,谢谢啦
作者
Author:
lixz    时间: 2024-6-22 17:01
ccduck 发表于 2023-6-29 17:54
谢谢您的回答,换成Intelmpi确实成功了。但是开始的时候会报这样的错,您知道为什么吗?
[1688032067.78 ...

大哥,你好。我也是运行了一个作业,十几分钟了输出日志里面全是这个错误,不知道怎么解决。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3