计算化学公社

 找回密码 Forget password
 注册 Register

并行错误:ORCA finished by error termination in GTOInt

查看数: 3746 | 评论数: 12 | 收藏 Add to favorites 0
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2023-4-17 16:52

正文摘要:

本帖最后由 dizzy 于 2023-4-17 16:55 编辑 单节点60个核,且%maxcore  3000     %pal nprocs  60 end  并行错误: ---------------------------- CARTESIA ...

回复 Reply

wzkchem5 发表于 Post on 2024-1-5 17:46:02
cokie 发表于 2023-12-6 08:18
请问老师,ORCA在运算时所调用的内存会偶尔超出所设定的内存吗?比如我在同一个64核256GB的节点上同时运 ...

是有可能的,但不会超太多。此外注意操作系统以及杂七杂八的后台程序也在消耗内存,所以判断maxcore最大设多少的时候,应当以当前空闲物理内存为准,而不是以总物理内存为准,再留大概20%余量即可
cokie 发表于 Post on 2023-12-6 15:18:13
wzkchem5 发表于 2023-4-17 17:09
同一个节点上跑了其他任务吗?你这个计算指定的内存太多了,如果跑了其他占内存比较多的任务,可能内存会不 ...

请问老师,ORCA在运算时所调用的内存会偶尔超出所设定的内存吗?比如我在同一个64核256GB的节点上同时运行两个设置均为:maxcore 3750 pal nprocs 32的任务,时不时就会自己杀掉,显示内存不足,按说两个任务加起来才240GB的内存使用量。使用Gaussian时,同时跑两个32核/120GB的任务并不会出现这种内存不够的情况。
shenmh3 发表于 Post on 2023-5-17 10:55:09
dizzy 发表于 2023-5-15 14:51
工程师好像重新安装了一下

感谢回复,我的问题也解决啦。之前修改环境变量source .bashrc后还是报错,但退出终端重登之后环境变量就生效了
dizzy 发表于 Post on 2023-5-15 14:51:22
shenmh3 发表于 2023-5-10 11:56
你好,请问问题解决了吗?我也遇到这个问题了

工程师好像重新安装了一下
shenmh3 发表于 Post on 2023-5-10 11:56:13
你好,请问问题解决了吗?我也遇到这个问题了
dizzy 发表于 Post on 2023-4-19 14:48:55
abin 发表于 2023-4-17 18:55
64核心能不能跑?

不行,还是同样的问题
abin 发表于 Post on 2023-4-17 18:55:43
64核心能不能跑?
wjc404 发表于 Post on 2023-4-17 17:32:42
dizzy 发表于 2023-4-17 17:12
执行文件加了#SBATCH -e err.%j
err文件输出:
[h17r4n28:14306] *** Process received signal ***

可以找一下系统默认的coredump文件在哪(这个不同系统不一样,可以谷歌一下)然后看backtrace。
如果找不到coredump,可以用gdb运行orca,或者找一下本地有没有libSegFault.so(“find / -name libSegFault*”)如果有的话在LD_PRELOAD环境变量里加上它的完整路径(之后运行出现segfault就在stderr里面有backtrace)。
dizzy 发表于 Post on 2023-4-17 17:12:59
wzkchem5 发表于 2023-4-17 17:09
同一个节点上跑了其他任务吗?你这个计算指定的内存太多了,如果跑了其他占内存比较多的任务,可能内存会不 ...

只有这一个任务
dizzy 发表于 Post on 2023-4-17 17:12:21
wjc404 发表于 2023-4-17 16:59
从你脚本的内容看,标准输出stdout在$WORKDIR/$job.out中,而标准错误stderr会在该脚本运行的命令行界面打 ...

执行文件加了#SBATCH -e err.%j
err文件输出:
[h17r4n28:14306] *** Process received signal ***
[h17r4n28:14306] Signal: Segmentation fault (11)
[h17r4n28:14306] Signal code: Address not mapped (1)
[h17r4n28:14306] Failing at address: (nil)
[h17r4n28:14306] [ 0] /lib64/libpthread.so.0(+0xf5d0)[0x2ace2aa0f5d0]
[h17r4n28:14306] *** End of error message ***
[file orca_tools/qcmsg.cpp, line 465]:
  .... aborting the run
wzkchem5 发表于 Post on 2023-4-17 17:09:38
同一个节点上跑了其他任务吗?你这个计算指定的内存太多了,如果跑了其他占内存比较多的任务,可能内存会不足。
这个计算没必要给那么多内存,DFT计算不需要这么多内存
wjc404 发表于 Post on 2023-4-17 16:59:22
从你脚本的内容看,标准输出stdout在$WORKDIR/$job.out中,而标准错误stderr会在该脚本运行的命令行界面打印。现在需要stderr的内容来更好地判断错误的原因。

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2026-2-22 09:46 , Processed in 0.200367 second(s), 25 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list