cokie 发表于 2023-12-6 08:18 是有可能的,但不会超太多。此外注意操作系统以及杂七杂八的后台程序也在消耗内存,所以判断maxcore最大设多少的时候,应当以当前空闲物理内存为准,而不是以总物理内存为准,再留大概20%余量即可 |
wzkchem5 发表于 2023-4-17 17:09 请问老师,ORCA在运算时所调用的内存会偶尔超出所设定的内存吗?比如我在同一个64核256GB的节点上同时运行两个设置均为:maxcore 3750 pal nprocs 32的任务,时不时就会自己杀掉,显示内存不足,按说两个任务加起来才240GB的内存使用量。使用Gaussian时,同时跑两个32核/120GB的任务并不会出现这种内存不够的情况。 |
dizzy 发表于 2023-5-15 14:51 感谢回复,我的问题也解决啦。之前修改环境变量source .bashrc后还是报错,但退出终端重登之后环境变量就生效了 |
shenmh3 发表于 2023-5-10 11:56 工程师好像重新安装了一下 |
| 你好,请问问题解决了吗?我也遇到这个问题了 |
abin 发表于 2023-4-17 18:55 不行,还是同样的问题 |
| 64核心能不能跑? |
dizzy 发表于 2023-4-17 17:12 可以找一下系统默认的coredump文件在哪(这个不同系统不一样,可以谷歌一下)然后看backtrace。 如果找不到coredump,可以用gdb运行orca,或者找一下本地有没有libSegFault.so(“find / -name libSegFault*”)如果有的话在LD_PRELOAD环境变量里加上它的完整路径(之后运行出现segfault就在stderr里面有backtrace)。 |
wzkchem5 发表于 2023-4-17 17:09 只有这一个任务 |
wjc404 发表于 2023-4-17 16:59 执行文件加了#SBATCH -e err.%j err文件输出: [h17r4n28:14306] *** Process received signal *** [h17r4n28:14306] Signal: Segmentation fault (11) [h17r4n28:14306] Signal code: Address not mapped (1) [h17r4n28:14306] Failing at address: (nil) [h17r4n28:14306] [ 0] /lib64/libpthread.so.0(+0xf5d0)[0x2ace2aa0f5d0] [h17r4n28:14306] *** End of error message *** [file orca_tools/qcmsg.cpp, line 465]: .... aborting the run |
|
同一个节点上跑了其他任务吗?你这个计算指定的内存太多了,如果跑了其他占内存比较多的任务,可能内存会不足。 这个计算没必要给那么多内存,DFT计算不需要这么多内存 |
| 从你脚本的内容看,标准输出stdout在$WORKDIR/$job.out中,而标准错误stderr会在该脚本运行的命令行界面打印。现在需要stderr的内容来更好地判断错误的原因。 |
手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图
GMT+8, 2026-2-22 09:46 , Processed in 0.200367 second(s), 25 queries , Gzip On.