计算化学公社

 找回密码 Forget password
 注册 Register
Views: 2621|回复 Reply: 19
打印 Print 上一主题 Last thread 下一主题 Next thread

[ORCA] 请问ORCA到底该如何设置合适的核数和内存?

[复制链接 Copy URL]

285

帖子

0

威望

1807

eV
积分
2092

Level 5 (御坂)

跳转到指定楼层 Go to specific reply
楼主
服务器112核,192GB内存,ORCA是5.01版本。
156个原子的体系,构象搜索优化了8个构象,想用ORCA算下单点能,用脚本同时提交了8个任务。
每个任务20核,每个核2000MB,报错;(同时运行5个,内存超了,报错可以理解)
每个任务40核,每个核1000MB,还是报错;(同时运行2个,单核内存不足)
每个任务40核,每个核2000MB,仍然报错。(这个还报错,为啥?)
折腾了一天半,一个任务都没算完,简直无语。
ORCA这内存分配是不是有点太差了?
请问我这体系到底该怎么分配内存?每次提交多任务都要这么反复试错吗?

3814

帖子

4

威望

8002

eV
积分
11896

Level 6 (一方通行)

MOKIT开发者

2#
发表于 Post on 2023-7-11 09:11:37 | 只看该作者 Only view this author
"每个任务40核,每个核2000MB,仍然报错"报错内容是啥
自动做多参考态计算的程序MOKIT

119

帖子

2

威望

1855

eV
积分
2014

Level 5 (御坂)

naïve

3#
发表于 Post on 2023-7-11 09:13:11 | 只看该作者 Only view this author
没有具体的报错信息不太清楚原因,多任务的话最好还是设置绑定CPU吧
通过设置CPU内核绑定降低ORCA同时做多任务的耗时
too young, too simple, sometimes naïve

285

帖子

0

威望

1807

eV
积分
2092

Level 5 (御坂)

4#
 楼主 Author| 发表于 Post on 2023-7-11 09:35:42 | 只看该作者 Only view this author
zjxitcc 发表于 2023-7-11 09:11
"每个任务40核,每个核2000MB,仍然报错"报错内容是啥

输出文件被删了,大概就是在SCF计算开始没多久就中止了

刚刚提交的40核*1500还是报错了
ORCA finished by error termination in MP2
Not enough memory in RI-Trafo (need 1458.50682067871 MB)

141

帖子

0

威望

1060

eV
积分
1201

Level 4 (黑子)

5#
发表于 Post on 2023-7-11 09:40:17 | 只看该作者 Only view this author
你内存给的太少了,156个原子,计算单点能消耗的内春远远大于优化,我之前跑类似体系的时候,优化都怕内存不够用给了4000,单点试了几次,8000经常提醒我内存不够用,建议你给到一万,15个核跑一个任务。最好不要同时跑几个,虽然你核多,但是内存也太少了,我48核也配了180的内存。

202307110937002746..png (3.32 KB, 下载次数 Times of downloads: 24)

202307110937002746..png
由衷感谢每位帮助我的好心人

285

帖子

0

威望

1807

eV
积分
2092

Level 5 (御坂)

6#
 楼主 Author| 发表于 Post on 2023-7-11 09:45:48 | 只看该作者 Only view this author
dzdhp 发表于 2023-7-11 09:40
你内存给的太少了,156个原子,计算单点能消耗的内春远远大于优化,我之前跑类似体系的时候,优化都怕内存 ...

就想偷懒让它排队自己算,结果这么折腾
如果再不行只能一个个提交了

141

帖子

0

威望

1060

eV
积分
1201

Level 4 (黑子)

7#
发表于 Post on 2023-7-11 09:48:40 | 只看该作者 Only view this author
sai77 发表于 2023-7-11 09:45
就想偷懒让它排队自己算,结果这么折腾
如果再不行只能一个个提交了

用不着一个一个提交啊,你可以一次性全部提交上去,一个接着一个算,而不是几个一起跑。
由衷感谢每位帮助我的好心人

285

帖子

0

威望

1807

eV
积分
2092

Level 5 (御坂)

8#
 楼主 Author| 发表于 Post on 2023-7-11 09:50:19 | 只看该作者 Only view this author
anson 发表于 2023-7-11 09:13
没有具体的报错信息不太清楚原因,多任务的话最好还是设置绑定CPU吧
通过设置CPU内核绑定降低ORCA同时做多 ...

谢谢,学习一下~
估计40*2000的时候报错是因为我同时提交了高斯任务,抢了这边的CPU

3814

帖子

4

威望

8002

eV
积分
11896

Level 6 (一方通行)

MOKIT开发者

9#
发表于 Post on 2023-7-11 10:01:16 | 只看该作者 Only view this author
sai77 发表于 2023-7-11 09:50
谢谢,学习一下~
估计40*2000的时候报错是因为我同时提交了高斯任务,抢了这边的CPU

抢核跑那没啥可说的,不能甩锅ORCA。诀窍就1条不用问:提高单核内存,减少并行核数。
自动做多参考态计算的程序MOKIT

285

帖子

0

威望

1807

eV
积分
2092

Level 5 (御坂)

10#
 楼主 Author| 发表于 Post on 2023-7-11 10:01:20 | 只看该作者 Only view this author
dzdhp 发表于 2023-7-11 09:48
用不着一个一个提交啊,你可以一次性全部提交上去,一个接着一个算,而不是几个一起跑。

没懂,现在112核全空闲,单个任务15核,一提交不就会7个任务都跑上了吗?

2302

帖子

1

威望

5479

eV
积分
7801

Level 6 (一方通行)

11#
发表于 Post on 2023-7-11 10:33:16 | 只看该作者 Only view this author
sai77 发表于 2023-7-11 10:01
没懂,现在112核全空闲,单个任务15核,一提交不就会7个任务都跑上了吗?

你想多了. 异想天开.

对于ORCA这种内存控制不是十分理想的应用程序,
建议使用slurm并开启cgroup资源限定, 来合理规范资源使用.

网上有很多案列, 可以参考自己配置slurm调度器.

如果懒得折腾, 可以使用逼人提供的傻瓜式一键安装方案, 可以自动给工作站/单机配置slurm调度器, 并完成cgroup等自动配置.

另, 并行CPU个数, 建议从2^n个起步设定. 10个核心, 20个核心, 这都是哪里学的呀?
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

285

帖子

0

威望

1807

eV
积分
2092

Level 5 (御坂)

12#
 楼主 Author| 发表于 Post on 2023-7-11 11:08:05 | 只看该作者 Only view this author
本帖最后由 sai77 于 2023-7-11 11:13 编辑
abin 发表于 2023-7-11 10:33
你想多了. 异想天开.

对于ORCA这种内存控制不是十分理想的应用程序,

输入文件
%maxcore  10000
%pal nprocs   16

提交任务,7个同时运行了

5分钟后全体报错Performing Cholesky decomposition & store   
ORCA finished by error termination in SCF
  .... aborting the run

orca.png (23.24 KB, 下载次数 Times of downloads: 14)

orca.png

141

帖子

0

威望

1060

eV
积分
1201

Level 4 (黑子)

13#
发表于 Post on 2023-7-11 11:24:08 | 只看该作者 Only view this author
sai77 发表于 2023-7-11 11:08
输入文件
%maxcore  10000
%pal nprocs   16

http://sobereva.com/542。把多个任务写到一个文件里,sob老师讲过了
由衷感谢每位帮助我的好心人

2302

帖子

1

威望

5479

eV
积分
7801

Level 6 (一方通行)

14#
发表于 Post on 2023-7-11 11:50:42 | 只看该作者 Only view this author


有一个事实要清楚,
ORCA并不严格按照你的要求来使用内存.
比如maxcore  10000, 实际上, 并非严格做到每个核心使用10GB, 16个核心, 也就是每个计算任务160GB内存,
可能会超过这个数据.

如果你的调度器限定严格, 那么超越内存上限意味着out of memory, 会直接干掉你的计算任务的.

同时也取决于调度器的默认设定,
就算只要了16个核心, 160GB内存, 那么节点是你自己独占吗?
有人和你一起共用资源吗?

ORCA的最后错误信息并非真正的错误信息, 看看调度器日志说啥了.
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

339

帖子

0

威望

4999

eV
积分
5338

Level 6 (一方通行)

15#
发表于 Post on 2023-7-11 12:17:14 来自手机 | 只看该作者 Only view this author
abin 发表于 2023-7-11 10:33
你想多了. 异想天开.

对于ORCA这种内存控制不是十分理想的应用程序,

大佬,我知道你其实想说的是“鄙人”

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-27 00:40 , Processed in 0.241440 second(s), 23 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list