计算化学公社

 找回密码 Forget password
 注册 Register

ORCA并行效率小测试

查看数: 10055 | 评论数: 20 | 收藏 Add to favorites 5
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2022-5-4 04:29

正文摘要:

本帖最后由 ggdh 于 2022-5-4 10:27 编辑 测试环境:硬件: Intel 8375c * 2 + 32*16内存 AMD 7T83 * 2 + 32*16内存 软件: Fedora release 35 Gaussian16 A.03 AVX2 ORCA 5.0.3 openmpi 4.1.1 GCC 11.2.1 ...

回复 Reply

ggdh 发表于 Post on 2022-10-15 17:59:35
5995wx
4.54
8.51
12.61
16.09
18.67
20.86
22.68
23.87
lonemen 发表于 Post on 2022-7-3 10:32:00
请问10000/耗时,是个什么单位呢,代表的是什么意思呢?
ggdh 发表于 Post on 2022-6-9 23:11:59
大村驴 发表于 2022-5-31 19:46
你这个纵坐标的选取可能稍微有点误导吧……倒数本身就不是线性函数,当耗时已经很大的时候,10000/耗时对耗 ...

这个问题很有意思啊
时间的倒数是软件的效率或者是算力, 这时候时效率是线性的
比如我可以说orca 是gausian效率的两倍
或者是7T83是8375C算力的1.4倍
并行效率也是这样, 我要比64核是32核的效率的多少倍 感觉用倒数更合适
用时间的话, 感觉不直观,
就拿我跟sob比, 我发一个帖子的功夫sob可以发50个博文, 这时候说sob的产出是我的50倍比较直接。而不是说我的耗时是sob的50倍。
大村驴 发表于 Post on 2022-5-31 19:46:26
你这个纵坐标的选取可能稍微有点误导吧……倒数本身就不是线性函数,当耗时已经很大的时候,10000/耗时对耗时的偏导绝对值远小于耗时很小的时候
Geyer 发表于 Post on 2022-5-31 13:14:35
本帖最后由 Geyer 于 2022-5-31 13:19 编辑
ggdh 发表于 2022-5-6 16:58
你看的这么仔细啊 哈哈
这个现象确实比较诡异8/16/24核跑的时候 有概率非常快(其实是正常发挥?)可以跑完 ...

请问这里有指定核心吗?尤其是对于双路节点来说
分布在两个u上的任务数据过qpi总线的时候会带来延迟,但若分享了更大的内存带宽则可能加快运算速度
此外8/16/24/32核下的heavy avx负载倍频肯定不一样,具体可以查一查(比如win下打开hwinfo
ps:没仔细看…我的锅orz核心绑定了的话这个情况就很怪了
传说中icl在负载很轻的情况下开启某个设置会boost到4g以上,不过有效性存疑

胡说 发表于 Post on 2022-5-7 19:36:02
ggdh 发表于 2022-5-6 16:58
你看的这么仔细啊 哈哈
这个现象确实比较诡异8/16/24核跑的时候 有概率非常快(其实是正常发挥?)可以跑完 ...

这个结果真诡异,快速和慢速差别也好大,而且32核及以后就不会出现了,难以理解。
胡说 发表于 Post on 2022-5-6 14:51:55
从“b) 在8375c 上进行B3LYP/def2TZVP级别的计算”这个测试结果看,对于8375C来说,ORCA在使用8、16、24核的速度不太合理,明显偏慢很多,比如32核速度竟然是16核的3倍,这反常识了。但是在“c) 在7T83 上进行B3LYP/def2TZVP级别的计算”可以看到对于7T83来说,32核速度是16核的2倍不到一点,这结果很合理。可惜没有7T83的8、24核的速度,不然可以更加清楚的看出两个CPU在较少核心数下的区别,正常情况下,两个CPU应该差不多才合理。我用老师的脚本在8171M上测试了下,如下图,发现较少核心数下结果是合理的,从图中可知ORCA在8171M用8、16、24核的速度比8375C还快,这也说明8375C使用8、16、24核的速度不太合理;另外从图中也可以大致看出8375C或7T83在同核心数下速度比8171M要快20-40%左右,且并行核心数越多,差距越大。所以有理由怀疑是不是CPU本身问题或是系统环境编译等其他原因导致的8375C在ORCA使用8、16、24核的速度偏慢很多。另外,对于8375C,这种偏慢情况是否在以8、16、24核同时运行多个任务时也存在呢(帖子中只测了7T83)?

202205061448468784..png (66.17 KB, 下载次数 Times of downloads: 68)

202205061448468784..png
ggdh 发表于 Post on 2022-5-5 15:39:53
MisakaFaction 发表于 2022-5-5 15:18
内存对于ORCA的并行影响这么大么,为什么我用64核比32核反而要慢不少
平台:AMD 7452*2 + 16*16内存 +  ...

你是什么任务啊?
MisakaFaction 发表于 Post on 2022-5-5 15:18:11
内存对于ORCA的并行影响这么大么,为什么我用64核比32核反而要慢不少
平台:AMD 7452*2 + 16*16内存 + ORCA 5.0.3 + openmpi 4.1.1
ggdh 发表于 Post on 2022-5-4 18:33:58
mfdsrax2 发表于 2022-5-4 18:03
再请问一下,内存对单点计算的影响如何?是越大越好吗?

一般来说 DFT不怎么吃内存, 用很大的内存估计速度不会快
如果是DLPNO-CCSD(T)级别的计算,比较吃内存,内存不够不让算。
mfdsrax2 发表于 Post on 2022-5-4 18:03:08
再请问一下,内存对单点计算的影响如何?是越大越好吗?
ggdh 发表于 Post on 2022-5-4 17:11:12
mfdsrax2 发表于 2022-5-4 14:25
为什么核心越多计算耗时越长?是用的CPU时间计算的吗?

看纵坐标 一般都是耗时的倒数乘以10000
mfdsrax2 发表于 Post on 2022-5-4 14:25:17
为什么核心越多计算耗时越长?是用的CPU时间计算的吗?

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-12 20:16 , Processed in 0.420147 second(s), 26 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list