计算化学公社

标题: ORCA5和ORCA4.21的耗时问题 [打印本页]

作者
Author:
renzhogn424    时间: 2021-8-2 23:18
标题: ORCA5和ORCA4.21的耗时问题
ORCA5出来之后,很多测评都说其计算耗时减少了,于是我用之前我ORCA4.2.1算完了的一个体系检测,4.21版本耗时1 hours 25 minutes。结果大跌眼镜,ORCA5居然用了3 hours 12 minutes

然后仔细检查了下步骤,4.2.1版本优化用了45轮,而5.0版本优化才用了35轮! 这更奇怪了,为啥用时还更多?

4.2.1版本每次SCF大概15步左右,耗时1min多;而5.0版本也差不多SCF10步左右,但是耗时3~5 min左右。这就让人非常不解了!
(4.2.1版本用的openmpi3.1.4;5.0版本用的openmpi4.1.1)

ORCA4.2.1版本计算的见附件解压后的“O421 VTA+CrO4.out”,ORCA5计算的见附件解压后的“O5 VTA+CrO4.out”

作者
Author:
liyuanhe211    时间: 2021-8-2 23:55
格点数量不同?
作者
Author:
wzkchem5    时间: 2021-8-3 00:36
一方面是因为格点增大了,另一方面可以把两个计算重新各跑一遍再看看,有的机器上计算时间重复性不好
作者
Author:
renzhogn424    时间: 2021-8-3 07:15
liyuanhe211 发表于 2021-8-2 23:55
格点数量不同?

可能吧,4.2.1用的grid4 gridx4。5.0用得默认。但是差别这么大不应该啊
作者
Author:
winnerwill    时间: 2021-8-3 10:41
opt任务得看是否收敛到了相同的极小点了吧,不然比较耗时没有意义
作者
Author:
winnerwill    时间: 2021-8-3 10:45
winnerwill 发表于 2021-8-3 10:41
opt任务得看是否收敛到了相同的极小点了吧,不然比较耗时没有意义

目测,ORCA421收敛到了更低的能量(考虑到起始结构一样的话)
注意到两者最终结构都并不是优化过程中能量最低的
作者
Author:
paramecium86    时间: 2021-8-3 11:37
我用你的输入文件分别在两个版本下都跑了一次。

VMware16+CentOS8
相同的设置下。(两个任务都用8核心 2000m内存)
用ORCA4.2.1的时候 跟你的计算结果几乎一模一样。比你之前上传的文件里4.2.1的输出文件显示的时间要略慢一些(93min vs 85min)。
但用ORCA5 的时候,虽然结果也是跟你算的一模一样,但就比你的orca5那个计算文件里显示的要快三倍速度。(54min vs 192min)


是不是你的硬件环境跟你当初跑4.2.1的时候发生了什么变化。

作者
Author:
renzhogn424    时间: 2021-8-3 12:37
winnerwill 发表于 2021-8-3 10:45
目测,ORCA421收敛到了更低的能量(考虑到起始结构一样的话)
注意到两者最终结构都并不是优化过程中能 ...

对整个优化过程是这样,但是现在我疑惑的是每一轮优化的SCF时间为啥差别那么大。
作者
Author:
renzhogn424    时间: 2021-8-3 12:39
paramecium86 发表于 2021-8-3 11:37
我用你的输入文件分别在两个版本下都跑了一次。

VMware16+CentOS8

谢谢热心地验算,那你的8核心效率好高啊!!还是虚拟机,比我24核的都快! 锐龙还是最新酷睿?  

我前后硬件没变,都是24核心80G内存。ORCA5的SCF时间要那么多,我也很纠结。
作者
Author:
renzhogn424    时间: 2021-8-3 12:40
wzkchem5 发表于 2021-8-3 00:36
一方面是因为格点增大了,另一方面可以把两个计算重新各跑一遍再看看,有的机器上计算时间重复性不好

好的,待会我改变格点跑跑看。
作者
Author:
paramecium86    时间: 2021-8-3 13:10
renzhogn424 发表于 2021-8-3 12:39
谢谢热心地验算,那你的8核心效率好高啊!!还是虚拟机,比我24核的都快! 锐龙还是最新酷睿?  

我前后 ...

是5900X。

在4.2.1下还是不如你的那个24核的。我觉得4.2.1那个结果可以体现cpu的算力差异。 但5.0.1下那个结果我觉得有些异常。5900x即使快也不可能快到24核的三四倍。
作者
Author:
winnerwill    时间: 2021-8-3 13:41
renzhogn424 发表于 2021-8-3 12:37
对整个优化过程是这样,但是现在我疑惑的是每一轮优化的SCF时间为啥差别那么大。

SCF的不同主要是因为一个大的不同是ORCA 4.2.1你用了以下关键词,而ORCA 5没有

%scf DirectResetFreq=1 end

作者
Author:
winnerwill    时间: 2021-8-3 13:45
paramecium86 发表于 2021-8-3 11:37
我用你的输入文件分别在两个版本下都跑了一次。

VMware16+CentOS8

并非真的一模一样,你的ORCA5的优化步数是比楼主的多了一步(37 vs 36);而两者ORCA 4.2.1的细微区别可能是数值误差方面的?
作者
Author:
paramecium86    时间: 2021-8-3 14:19
本帖最后由 paramecium86 于 2021-8-3 14:32 编辑
winnerwill 发表于 2021-8-3 13:45
并非真的一模一样,你的ORCA5的优化步数是比楼主的多了一步(37 vs 36);而两者ORCA 4.2.1的细微区别可 ...

是的。我觉得有数值误差。不过最后能量的区别都已经是小数点后面那么多位了。
令人最疑惑的是orca5里楼主那个计算每一步的时间都比我这里慢上三倍。这个就不知道该用什么解释了。orca本身也不需要自己编译。速度上差那么多就很奇怪。
而优化的结构方面如果用我的ORCA5的结构作为基准几个优化结构的RMSD如下
                                   RMSD
ORCA5.0.1  5900x         0.0000
ORCA5.0.1  楼主           0.0017
ORCA4.2.1 5900x          0.0903
ORCA4.2.1 楼主            0.0906

同一个版本下至少收敛到的结构基本还是一样的。所以楼主的计算我觉得最让人迷惑的就是他的平台上ORCA5计算的速度了。

作者
Author:
wzkchem5    时间: 2021-8-3 15:39
winnerwill 发表于 2021-8-3 03:45
目测,ORCA421收敛到了更低的能量(考虑到起始结构一样的话)
注意到两者最终结构都并不是优化过程中能 ...

这个能量没有可比性,因为ORCA 4的格点和ORCA 5的不一样,能量差别可能完全是因为格点
作者
Author:
winnerwill    时间: 2021-8-3 16:44
wzkchem5 发表于 2021-8-3 15:39
这个能量没有可比性,因为ORCA 4的格点和ORCA 5的不一样,能量差别可能完全是因为格点

绝对值是没有可比性,但是趋势是可以比较的


作者
Author:
renzhogn424    时间: 2021-8-5 21:58
paramecium86 发表于 2021-8-3 14:19
是的。我觉得有数值误差。不过最后能量的区别都已经是小数点后面那么多位了。
令人最疑惑的是orca5里楼 ...

破案了,我的openmpi411编译得有问题,我换回openmpi314算耗时就正常了。
作者
Author:
renzhogn424    时间: 2021-8-5 21:59
wzkchem5 发表于 2021-8-3 00:36
一方面是因为格点增大了,另一方面可以把两个计算重新各跑一遍再看看,有的机器上计算时间重复性不好

时间重复性其实还可以,问题出在我的openmpi411编译得有问题,换回openmpi314算耗时就正常。
作者
Author:
gog    时间: 2021-8-18 18:21
5.0.1的,和这个对比了没?
作者
Author:
wzkchem5    时间: 2021-8-18 18:38
gog 发表于 2021-8-18 11:21
5.0.1的,和这个对比了没?

5.0.1只改了一些bug,没有做性能提升,应该和5.0.0一样快(我没测过,只是理论上预期如此)
作者
Author:
renzhogn424    时间: 2021-8-21 23:02
gog 发表于 2021-8-18 18:21
5.0.1的,和这个对比了没?

别比了,我这个是乌龙事件,问题出在openmpi的编译上面。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3