计算化学公社

 找回密码 Forget password
 注册 Register
楼主 Author: Entropy.S.I
打印 Print 上一主题 Last thread 下一主题 Next thread

[硬件评测] 性能翻倍?RTX4090科学计算之经典MD模拟全面测试

  [复制链接 Copy URL]

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

16#
 楼主 Author| 发表于 Post on 2022-11-1 11:42:04 | 只看该作者 Only view this author
alanmei 发表于 2022-11-1 11:37
有一个问题是 我记得Linux 5.16才开始支持大小核来着,5.15不会有奇怪的调度问题吗?

线程绑定后不受系统层调度。Linux 5.18内核只是加入了类似于Win11的自动调度机制,不使用新内核对这次测试没有影响
- 向着虚无前进 -

139

帖子

1

威望

1414

eV
积分
1573

Level 5 (御坂)

17#
发表于 Post on 2022-11-1 13:40:06 | 只看该作者 Only view this author
冰释之川 发表于 2022-11-1 08:54
哈哈,原来切丝啪啪是庚子计算的人啊……

就是做一点微小的工作

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

18#
 楼主 Author| 发表于 Post on 2022-11-1 14:55:45 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2022-11-1 14:59 编辑
fhh2626 发表于 2022-11-1 10:49
做MD效率测试强烈建议加上OpenMM,毕竟是现代MD软件的标杆

看了一下OpenMM的Benchmark,STMV模型是和AMBER官方测试一样的参数(0.9nm cutoff,4fs步长),但相同GPU下速度和AMBER比差远了。以后有空我也研究研究

- 向着虚无前进 -

403

帖子

4

威望

2874

eV
积分
3357

Level 5 (御坂)

19#
发表于 Post on 2022-11-1 15:00:09 | 只看该作者 Only view this author
但某日笔者建议一些bilibili UP主测试该GPU运行“生产力”软件的发言被不学无术/不懂装懂者群起而攻之
说是评测,不都是拿金主爸爸猫腻的KOL吗?看看现在多少人捧大小核的臭脚就知道了。

如果写过并行计算程序,就知道这种架构简直是灾难。计算过程中有大量的进程/线程间同步和数据交换,小核性能不如大核,该怎么整?

全分给大核让小核围观?那小核除了凑数,让买家觉得赚到外,还有什么意义?

不管大小一视同仁?那等着让小核把大核拖慢到同样的水平上?

根据计算量和性能提前预估?还嫌代码不够复杂?谁知道过几代还兴不兴这种架构了。

抛开这些技术细节不谈,你就看蓝厂在服务器cpu上用不用这种“先进”的架构就完了。

评分 Rate

参与人数
Participants 1
eV +5 收起 理由
Reason
Entropy.S.I + 5 正确的,这次小核有点用处但不代表大小核混.

查看全部评分 View all ratings

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

20#
 楼主 Author| 发表于 Post on 2022-11-1 16:23:28 | 只看该作者 Only view this author
万里云 发表于 2022-11-1 15:00
说是评测,不都是拿金主爸爸猫腻的KOL吗?看看现在多少人捧大小核的臭脚就知道了。

如果写过并行计算 ...

正确的,这次小核有点用处,但不代表大小核混合架构本身是好东西。
- 向着虚无前进 -

120

帖子

0

威望

2560

eV
积分
2680

Level 5 (御坂)

21#
发表于 Post on 2022-11-1 16:57:40 | 只看该作者 Only view this author
第一次看到内网的md测试结果比外网的早,牛!!!

1093

帖子

6

威望

6269

eV
积分
7482

Level 6 (一方通行)

22#
发表于 Post on 2022-11-1 22:09:34 | 只看该作者 Only view this author
Entropy.S.I 发表于 2022-11-1 14:55
看了一下OpenMM的Benchmark,STMV模型是和AMBER官方测试一样的参数(0.9nm cutoff,4fs步长),但相同GPU ...

不一样吧,OpenMM用的是很慢的LangevinMiddleIntegrator,Amber用的是毫无道理的Berendsen Thermostat

我个人的经验是当OpenMM和Amber都用Langevin integrator,或者Amber用资源消耗少一点的的Bussi thermostat的时候,OpenMM会略快一点,但基本是同一数量级

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

23#
 楼主 Author| 发表于 Post on 2022-11-1 22:44:00 | 只看该作者 Only view this author
fhh2626 发表于 2022-11-1 22:09
不一样吧,OpenMM用的是很慢的LangevinMiddleIntegrator,Amber用的是毫无道理的Berendsen Thermostat

...

刚刚用5950X+3080Ti测试了,AMBER官方参数(ntt=1)是36.34 ns/day,改成ntt=3, gamma_ln=5是34.45 ns/day,没有慢很多。
- 向着虚无前进 -

5万

帖子

99

威望

5万

eV
积分
112351

管理员

公社社长

24#
发表于 Post on 2022-11-2 07:59:26 | 只看该作者 Only view this author
导致FP32只有7 TFLOPS的RTX 4000比FP32有11 TFLOPS的GTX 1080Ti还强

这里的7 TFlops的数据是哪里的?RTX4000具体指什么?
RTX4090的FP32应当是83 TFlops。
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入“北京科音”微信公众号获取北京科音培训的最新消息、避免错过网上有价值的计算化学文章!
欢迎加入人气非常高、专业性特别强的综合性理论与计算化学交流QQ群“思想家公社QQ群”:1号:18616395,2号:466017436,3号:764390338,搜索群号能搜到哪个说明目前哪个能加,合计9000人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

25#
 楼主 Author| 发表于 Post on 2022-11-2 08:29:45 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2022-11-2 08:37 编辑
sobereva 发表于 2022-11-2 07:59
这里的7 TFlops的数据是哪里的?RTX4000具体指什么?
RTX4090的FP32应当是83 TFlops。

是Quadro RTX 4000,TU106-400核心,和GeForce RTX 2070是同一个核心,频率低一些。这是英伟达给的Data Sheet:https://www.nvidia.com/content/dam/en-zz/Solutions/design-visualization/quadro-product-literature/quadro-rtx-4000-data-sheet-us-nvidia-830682-r6-web.pdf

数据在第二个附件,不是这次统一测的数据
- 向着虚无前进 -

1093

帖子

6

威望

6269

eV
积分
7482

Level 6 (一方通行)

26#
发表于 Post on 2022-11-2 09:50:33 | 只看该作者 Only view this author
Entropy.S.I 发表于 2022-11-1 22:44
刚刚用5950X+3080Ti测试了,AMBER官方参数(ntt=1)是36.34 ns/day,改成ntt=3, gamma_ln=5是34.45 ns/da ...

主要是LangevinMiddleIntegrator会比常见的积分器慢,换来部分积分精度的提升

不过在你这个大体系中Amber也可能比较有优势,他们的Pairlist算法据说比较先进

8

帖子

0

威望

284

eV
积分
292

Level 3 能力者

27#
发表于 Post on 2022-11-5 14:37:34 | 只看该作者 Only view this author
本帖最后由 LightSylvanas 于 2023-6-19 14:34 编辑

请问您用的哪个CUDA版本,驱动是哪个版本?我用4090编译出来的vasp和gromacs都报错cuFFT有问题

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

28#
 楼主 Author| 发表于 Post on 2022-11-5 16:31:33 | 只看该作者 Only view this author
LightSylvanas 发表于 2022-11-5 14:37
请问您用的哪个CUDA版本,驱动是哪个版本?我用4090编译出来的vasp和gromacs都报错cuFFT有问题

最好再仔细看看,不要上来就问
- 向着虚无前进 -

78

帖子

0

威望

581

eV
积分
659

Level 4 (黑子)

29#
发表于 Post on 2022-11-7 10:33:38 | 只看该作者 Only view this author
本帖最后由 sss668800 于 2022-11-7 11:02 编辑

非常感谢楼主,话说UP主51972首发评测4090时测试分子动力学软件,是不是没有和你合作?
因为51972评测4090的分子动力学部分,数据几乎是一带而过的,就一页数据。
这么多数据可以考虑和up主合作出一个视频,毕竟这方面需求会很旺盛(买4090的人很多会跑MD,极具参考价值)。

有一个问题,图3绿线是纯E-Core测试的吗?请问如何做到指定纯小核测试的?
PS:12代时候因为小核实在是对性能影响太大,很多人是直接在bios里面关闭小核,搭配3080跑GMX的。
       你的图3全核测试,8-10核之间的断层是个很头疼的事情,如果是13700k这种U,说不定还不如直接关小核。

8

帖子

0

威望

284

eV
积分
292

Level 3 能力者

30#
发表于 Post on 2022-11-7 10:35:30 | 只看该作者 Only view this author
本帖最后由 LightSylvanas 于 2022-11-7 10:39 编辑

不好意思,之前没有仔细看。
我已发现问题...之前用的GROMACS2022.2,换成GROMACS2022.3后cuFFT不再报错。
但是VASP用oneapi+openACC编译后,mpirun -np 1 vasp_std仍然会报cuFFT的错误,我现在严重怀疑是vasp的版本没有跟上(尝试过6.3.0和6.3.2,都一样),不知您是否可以测试一下vasp的加速?
我测试的配置是7950x+4090.

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 07:08 , Processed in 0.193248 second(s), 24 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list