计算化学公社

 找回密码 Forget password
 注册 Register
楼主 Author: Entropy.S.I
打印 Print 上一主题 Last thread 下一主题 Next thread

[硬件评测] 性能翻倍?RTX4090科学计算之经典MD模拟全面测试

  [复制链接 Copy URL]

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

76#
 楼主 Author| 发表于 Post on 2024-1-19 17:40:48 | 只看该作者 Only view this author
gauss98 发表于 2024-1-19 09:32
感谢博主测试,
问问有没有多卡性能测试?
6卡8卡4090  (D?) 的配置和测试

搭平台成本过高,没测过,也没有必要测。多卡机器每块卡的CPU和通信资源都是独立的。
- 向着虚无前进 -

250

帖子

3

威望

1816

eV
积分
2126

Level 5 (御坂)

77#
发表于 Post on 2024-3-11 17:02:42 | 只看该作者 Only view this author
请问下楼主,我用您的测试集中的体系B在课题组服务器上跑,最高也只能跑91.220 ns/day,与您的最高性能300多ns/day差距较大是为啥?而且我的“-update gpu -bonded gpu”要比“-update gpu”速度快些(前者91.220 ns/day,后者76.52791.220 ns/day)。而且-ntomp=1要比-ntomp>1(8,12,16等)都快,请问下我的问题出在哪?谢谢楼主

我的机器参数:
CPU:AMD EPYC 7402 24-Core Processor
GPU: A100*8

gmx版本信息:
  1.   gmx -version

  2. GROMACS version:    2022.6
  3. Precision:          mixed
  4. Memory model:       64 bit
  5. MPI library:        thread_mpi
  6. OpenMP support:     enabled (GMX_OPENMP_MAX_THREADS = 128)
  7. GPU support:        CUDA
  8. SIMD instructions:  AVX2_256
  9. CPU FFT library:    fftw-3.3.8-sse2-avx
  10. GPU FFT library:    cuFFT
  11. RDTSCP usage:       enabled
  12. TNG support:        enabled
  13. Hwloc support:      disabled
  14. Tracing support:    disabled
  15. C compiler:         /usr/bin/cc GNU 9.4.0
  16. C compiler flags:   -mavx2 -mfma -pthread -Wno-missing-field-initializers -fexcess-precision=fast -funroll-all-loops -O3 -DNDEBUG
  17. C++ compiler:       /usr/bin/c++ GNU 9.4.0
  18. C++ compiler flags: -mavx2 -mfma -pthread -Wno-missing-field-initializers -fexcess-precision=fast -funroll-all-loops -fopenmp -O3 -DNDEBUG
  19. CUDA compiler:      /data/soft/cuda-sdk/12.1/bin/nvcc nvcc: NVIDIA (R) Cuda compiler driver;Copyright (c) 2005-2023 NVIDIA Corporation;Built on Tue_Feb__7_19:32:13_PST_2023;Cuda compilation tools, release 12.1, V12.1.66;Build cuda_12.1.r12.1/compiler.32415258_0
  20. CUDA compiler flags:-std=c++17;--generate-code=arch=compute_50,code=sm_50;--generate-code=arch=compute_52,code=sm_52;--generate-code=arch=compute_60,code=sm_60;--generate-code=arch=compute_61,code=sm_61;--generate-code=arch=compute_70,code=sm_70;--generate-code=arch=compute_75,code=sm_75;--generate-code=arch=compute_80,code=sm_80;--generate-code=arch=compute_86,code=sm_86;--generate-code=arch=compute_89,code=sm_89;--generate-code=arch=compute_90,code=sm_90;-Wno-deprecated-gpu-targets;--generate-code=arch=compute_53,code=sm_53;--generate-code=arch=compute_80,code=sm_80;-use_fast_math;-D_FORCE_INLINES;-mavx2 -mfma -pthread -Wno-missing-field-initializers -fexcess-precision=fast -funroll-all-loops -fopenmp -O3 -DNDEBUG
  21. CUDA driver:        12.20
  22. CUDA runtime:       12.10
复制代码


提交脚本:
  1. #!/bin/bash
  2. #An example.
  3. #SBATCH -J wyd-test
  4. #SBATCH -p normal  # 使用指定的队列
  5. #SBATCH --qos=normalqos  # 使用normal队列对应的QoS
  6. #SBATCH --gres=gpu:1  # 使用的GPU卡数

  7. gmx mdrun -pin on -ntmpi 1 -ntomp 1 -notunepme -bonded gpu -update gpu -v -deffnm B
复制代码

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

78#
 楼主 Author| 发表于 Post on 2024-3-12 10:11:36 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2024-3-12 10:34 编辑
wangyueda 发表于 2024-3-11 17:02
请问下楼主,我用您的测试集中的体系B在课题组服务器上跑,最高也只能跑91.220 ns/day,与您的最高性能300 ...

CPU烂得一蹋糊涂,这种情况下-bonded gpu更快不意外

http://bbs.keinsci.com/thread-39266-1-1.html
看最后一张图,价值不到3000的4060都比你们价值10万多的的A100快
- 向着虚无前进 -

250

帖子

3

威望

1816

eV
积分
2126

Level 5 (御坂)

79#
发表于 Post on 2024-3-12 10:32:58 | 只看该作者 Only view this author
Entropy.S.I 发表于 2024-3-12 10:11
CPU烂得一蹋糊涂,这种情况下-bonded gpu更快不意外,A100能打2080Ti都不错了

好的谢谢楼主,所以我这速度(91.220 ns/day)差不多也是当前配置下的极限了对吧

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

80#
 楼主 Author| 发表于 Post on 2024-3-12 10:39:48 | 只看该作者 Only view this author
wangyueda 发表于 2024-3-12 10:32
好的谢谢楼主,所以我这速度(91.220 ns/day)差不多也是当前配置下的极限了对吧

不一定,需要根据CPU架构仔细调优,尽可能减少核间延迟的影响。EPYC 7402每个CCX只有3核,只用3核6线程,把所有omp线程绑定到同一个CCX中可能比用更多核还快。对于这种核间延迟很烂的CPU,1个MPI Rank不建议用很多核
- 向着虚无前进 -

250

帖子

3

威望

1816

eV
积分
2126

Level 5 (御坂)

81#
发表于 Post on 2024-3-12 11:01:58 | 只看该作者 Only view this author
本帖最后由 wangyueda 于 2024-4-10 20:44 编辑
Entropy.S.I 发表于 2024-3-12 10:39
不一定,需要根据CPU架构仔细调优,尽可能减少核间延迟的影响。EPYC 7402每个CCX只有3核,只用3核6线程, ...

好的谢谢楼主,我再试试。

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

82#
 楼主 Author| 发表于 Post on 2024-3-12 12:05:27 | 只看该作者 Only view this author
wangyueda 发表于 2024-3-12 11:01
好的谢谢楼主,我再试试。(ps: 刚来课题组有点疑惑采购这机器的人咋想的。。)

外行可能会认为“有GPU就行”,殊不知在科学计算这种小领域,没什么程序能做到让CPU性能不拖累GPU,CPU往往会成为整个计算的瓶颈。底层的优化只有AI行业有充足的人力去做。
- 向着虚无前进 -

34

帖子

0

威望

170

eV
积分
204

Level 3 能力者

83#
发表于 Post on 2024-4-3 20:48:19 | 只看该作者 Only view this author
请问,4090D和4080如何选择?4090D能不能把贵出的价格值回来呢。

73

帖子

0

威望

545

eV
积分
618

Level 4 (黑子)

84#
发表于 Post on 2024-10-6 15:02:37 | 只看该作者 Only view this author
13和14代intel缩缸之后性能对齐amd有优势吗

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 07:05 , Processed in 0.160959 second(s), 21 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list