计算化学公社

 找回密码 Forget password
 注册 Register

性能翻倍?RTX4090科学计算之经典MD模拟全面测试

查看数: 30672 | 评论数: 83 | 收藏 Add to favorites 44
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2022-10-31 17:16

正文摘要:

本帖最后由 Entropy.S.I 于 2022-11-1 03:40 编辑 性能翻倍?RTX4090科学计算之经典MD模拟全面测试[本文首发于计算化学公社 | 文 熵增焓减 | 赞助 51972, 庚子计算 | yult-entropy@qq.com | 2022-10] 0 &nb ...

回复 Reply

zdworld 发表于 Post on 2024-10-6 15:02:37
13和14代intel缩缸之后性能对齐amd有优势吗
tienan0412 发表于 Post on 2024-4-3 20:48:19
请问,4090D和4080如何选择?4090D能不能把贵出的价格值回来呢。
Entropy.S.I 发表于 Post on 2024-3-12 12:05:27
wangyueda 发表于 2024-3-12 11:01
好的谢谢楼主,我再试试。(ps: 刚来课题组有点疑惑采购这机器的人咋想的。。)

外行可能会认为“有GPU就行”,殊不知在科学计算这种小领域,没什么程序能做到让CPU性能不拖累GPU,CPU往往会成为整个计算的瓶颈。底层的优化只有AI行业有充足的人力去做。
wangyueda 发表于 Post on 2024-3-12 11:01:58
本帖最后由 wangyueda 于 2024-4-10 20:44 编辑
Entropy.S.I 发表于 2024-3-12 10:39
不一定,需要根据CPU架构仔细调优,尽可能减少核间延迟的影响。EPYC 7402每个CCX只有3核,只用3核6线程, ...

好的谢谢楼主,我再试试。
Entropy.S.I 发表于 Post on 2024-3-12 10:39:48
wangyueda 发表于 2024-3-12 10:32
好的谢谢楼主,所以我这速度(91.220 ns/day)差不多也是当前配置下的极限了对吧

不一定,需要根据CPU架构仔细调优,尽可能减少核间延迟的影响。EPYC 7402每个CCX只有3核,只用3核6线程,把所有omp线程绑定到同一个CCX中可能比用更多核还快。对于这种核间延迟很烂的CPU,1个MPI Rank不建议用很多核
wangyueda 发表于 Post on 2024-3-12 10:32:58
Entropy.S.I 发表于 2024-3-12 10:11
CPU烂得一蹋糊涂,这种情况下-bonded gpu更快不意外,A100能打2080Ti都不错了

好的谢谢楼主,所以我这速度(91.220 ns/day)差不多也是当前配置下的极限了对吧
Entropy.S.I 发表于 Post on 2024-3-12 10:11:36
本帖最后由 Entropy.S.I 于 2024-3-12 10:34 编辑
wangyueda 发表于 2024-3-11 17:02
请问下楼主,我用您的测试集中的体系B在课题组服务器上跑,最高也只能跑91.220 ns/day,与您的最高性能300 ...

CPU烂得一蹋糊涂,这种情况下-bonded gpu更快不意外

http://bbs.keinsci.com/thread-39266-1-1.html
看最后一张图,价值不到3000的4060都比你们价值10万多的的A100快
wangyueda 发表于 Post on 2024-3-11 17:02:42
请问下楼主,我用您的测试集中的体系B在课题组服务器上跑,最高也只能跑91.220 ns/day,与您的最高性能300多ns/day差距较大是为啥?而且我的“-update gpu -bonded gpu”要比“-update gpu”速度快些(前者91.220 ns/day,后者76.52791.220 ns/day)。而且-ntomp=1要比-ntomp>1(8,12,16等)都快,请问下我的问题出在哪?谢谢楼主

我的机器参数:
CPU:AMD EPYC 7402 24-Core Processor
GPU: A100*8

gmx版本信息:
  1.   gmx -version

  2. GROMACS version:    2022.6
  3. Precision:          mixed
  4. Memory model:       64 bit
  5. MPI library:        thread_mpi
  6. OpenMP support:     enabled (GMX_OPENMP_MAX_THREADS = 128)
  7. GPU support:        CUDA
  8. SIMD instructions:  AVX2_256
  9. CPU FFT library:    fftw-3.3.8-sse2-avx
  10. GPU FFT library:    cuFFT
  11. RDTSCP usage:       enabled
  12. TNG support:        enabled
  13. Hwloc support:      disabled
  14. Tracing support:    disabled
  15. C compiler:         /usr/bin/cc GNU 9.4.0
  16. C compiler flags:   -mavx2 -mfma -pthread -Wno-missing-field-initializers -fexcess-precision=fast -funroll-all-loops -O3 -DNDEBUG
  17. C++ compiler:       /usr/bin/c++ GNU 9.4.0
  18. C++ compiler flags: -mavx2 -mfma -pthread -Wno-missing-field-initializers -fexcess-precision=fast -funroll-all-loops -fopenmp -O3 -DNDEBUG
  19. CUDA compiler:      /data/soft/cuda-sdk/12.1/bin/nvcc nvcc: NVIDIA (R) Cuda compiler driver;Copyright (c) 2005-2023 NVIDIA Corporation;Built on Tue_Feb__7_19:32:13_PST_2023;Cuda compilation tools, release 12.1, V12.1.66;Build cuda_12.1.r12.1/compiler.32415258_0
  20. CUDA compiler flags:-std=c++17;--generate-code=arch=compute_50,code=sm_50;--generate-code=arch=compute_52,code=sm_52;--generate-code=arch=compute_60,code=sm_60;--generate-code=arch=compute_61,code=sm_61;--generate-code=arch=compute_70,code=sm_70;--generate-code=arch=compute_75,code=sm_75;--generate-code=arch=compute_80,code=sm_80;--generate-code=arch=compute_86,code=sm_86;--generate-code=arch=compute_89,code=sm_89;--generate-code=arch=compute_90,code=sm_90;-Wno-deprecated-gpu-targets;--generate-code=arch=compute_53,code=sm_53;--generate-code=arch=compute_80,code=sm_80;-use_fast_math;-D_FORCE_INLINES;-mavx2 -mfma -pthread -Wno-missing-field-initializers -fexcess-precision=fast -funroll-all-loops -fopenmp -O3 -DNDEBUG
  21. CUDA driver:        12.20
  22. CUDA runtime:       12.10
复制代码


提交脚本:
  1. #!/bin/bash
  2. #An example.
  3. #SBATCH -J wyd-test
  4. #SBATCH -p normal  # 使用指定的队列
  5. #SBATCH --qos=normalqos  # 使用normal队列对应的QoS
  6. #SBATCH --gres=gpu:1  # 使用的GPU卡数

  7. gmx mdrun -pin on -ntmpi 1 -ntomp 1 -notunepme -bonded gpu -update gpu -v -deffnm B
复制代码

Entropy.S.I 发表于 Post on 2024-1-19 17:40:48
gauss98 发表于 2024-1-19 09:32
感谢博主测试,
问问有没有多卡性能测试?
6卡8卡4090  (D?) 的配置和测试

搭平台成本过高,没测过,也没有必要测。多卡机器每块卡的CPU和通信资源都是独立的。
gauss98 发表于 Post on 2024-1-19 09:32:12
感谢博主测试,
问问有没有多卡性能测试?
6卡8卡4090  (D?) 的配置和测试
谢谢!
五月雨 发表于 Post on 2023-10-25 11:03:07
Entropy.S.I 发表于 2023-10-24 16:53
-pin on -pinoffset [?] -pinstride 1 ntmpi 1 -ntomp [?] -gpu_id [0/1] -update gpu -bonded [cpu/gpu]

谢谢老师
Entropy.S.I 发表于 Post on 2023-10-24 16:53:11
五月雨 发表于 2023-10-24 16:03
请问老师,两张显卡分别计算两个GMX任务,应该使用什么命令?

-pin on -pinoffset [?] -pinstride 1 ntmpi 1 -ntomp [?] -gpu_id [0/1] -update gpu -bonded [cpu/gpu]
五月雨 发表于 Post on 2023-10-24 16:03:32
Entropy.S.I 发表于 2022-10-31 20:01
完全不建议用Windows系统跑MD

请问老师,两张显卡分别计算两个GMX任务,应该使用什么命令?
ChemG 发表于 Post on 2023-10-18 22:05:25
请问老师如何看待网传的禁售RTX 4090的消息,对分子动力学模拟方面的硬件购置影响,以及有哪些高性价比的替代产品

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 08:30 , Processed in 0.192135 second(s), 27 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list