求助：自己在超算上编译的gmx2019.6，比老师编译的windows版gmx2019.6慢许多

miaoxk · 发表于 Post on 2021-12-27 21:01:55

6w原子的体系

自己在学校超算平台编译的gmx2019.6 （按照sobereva老师的方法），（学校超算GPU节点：2*Intel Xeon Gold 6248,376G，4*NVIDIA GV100GL [Tesla V100 PCIe 32GB]）

申请一张GPU卡
运行gmx mdrun -ntmpi 1 -ntomp # -s md.tpr -nsteps 15000 -nb gpu -bonded gpu -pme gpu
# 尝试了：1，2，4，8，12
效率分别为：61，52，50，47，42 ns/day

但是同样的体系，个人电脑（i5，2060），sobereva老师的windows版gmx2019.6， 1 mpi 12 openMP ，效率能到110ns/day

超算上编译的gmx2019.6信息：

GROMACS version: 2019.6
Precision:       single
Memory model:    64 bit
MPI library:       thread_mpi
OpenMP support:    enabled (GMX_OPENMP_MAX_THREADS = 64)
GPU support:       CUDA
SIMD instructions:  AVX2_256
FFT library:       fftw-3.3.8-sse2-avx-avx2-avx2_128
RDTSCP usage:    enabled
TNG support:       enabled
Hwloc support:    disabled
Tracing support: disabled
C compiler:       /usr/bin/cc GNU 4.8.5
C compiler flags: -mavx2 -mfma    -O2 -DNDEBUG -funroll-all-loops -fexcess-precision=fast
C++ compiler:    /usr/bin/c++ GNU 4.8.5
C++ compiler flags:  -mavx2 -mfma -std=c++11 -O2 -DNDEBUG -funroll-all-loops -fexcess-precision=fast
CUDA compiler:    /opt/pkgs/cuda/cuda-toolkit/bin/nvcc nvcc: NVIDIA (R) Cuda compiler driver;Copyright (c) 2005-2019 NVIDIA Corporation;Built on Sun_Jul_28_19:07:16_PDT_2019;Cuda compilation tools, release 10.1, V10.1.243
CUDA compiler flags:-gencode;arch=compute_30,code=sm_30;-gencode;arch=compute_35,code=sm_35;-gencode;arch=compute_37,code=sm_37;-gencode;arch=compute_50,code=sm_50;-gencode;arch=compute_52,code=sm_52;-gencode;arch=compute_60,code=sm_60;-gencode;arch=compute_61,code=sm_61;-gencode;arch=compute_70,code=sm_70;-gencode;arch=compute_75,code=compute_75;-use_fast_math;;; ;-mavx2;-mfma;-std=c++11;-O2;-DNDEBUG;-funroll-all-loops;-fexcess-precision=fast;
CUDA driver:       11.30
CUDA runtime:    10.10

windows 版的gmx2019.6信息如下：

GROMACS version: 2019.6
Precision:       single
Memory model:    64 bit
MPI library:       thread_mpi
OpenMP support:    enabled (GMX_OPENMP_MAX_THREADS = 64)
GPU support:       CUDA
SIMD instructions:  AVX_256
FFT library:       fftw3
RDTSCP usage:    enabled
TNG support:       enabled
Hwloc support:    disabled
Tracing support: disabled
C compiler:       C:/Program Files (x86)/Microsoft Visual Studio/2017/Community/VC/Tools/MSVC/14.16.27023/bin/Hostx86/x64/cl.exe MSVC 19.16.27025.1
C compiler flags: /arch:AVX /DWIN32 /D_WINDOWS /W3  /MD /O2 /Ob2 /DNDEBUG
C++ compiler:    C:/Program Files (x86)/Microsoft Visual Studio/2017/Community/VC/Tools/MSVC/14.16.27023/bin/Hostx86/x64/cl.exe MSVC 19.16.27025.1
C++ compiler flags:  /arch:AVX /DWIN32 /D_WINDOWS /W3 /GR /EHsc /std:c++14 /Zc:__cplusplus  /wd4800 /wd4355 /wd4996 /wd4305 /wd4244 /wd4101 /wd4267 /wd4090 /wd4068  /MD /O2 /Ob2 /DNDEBUG
CUDA compiler:    D:/CUDA_toolkit/bin/nvcc.exe nvcc: NVIDIA (R) Cuda compiler driver;Copyright (c) 2005-2019 NVIDIA Corporation;Built on Fri_Feb__8_19:08:26_Pacific_Standard_Time_2019;Cuda compilation tools, release 10.1, V10.1.105
CUDA compiler flags:-gencode;arch=compute_30,code=sm_30;-gencode;arch=compute_35,code=sm_35;-gencode;arch=compute_37,code=sm_37;-gencode;arch=compute_50,code=sm_50;-gencode;arch=compute_52,code=sm_52;-gencode;arch=compute_60,code=sm_60;-gencode;arch=compute_61,code=sm_61;-gencode;arch=compute_70,code=sm_70;-gencode;arch=compute_75,code=compute_75;-use_fast_math;;; ;/arch:AVX;/DWIN32;/D_WINDOWS;/W3;/GR;/EHsc;/std:c++14;/Zc:__cplusplus;/wd4800;/wd4355;/wd4996;/wd4305;/wd4244;/wd4101;/wd4267;/wd4090;/wd4068;/MD;/O2;/Ob2;/DNDEBUG;
CUDA driver:       11.10
CUDA runtime:    10.10

还比较了log文件中的参数部分，除了超算版的最前面多了一句：
Non-default thread affinity set, disabling internal thread affinity
其它部分都相同

麻烦大家指点下

abin · 发表于 Post on 2021-12-27 21:18:52

Tesla V100，专业卡，gmx又用不到双精度浮点运算
2060，是先进的Turing 架构。

如果都采用cuda10处理，
2060快，是正常的。

差距这么大是否合理，
不清楚，我手里没有这东西，没法测试。

喵星大佬 · 发表于 Post on 2021-12-27 22:54:11

本帖最后由喵星大佬于 2021-12-28 00:53 编辑

v100绝对比2060快得多的多，都是图灵架构的，这代V100无论是单张性能还是多卡并行绝对都是同代产品最高的，见https://developer.nvidia.com/hpc-application-performance

看V100的速度比T4(服务器版RTX8000，相当于满血增强版2080Ti)单张快近50%，并且多卡并行效率也远远超过，肯定是编译/运行设置/运行参数问题

注意，用TESLA的话单张也要分多个rank，并手动分配PME的rank！20后的版本一定要-update gpu，巨幅提升，还有就是看下超算上gpu节点的cpu，太烂的话有可能问题在这，看你越多opm越慢可能是没同时申请那么多cpu核？自己检查一下作业提交脚本，omp必须有对应的物理cpu核

仔细优化运行参数，建议用20以后的版本，不过需要更新的gcc，自己看下怎么弄新的gcc(问超算管理员)，参数设置参考https://developer.nvidia.com/blo ... -with-gromacs-2020/

fhh2626 · 发表于 Post on 2021-12-28 10:01:41

我觉得MD软件没有任何理由不用最新版本（除非有个你想用的功能被删了）

GMX2019都没有实现纯GPU的代码，还要依赖CPU，影响因素就多了

喵星大佬 · 发表于 Post on 2021-12-28 10:29:48

fhh2626 发表于 2021-12-28 10:01
我觉得MD软件没有任何理由不用最新版本（除非有个你想用的功能被删了）

GMX2019都没有实现纯GPU的代码， ...

2021都没有实现纯GPU。。。。何况2019，GPU少的时候这个看不出来，大规模并行(>8GPU)就会输给Amber和NAMD3(根据NV的测试)

喵星大佬 · 发表于 Post on 2021-12-28 10:36:52

fhh2626 发表于 2021-12-28 10:01
我觉得MD软件没有任何理由不用最新版本（除非有个你想用的功能被删了）

GMX2019都没有实现纯GPU的代码， ...

不过有一个事情不是很理解就是Amber和NAMD3是如何做到在PME的时候也能有线性的并行效率的(1-8GPU)

fhh2626 · 发表于 Post on 2021-12-28 11:11:46

喵星大佬发表于 2021-12-28 10:29
2021都没有实现纯GPU。。。。何况2019，GPU少的时候这个看不出来，大规模并行(>8GPU)就会输给Amber和NAMD ...

NAMD可以吗？我咋感觉两个GPU就达不到线性效率了，难道是我打开的姿势不对

喵星大佬 · 发表于 Post on 2021-12-28 11:24:26

本帖最后由喵星大佬于 2021-12-28 12:49 编辑

fhh2626 发表于 2021-12-28 11:11
NAMD可以吗？我咋感觉两个GPU就达不到线性效率了，难道是我打开的姿势不对

我看Nvidia的那个测试里面是这样的，链接在上面

不管多大体系感觉都是线性的

		自动登录 Automatic login	找回密码 Forget password
密码 Password			注册 Register

[GROMACS] 求助：自己在超算上编译的gmx2019.6，比老师编译的windows版gmx2019.6慢许多

浏览过的版块