计算化学公社

 找回密码 Forget password
 注册 Register
Views: 3122|回复 Reply: 7
打印 Print 上一主题 Last thread 下一主题 Next thread

[GROMACS] 求助:自己在超算上编译的gmx2019.6,比老师编译的windows版gmx2019.6慢许多

[复制链接 Copy URL]

3

帖子

0

威望

215

eV
积分
218

Level 3 能力者

6w原子的体系

自己在学校超算平台编译的gmx2019.6 (按照sobereva老师的方法),(学校超算GPU节点:2*Intel Xeon Gold 6248,376G,4*NVIDIA GV100GL [Tesla V100 PCIe 32GB])

申请一张GPU卡
运行gmx mdrun -ntmpi 1 -ntomp # -s md.tpr -nsteps 15000 -nb gpu -bonded gpu -pme gpu
# 尝试了:1,2,4,8,12
效率分别为:61,52,50,47,42 ns/day

但是同样的体系,个人电脑(i5,2060),sobereva老师的windows版gmx2019.6, 1 mpi 12 openMP ,效率能到110ns/day

超算上编译的gmx2019.6信息:

GROMACS version:    2019.6
Precision:          single
Memory model:       64 bit
MPI library:        thread_mpi
OpenMP support:     enabled (GMX_OPENMP_MAX_THREADS = 64)
GPU support:        CUDA
SIMD instructions:  AVX2_256
FFT library:        fftw-3.3.8-sse2-avx-avx2-avx2_128
RDTSCP usage:       enabled
TNG support:        enabled
Hwloc support:      disabled
Tracing support:    disabled
C compiler:         /usr/bin/cc GNU 4.8.5
C compiler flags:    -mavx2 -mfma     -O2 -DNDEBUG -funroll-all-loops -fexcess-precision=fast  
C++ compiler:       /usr/bin/c++ GNU 4.8.5
C++ compiler flags:  -mavx2 -mfma    -std=c++11   -O2 -DNDEBUG -funroll-all-loops -fexcess-precision=fast  
CUDA compiler:      /opt/pkgs/cuda/cuda-toolkit/bin/nvcc nvcc: NVIDIA (R) Cuda compiler driver;Copyright (c) 2005-2019 NVIDIA Corporation;Built on Sun_Jul_28_19:07:16_PDT_2019;Cuda compilation tools, release 10.1, V10.1.243
CUDA compiler flags:-gencode;arch=compute_30,code=sm_30;-gencode;arch=compute_35,code=sm_35;-gencode;arch=compute_37,code=sm_37;-gencode;arch=compute_50,code=sm_50;-gencode;arch=compute_52,code=sm_52;-gencode;arch=compute_60,code=sm_60;-gencode;arch=compute_61,code=sm_61;-gencode;arch=compute_70,code=sm_70;-gencode;arch=compute_75,code=compute_75;-use_fast_math;;; ;-mavx2;-mfma;-std=c++11;-O2;-DNDEBUG;-funroll-all-loops;-fexcess-precision=fast;
CUDA driver:        11.30
CUDA runtime:       10.10

windows 版的gmx2019.6信息如下:

GROMACS version:    2019.6
Precision:          single
Memory model:       64 bit
MPI library:        thread_mpi
OpenMP support:     enabled (GMX_OPENMP_MAX_THREADS = 64)
GPU support:        CUDA
SIMD instructions:  AVX_256
FFT library:        fftw3
RDTSCP usage:       enabled
TNG support:        enabled
Hwloc support:      disabled
Tracing support:    disabled
C compiler:         C:/Program Files (x86)/Microsoft Visual Studio/2017/Community/VC/Tools/MSVC/14.16.27023/bin/Hostx86/x64/cl.exe MSVC 19.16.27025.1
C compiler flags:    /arch:AVX   /DWIN32 /D_WINDOWS /W3  /MD /O2 /Ob2 /DNDEBUG  
C++ compiler:       C:/Program Files (x86)/Microsoft Visual Studio/2017/Community/VC/Tools/MSVC/14.16.27023/bin/Hostx86/x64/cl.exe MSVC 19.16.27025.1
C++ compiler flags:  /arch:AVX   /DWIN32 /D_WINDOWS /W3 /GR /EHsc /std:c++14 /Zc:__cplusplus  /wd4800 /wd4355 /wd4996 /wd4305 /wd4244 /wd4101 /wd4267 /wd4090 /wd4068  /MD /O2 /Ob2 /DNDEBUG  
CUDA compiler:      D:/CUDA_toolkit/bin/nvcc.exe nvcc: NVIDIA (R) Cuda compiler driver;Copyright (c) 2005-2019 NVIDIA Corporation;Built on Fri_Feb__8_19:08:26_Pacific_Standard_Time_2019;Cuda compilation tools, release 10.1, V10.1.105
CUDA compiler flags:-gencode;arch=compute_30,code=sm_30;-gencode;arch=compute_35,code=sm_35;-gencode;arch=compute_37,code=sm_37;-gencode;arch=compute_50,code=sm_50;-gencode;arch=compute_52,code=sm_52;-gencode;arch=compute_60,code=sm_60;-gencode;arch=compute_61,code=sm_61;-gencode;arch=compute_70,code=sm_70;-gencode;arch=compute_75,code=compute_75;-use_fast_math;;; ;/arch:AVX;/DWIN32;/D_WINDOWS;/W3;/GR;/EHsc;/std:c++14;/Zc:__cplusplus;/wd4800;/wd4355;/wd4996;/wd4305;/wd4244;/wd4101;/wd4267;/wd4090;/wd4068;/MD;/O2;/Ob2;/DNDEBUG;
CUDA driver:        11.10
CUDA runtime:       10.10

还比较了log文件中的参数部分,除了超算版的最前面多了一句:
Non-default thread affinity set, disabling internal thread affinity
其它部分都相同

麻烦大家指点下

2422

帖子

1

威望

6157

eV
积分
8599

Level 6 (一方通行)

2#
发表于 Post on 2021-12-27 21:18:52 | 只看该作者 Only view this author
Tesla V100,专业卡,gmx又用不到双精度浮点运算
2060,是先进的Turing 架构。

如果都采用cuda10处理,
2060快,是正常的。

差距这么大是否合理,
不清楚,我手里没有这东西,没法测试。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

1664

帖子

5

威望

4770

eV
积分
6534

Level 6 (一方通行)

喵星人

3#
发表于 Post on 2021-12-27 22:54:11 | 只看该作者 Only view this author
本帖最后由 喵星大佬 于 2021-12-28 00:53 编辑

v100绝对比2060快得多的多,都是图灵架构的,这代V100无论是单张性能还是多卡并行绝对都是同代产品最高的,见https://developer.nvidia.com/hpc-application-performance

看V100的速度比T4(服务器版RTX8000,相当于满血增强版2080Ti)单张快近50%,并且多卡并行效率也远远超过,肯定是编译/运行设置/运行参数问题

注意,用TESLA的话单张也要分多个rank,并手动分配PME的rank!20后的版本一定要-update gpu,巨幅提升,还有就是看下超算上gpu节点的cpu,太烂的话有可能问题在这,看你越多opm越慢可能是没同时申请那么多cpu核?自己检查一下作业提交脚本,omp必须有对应的物理cpu核



仔细优化运行参数,建议用20以后的版本,不过需要更新的gcc,自己看下怎么弄新的gcc(问超算管理员),参数设置参考https://developer.nvidia.com/blo ... -with-gromacs-2020/




1169

帖子

7

威望

6828

eV
积分
8137

Level 6 (一方通行)

4#
发表于 Post on 2021-12-28 10:01:41 | 只看该作者 Only view this author
我觉得MD软件没有任何理由不用最新版本(除非有个你想用的功能被删了)

GMX2019都没有实现纯GPU的代码,还要依赖CPU,影响因素就多了

1664

帖子

5

威望

4770

eV
积分
6534

Level 6 (一方通行)

喵星人

5#
发表于 Post on 2021-12-28 10:29:48 | 只看该作者 Only view this author
fhh2626 发表于 2021-12-28 10:01
我觉得MD软件没有任何理由不用最新版本(除非有个你想用的功能被删了)

GMX2019都没有实现纯GPU的代码, ...

2021都没有实现纯GPU。。。。何况2019,GPU少的时候这个看不出来,大规模并行(>8GPU)就会输给Amber和NAMD3(根据NV的测试)

1664

帖子

5

威望

4770

eV
积分
6534

Level 6 (一方通行)

喵星人

6#
发表于 Post on 2021-12-28 10:36:52 | 只看该作者 Only view this author
fhh2626 发表于 2021-12-28 10:01
我觉得MD软件没有任何理由不用最新版本(除非有个你想用的功能被删了)

GMX2019都没有实现纯GPU的代码, ...

不过有一个事情不是很理解就是Amber和NAMD3是如何做到在PME的时候也能有线性的并行效率的(1-8GPU)

1169

帖子

7

威望

6828

eV
积分
8137

Level 6 (一方通行)

7#
发表于 Post on 2021-12-28 11:11:46 | 只看该作者 Only view this author
喵星大佬 发表于 2021-12-28 10:29
2021都没有实现纯GPU。。。。何况2019,GPU少的时候这个看不出来,大规模并行(>8GPU)就会输给Amber和NAMD ...

NAMD可以吗?我咋感觉两个GPU就达不到线性效率了,难道是我打开的姿势不对

1664

帖子

5

威望

4770

eV
积分
6534

Level 6 (一方通行)

喵星人

8#
发表于 Post on 2021-12-28 11:24:26 | 只看该作者 Only view this author
本帖最后由 喵星大佬 于 2021-12-28 12:49 编辑
fhh2626 发表于 2021-12-28 11:11
NAMD可以吗?我咋感觉两个GPU就达不到线性效率了,难道是我打开的姿势不对

我看Nvidia的那个测试里面是这样的,链接在上面


不管多大体系感觉都是线性的

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2026-1-25 04:13 , Processed in 0.179840 second(s), 23 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list