计算化学公社

 找回密码 Forget password
 注册 Register
楼主 Author: 欢乐多
打印 Print 上一主题 Last thread 下一主题 Next thread

[GROMACS] Centos stream 9 安装Gromacs 2023.1(GPU加速版)教程

[复制链接 Copy URL]

846

帖子

16

威望

4634

eV
积分
5800

Level 6 (一方通行)

小屁孩

16#
发表于 Post on 2023-6-1 17:25:57 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2023-6-1 17:31 编辑
MercuryLamp 发表于 2023-6-1 16:53
您好,这是我们课题组的另一台机器,cpu是7950x,gpu是4090。其他配置的话参考了这个帖子(http://bbs.ke ...

模型太小,才3400原子,如今跑正经的经典MD不可能使用如此小的模型,故不具有参考价值。

应该使用10万原子以上的模型进行测试,这才是如今主流的尺度。具体模型,可以用GMX官方的https://www.mpinat.mpg.de/grubmueller/bench
和此论文的“DATA AVAILABILITY”中的J. Chem. Phys. 2020, 153, 134110

也可以下载我去年10月测试文章的SI,用脚本一键运行。不要被.exe格式劝退,那是个自解压压缩包,在Windows下双击即可解压。用自解压压缩包是因为阿里云盘不能分享一般的压缩包。
- 向着虚无前进 -

109

帖子

0

威望

1730

eV
积分
1839

Level 5 (御坂)

17#
发表于 Post on 2023-6-1 17:44:40 | 只看该作者 Only view this author
Entropy.S.I 发表于 2023-6-1 17:25
模型太小,才3400原子,如今跑正经的经典MD不可能使用如此小的模型,故不具有参考价值。

应该使用10万 ...

好的,感谢您的意见,我试一下

141

帖子

4

威望

1406

eV
积分
1627

Level 5 (御坂)

科研泥瓦匠

18#
 楼主 Author| 发表于 Post on 2023-6-2 02:52:10 | 只看该作者 Only view this author
MercuryLamp 发表于 2023-6-1 12:48
您好,请问您有测试gromacs 2022.5的性能数据吗?我这边除了fftw是按照卢老师的教程先编译好的外,其他步骤 ...

Gromacs 2023.1(3200 ns/day)要比Gromacs 2022.5(2400 ns/day)快一些,跟软件也有关系
终日寻春不见春
芒鞋踏破岭头云
归来偶把梅花嗅
春在枝头已十分

109

帖子

0

威望

1730

eV
积分
1839

Level 5 (御坂)

19#
发表于 Post on 2023-6-2 09:06:26 | 只看该作者 Only view this author
欢乐多 发表于 2023-6-2 02:52
Gromacs 2023.1(3200 ns/day)要比Gromacs 2022.5(2400 ns/day)快一些,跟软件也有关系

哦哦,好的,非常感谢

846

帖子

16

威望

4634

eV
积分
5800

Level 6 (一方通行)

小屁孩

20#
发表于 Post on 2023-6-2 09:49:12 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2023-6-2 09:50 编辑
欢乐多 发表于 2023-6-2 02:52
Gromacs 2023.1(3200 ns/day)要比Gromacs 2022.5(2400 ns/day)快一些,跟软件也有关系

启用CUDA graph功能,小体系性能还能提升一截。CUDA graph是一种新的GPU任务调度机制,可以减少GPU驱动的CPU开销。
https://manual.gromacs.org/2023/ ... or/performance.html
https://gitlab.com/gromacs/gromacs/-/issues/4277
- 向着虚无前进 -

109

帖子

0

威望

1730

eV
积分
1839

Level 5 (御坂)

21#
发表于 Post on 2023-6-2 10:44:38 | 只看该作者 Only view this author
本帖最后由 MercuryLamp 于 2023-6-2 12:09 编辑
Entropy.S.I 发表于 2023-6-1 17:25
模型太小,才3400原子,如今跑正经的经典MD不可能使用如此小的模型,故不具有参考价值。

应该使用10万 ...

大佬您好,我按照您的建议下载了您去年10月测试文章(http://bbs.keinsci.com/thread-33296-1-1.html)的SI进行了测试。因为我使用的是GMX2022.5和CUDA12.1,因此我与您3月份文章(http://bbs.keinsci.com/thread-35960-1-1.html)中的数据进行了对比,发现似乎不管是bonded CPU还是GPU-resident,我测试出的性能都低于您测试的数据,且在核数较少时,随核数增多,性能差异越来越大,具体的测试数据我放在了附件的xlsx文件中,想请教一下您这可能是什么原因造成的呢?如果您有空的话能否帮我分析一下,万分感谢。

我们这边机器硬件为:
CPU—7950X,GPU—4090,内存—2*金百达银爵DDR5 6400MT/s CL32,主板—技嘉B650M AORUS ELITE AX 小雕
软件环境为:
Rocky Linux 9.2;Linux version 5.14.0-284.11.1.el9_2.x86_64;GNU11.3; CUDA Toolkit 12.1; NVIDIA GPU Driver 530.30.02

A_bonded CPU性能比较.png (18.88 KB, 下载次数 Times of downloads: 18)

A_bonded CPU性能比较.png

7950X-4090-GMX2022.5-CUDA12.1性能比较.xlsx

74.32 KB, 下载次数 Times of downloads: 1

846

帖子

16

威望

4634

eV
积分
5800

Level 6 (一方通行)

小屁孩

22#
发表于 Post on 2023-6-2 12:21:20 | 只看该作者 Only view this author
MercuryLamp 发表于 2023-6-2 10:44
大佬您好,我按照您的建议下载了您去年10月测试文章(http://bbs.keinsci.com/thread-33296-1-1.html)的 ...

怀疑你把4090插在了不正确的PCIe slot上。刚刚回完一个贴http://bbs.keinsci.com/thread-37587-1-1.html 8楼
- 向着虚无前进 -

109

帖子

0

威望

1730

eV
积分
1839

Level 5 (御坂)

23#
发表于 Post on 2023-6-2 19:16:28 | 只看该作者 Only view this author
本帖最后由 MercuryLamp 于 2023-6-2 19:46 编辑
Entropy.S.I 发表于 2023-6-2 12:21
怀疑你把4090插在了不正确的PCIe slot上。刚刚回完一个贴http://bbs.keinsci.com/thread-37587-1-1.html  ...

谢谢您的回复,不过我们这边刚刚检查了一下,是没有插错的,我们这边再找找有没有其他问题,谢谢您

update:我在看cmake的输出时,发现了如下的输出,不知这个是否会有影响?
  1. -- Adding work-around for issue compiling CUDA code with glibc 2.23 string.h
  2. -- Check for working NVCC/C++ compiler combination with nvcc '/usr/local/cuda-12.1/bin/nvcc'
  3. -- Check for working NVCC/C++ compiler combination - works
  4. -- Checking if nvcc accepts flags --generate-code=arch=compute_35,code=sm_35
  5. -- Checking if nvcc accepts flags --generate-code=arch=compute_35,code=sm_35 - Failed
  6. -- Checking if nvcc accepts flags --generate-code=arch=compute_37,code=sm_37
  7. -- Checking if nvcc accepts flags --generate-code=arch=compute_37,code=sm_37 - Failed
复制代码
完整的输出中我也发现了一些其他的含Failed的内容,不知有没有大佬能帮忙解答一下

cmake.out

13.34 KB, 下载次数 Times of downloads: 1

846

帖子

16

威望

4634

eV
积分
5800

Level 6 (一方通行)

小屁孩

24#
发表于 Post on 2023-6-2 20:43:43 | 只看该作者 Only view this author
MercuryLamp 发表于 2023-6-2 19:16
谢谢您的回复,不过我们这边刚刚检查了一下,是没有插错的,我们这边再找找有没有其他问题,谢谢您

up ...

这是Kepler架构GPU的SM编号,CUDA 12移除了对Kepler架构的支持,所以检测不到相应的flags。这完全不影响4090,所以不是你GMX性能不正常的原因。

建议在运行mdrun时使用"nvidia-smi dmon -s pucvmt -o T"命令监测GPU实时详细性能数据(可以加上-f [输出文件名]以将所有信息直接保存到文本文件中),使用s-tui工具检测CPU实时功耗、各核心频率等数据,以进一步排查问题。另外,也把mdrun的log上传一下。
- 向着虚无前进 -

109

帖子

0

威望

1730

eV
积分
1839

Level 5 (御坂)

25#
发表于 Post on 2023-6-2 22:47:34 | 只看该作者 Only view this author
Entropy.S.I 发表于 2023-6-2 20:43
这是Kepler架构GPU的SM编号,CUDA 12移除了对Kepler架构的支持,所以检测不到相应的flags。这完全不影响4 ...

好的,非常感谢您的建议,我们这边再测试一下,之后再将结果拿过来请教您

109

帖子

0

威望

1730

eV
积分
1839

Level 5 (御坂)

26#
发表于 Post on 2023-6-3 23:11:38 | 只看该作者 Only view this author
本帖最后由 MercuryLamp 于 2023-6-3 23:13 编辑
Entropy.S.I 发表于 2023-6-2 20:43
这是Kepler架构GPU的SM编号,CUDA 12移除了对Kepler架构的支持,所以检测不到相应的flags。这完全不影响4 ...

大佬您好,受您的指导,我们又做了一次测试,并监测了GPU和CPU的实时数据,发现在测试STMV和benchPEP-h这两个例子时,CPU确实存在未完全使用的问题,但感觉可能还有其他原因,因为前面几个例子(A, A-2, B, B-TI)在测试时CPU是全部使用了的,对于bonded CPU的一些输出文件我打包在了附件的压缩包中(GPU-resident的数据还在测试中),还望您能再抽空指导一下,万分感谢

例STMV-NPT出现cpu未全部使用的情况.png (105.75 KB, 下载次数 Times of downloads: 18)

例STMV-NPT出现cpu未全部使用的情况.png

例benchPEP-h也出现cpu未全部使用的情况.png (104.91 KB, 下载次数 Times of downloads: 19)

例benchPEP-h也出现cpu未全部使用的情况.png

output_log.rar

1.5 MB, 下载次数 Times of downloads: 6

846

帖子

16

威望

4634

eV
积分
5800

Level 6 (一方通行)

小屁孩

27#
发表于 Post on 2023-6-4 00:00:23 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2023-6-4 00:07 编辑
MercuryLamp 发表于 2023-6-3 23:11
大佬您好,受您的指导,我们又做了一次测试,并监测了GPU和CPU的实时数据,发现在测试STMV和benchPEP-h这 ...

后面几个百万、千万原子的模型,CPU没啥瓶颈,核数分多了用不满,正常。

你提供的log我看过了,和这一模一样的情况我没遇到过,目前还是比较怀疑问题出在PCIe通信上。目前我能提供的下一步排查思路是:在跑mdrun的时候使用nvidia-smi -q | grep 'GPU Link Info' -A 9命令查看PCIe Generation > Current和Link Width > Current这2项,检查一下PCIe实际的链接速率是否为Gen4 x16,说不定是BIOS把PCIe Generation限制在Gen1了……

没必要把我之前benchmark的那些任务老实跑完,浪费时间,手动跑几个就行了。
- 向着虚无前进 -

109

帖子

0

威望

1730

eV
积分
1839

Level 5 (御坂)

28#
发表于 Post on 2023-6-4 11:00:22 | 只看该作者 Only view this author
本帖最后由 MercuryLamp 于 2023-6-4 12:14 编辑
Entropy.S.I 发表于 2023-6-4 00:00
后面几个百万、千万原子的模型,CPU没啥瓶颈,核数分多了用不满,正常。

你提供的log我看过了,和这一 ...

好的,感谢您的建议,我们这边再排查看看

update:我用A这个例子又测试了一下,发现不管有没有任务运行,nvidia-smi -q | grep 'GPU Link Info' -A 9的输出均为:
  1. GPU Link Info
  2.     PCIe Generation
  3.         Max                       : 1
  4.         Current                   : 1
  5.         Device Current            : 1
  6.         Device Max                : 4
  7.         Host Max                  : 1
  8.     Link Width
  9.         Max                       : 16x
  10.         Current                   : 16x
复制代码


846

帖子

16

威望

4634

eV
积分
5800

Level 6 (一方通行)

小屁孩

29#
发表于 Post on 2023-6-4 12:30:58 | 只看该作者 Only view this author
MercuryLamp 发表于 2023-6-4 11:00
好的,感谢您的建议,我们这边再排查看看

update:我用A这个例子又测试了一下,发现不管有没有任务运 ...

问题很明确,就是我前面推测的,主板把PCIe Generation限制在Gen1了。应该去主板BIOS中修正此选项为auto。顺便也建议先更新主板BIOS,最新BIOS在主板官网下载。
- 向着虚无前进 -

109

帖子

0

威望

1730

eV
积分
1839

Level 5 (御坂)

30#
发表于 Post on 2023-6-4 12:36:00 | 只看该作者 Only view this author
本帖最后由 MercuryLamp 于 2023-6-4 17:24 编辑
Entropy.S.I 发表于 2023-6-4 12:30
问题很明确,就是我前面推测的,主板把PCIe Generation限制在Gen1了。应该去主板BIOS中修正此选项为auto ...

好的,非常感谢您的指导

更新:这边按您的意见先进bios看了一下相关选项,发现已经是auto了。但主板bios版本太老了(F2),官网最新版本为F6b,更新bios版本后重新输入nvidia-smi -q | grep 'GPU Link Info' -A 9,输出为:
  1. GPU Link Info
  2.     PCIe Generation
  3.         Max                       : 4
  4.         Current                   : 4
  5.         Device Current            : 4
  6.         Device Max                : 4
  7.         Host Max                  : 5
  8.     Link Width
  9.         Max                       : 16x
  10.         Current                   : 16x
复制代码


又拿benchmark中的A进行了测试,速度与之前相比有着巨大的提升,但与您的参考数据仍有一点差距(多核时约为10%-20%),不知能否让性能再提升一点。


性能比较-A.png (126.78 KB, 下载次数 Times of downloads: 11)

性能比较-A.png

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 19:08 , Processed in 0.195290 second(s), 23 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list