计算化学公社

 找回密码 Forget password
 注册 Register

Centos stream 9 安装Gromacs 2023.1(GPU加速版)教程

查看数: 6622 | 评论数: 35 | 收藏 Add to favorites 14
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2023-5-22 23:46

正文摘要:

本帖最后由 欢乐多 于 2024-3-19 06:39 编辑 笔者的电脑使用Centos stream 9一段时间后频繁死机,一个计算任务算开始一两个小时后,就无故死机,也没有找到系统报错日志,需要重启恢复,严重影响正常工作,(经过 ...

回复 Reply

wangyueda 发表于 Post on 2024-3-8 15:01:42
Entropy.S.I 发表于 2023-5-23 14:13
如果GPU是Ada架构,改用2022.5可获得近10%的性能提升。
http://bbs.keinsci.com/thread-35960-1-1.html
...

请问下,当前时间可以使用GMX 2023.4版本了吗?其GPU加速效果相较于2022版本是否有了较大提升?
欢乐多 发表于 Post on 2024-1-15 10:21:05
jim 发表于 2024-1-13 11:26
请教一下,请问禁用了哪些默认驱动?禁用默认驱动的目的是什么呀?
我按照sob老师的帖子和本帖内容,想从2 ...

硬件有两个显卡,一是主板内置的显卡(驱动是centos系统自带的驱动),另一是装的GTX4090显卡(驱动是另外安装的NVIDIA驱动),禁用的驱动是系统自带的驱动,使得能够使用NVIDIA的驱动,这样Gromacs能够调用。您的截图好像是安装make问题,估计安装不成功跟驱动关系不大。估计是cmake3的问题,可尝试重新安装cmake3.
jim 发表于 Post on 2024-1-13 11:26:23
请教一下,请问禁用了哪些默认驱动?禁用默认驱动的目的是什么呀?
我按照sob老师的帖子和本帖内容,想从2022.5升级到2023.2,一直都没成功。
报错提示如图:


请问各位老师如何解决?

QQ图片20240113104259.png (52.75 KB, 下载次数 Times of downloads: 19)

QQ图片20240113104259.png
Amphibiouskii 发表于 Post on 2023-6-19 19:40:34

好的,非常感谢!
牧生 发表于 Post on 2023-6-17 19:53:19
Amphibiouskii 发表于 2023-6-17 16:31
大佬好,请问第二步

这里的在末尾添加是在引号内还是引号外啊?还有就是我这里的原始显示是:

末尾的引号内
Amphibiouskii 发表于 Post on 2023-6-17 16:31:36
牧生 发表于 2023-5-24 11:29
补充一个我的方案,我用的是rockylinux 9.2,其中,在禁用默认的驱动程序这一步,简单多了
第一步.
vim / ...

大佬好,请问第二步
GRUB_CMDLINE_LINUX="XXXXXXXXXXXXXXXXX=nouveaunouveau.modeset=0" #在末尾添加rd.driver.blacklist=nouveaunouveau.modeset=0 modprobe.blacklist=nouveau,
保存退出,然后运行

这里的在末尾添加是在引号内还是引号外啊?还有就是我这里的原始显示是:
  1. GRUB_CMDLINE_LINUX="crashkernel=auto resume=M3UUID=2cee213f-d2c7-415c-9699-35477a765aca rhgb quiet"
复制代码

引号内的部分需要跟楼主改成一样的吗,还是保持原样直接添加就行?
MercuryLamp 发表于 Post on 2023-6-4 12:36:00
本帖最后由 MercuryLamp 于 2023-6-4 17:24 编辑
Entropy.S.I 发表于 2023-6-4 12:30
问题很明确,就是我前面推测的,主板把PCIe Generation限制在Gen1了。应该去主板BIOS中修正此选项为auto ...

好的,非常感谢您的指导

更新:这边按您的意见先进bios看了一下相关选项,发现已经是auto了。但主板bios版本太老了(F2),官网最新版本为F6b,更新bios版本后重新输入nvidia-smi -q | grep 'GPU Link Info' -A 9,输出为:
  1. GPU Link Info
  2.     PCIe Generation
  3.         Max                       : 4
  4.         Current                   : 4
  5.         Device Current            : 4
  6.         Device Max                : 4
  7.         Host Max                  : 5
  8.     Link Width
  9.         Max                       : 16x
  10.         Current                   : 16x
复制代码


又拿benchmark中的A进行了测试,速度与之前相比有着巨大的提升,但与您的参考数据仍有一点差距(多核时约为10%-20%),不知能否让性能再提升一点。


性能比较-A.png (126.78 KB, 下载次数 Times of downloads: 11)

性能比较-A.png
Entropy.S.I 发表于 Post on 2023-6-4 12:30:58
MercuryLamp 发表于 2023-6-4 11:00
好的,感谢您的建议,我们这边再排查看看

update:我用A这个例子又测试了一下,发现不管有没有任务运 ...

问题很明确,就是我前面推测的,主板把PCIe Generation限制在Gen1了。应该去主板BIOS中修正此选项为auto。顺便也建议先更新主板BIOS,最新BIOS在主板官网下载。
MercuryLamp 发表于 Post on 2023-6-4 11:00:22
本帖最后由 MercuryLamp 于 2023-6-4 12:14 编辑
Entropy.S.I 发表于 2023-6-4 00:00
后面几个百万、千万原子的模型,CPU没啥瓶颈,核数分多了用不满,正常。

你提供的log我看过了,和这一 ...

好的,感谢您的建议,我们这边再排查看看

update:我用A这个例子又测试了一下,发现不管有没有任务运行,nvidia-smi -q | grep 'GPU Link Info' -A 9的输出均为:
  1. GPU Link Info
  2.     PCIe Generation
  3.         Max                       : 1
  4.         Current                   : 1
  5.         Device Current            : 1
  6.         Device Max                : 4
  7.         Host Max                  : 1
  8.     Link Width
  9.         Max                       : 16x
  10.         Current                   : 16x
复制代码


Entropy.S.I 发表于 Post on 2023-6-4 00:00:23
本帖最后由 Entropy.S.I 于 2023-6-4 00:07 编辑
MercuryLamp 发表于 2023-6-3 23:11
大佬您好,受您的指导,我们又做了一次测试,并监测了GPU和CPU的实时数据,发现在测试STMV和benchPEP-h这 ...

后面几个百万、千万原子的模型,CPU没啥瓶颈,核数分多了用不满,正常。

你提供的log我看过了,和这一模一样的情况我没遇到过,目前还是比较怀疑问题出在PCIe通信上。目前我能提供的下一步排查思路是:在跑mdrun的时候使用nvidia-smi -q | grep 'GPU Link Info' -A 9命令查看PCIe Generation > Current和Link Width > Current这2项,检查一下PCIe实际的链接速率是否为Gen4 x16,说不定是BIOS把PCIe Generation限制在Gen1了……

没必要把我之前benchmark的那些任务老实跑完,浪费时间,手动跑几个就行了。
MercuryLamp 发表于 Post on 2023-6-3 23:11:38
本帖最后由 MercuryLamp 于 2023-6-3 23:13 编辑
Entropy.S.I 发表于 2023-6-2 20:43
这是Kepler架构GPU的SM编号,CUDA 12移除了对Kepler架构的支持,所以检测不到相应的flags。这完全不影响4 ...

大佬您好,受您的指导,我们又做了一次测试,并监测了GPU和CPU的实时数据,发现在测试STMV和benchPEP-h这两个例子时,CPU确实存在未完全使用的问题,但感觉可能还有其他原因,因为前面几个例子(A, A-2, B, B-TI)在测试时CPU是全部使用了的,对于bonded CPU的一些输出文件我打包在了附件的压缩包中(GPU-resident的数据还在测试中),还望您能再抽空指导一下,万分感谢

例STMV-NPT出现cpu未全部使用的情况.png (105.75 KB, 下载次数 Times of downloads: 18)

例STMV-NPT出现cpu未全部使用的情况.png

例benchPEP-h也出现cpu未全部使用的情况.png (104.91 KB, 下载次数 Times of downloads: 19)

例benchPEP-h也出现cpu未全部使用的情况.png

output_log.rar

1.5 MB, 下载次数 Times of downloads: 6

MercuryLamp 发表于 Post on 2023-6-2 22:47:34
Entropy.S.I 发表于 2023-6-2 20:43
这是Kepler架构GPU的SM编号,CUDA 12移除了对Kepler架构的支持,所以检测不到相应的flags。这完全不影响4 ...

好的,非常感谢您的建议,我们这边再测试一下,之后再将结果拿过来请教您
Entropy.S.I 发表于 Post on 2023-6-2 20:43:43
MercuryLamp 发表于 2023-6-2 19:16
谢谢您的回复,不过我们这边刚刚检查了一下,是没有插错的,我们这边再找找有没有其他问题,谢谢您

up ...

这是Kepler架构GPU的SM编号,CUDA 12移除了对Kepler架构的支持,所以检测不到相应的flags。这完全不影响4090,所以不是你GMX性能不正常的原因。

建议在运行mdrun时使用"nvidia-smi dmon -s pucvmt -o T"命令监测GPU实时详细性能数据(可以加上-f [输出文件名]以将所有信息直接保存到文本文件中),使用s-tui工具检测CPU实时功耗、各核心频率等数据,以进一步排查问题。另外,也把mdrun的log上传一下。
MercuryLamp 发表于 Post on 2023-6-2 19:16:28
本帖最后由 MercuryLamp 于 2023-6-2 19:46 编辑
Entropy.S.I 发表于 2023-6-2 12:21
怀疑你把4090插在了不正确的PCIe slot上。刚刚回完一个贴http://bbs.keinsci.com/thread-37587-1-1.html  ...

谢谢您的回复,不过我们这边刚刚检查了一下,是没有插错的,我们这边再找找有没有其他问题,谢谢您

update:我在看cmake的输出时,发现了如下的输出,不知这个是否会有影响?
  1. -- Adding work-around for issue compiling CUDA code with glibc 2.23 string.h
  2. -- Check for working NVCC/C++ compiler combination with nvcc '/usr/local/cuda-12.1/bin/nvcc'
  3. -- Check for working NVCC/C++ compiler combination - works
  4. -- Checking if nvcc accepts flags --generate-code=arch=compute_35,code=sm_35
  5. -- Checking if nvcc accepts flags --generate-code=arch=compute_35,code=sm_35 - Failed
  6. -- Checking if nvcc accepts flags --generate-code=arch=compute_37,code=sm_37
  7. -- Checking if nvcc accepts flags --generate-code=arch=compute_37,code=sm_37 - Failed
复制代码
完整的输出中我也发现了一些其他的含Failed的内容,不知有没有大佬能帮忙解答一下

cmake.out

13.34 KB, 下载次数 Times of downloads: 1

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 18:49 , Processed in 0.209364 second(s), 27 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list