计算化学公社

标题: windows11原生gromacs，gpu加速，这速度是否正常吗 [打印本页]

作者
Author: star2128 时间: 2023-4-15 09:25
标题: windows11原生gromacs，gpu加速，这速度是否正常吗
本帖最后由 star2128 于 2023-4-15 10:09 编辑

买了台笔记本电脑（13900HX+RTX4060,16G+1T），主要还是办公，想顺道试试gpu对gromacs的加速效果。装了虚拟机，centOS8系统，后来发现虚拟机不支持GPU加速。好在sobereva老师分享了sobereva.com/458的博文，安装博文成功安装了2020.6 CUDA GPU加速版，用gmx solvate -box 3 3 3 -o waterbox.gro产生的水盒子模型，力场用的gromos54a7.ff/spce.itp。产生相模拟了1 ns，表现如图1所示，用时149s。模拟过程中，GPU占用始终在40%左右，感觉利用率不高啊。分别测试了不开GPU加速，独显+集显混合模式以及独显直连模式，用时分别为167s，149s和159s。独显模式下，模拟时N卡占用率来到了100%; 而混合模式下N卡占用率为0%，也就是用的intel的集显加速，用时反而比N卡短，令人费解。感觉开了加速和没加速区别不是很大。我在运行任务的时候，用的gmx mdrun -v -deffnm prod -nb gpu。根据chatgpt的回答“-nb gpu参数表示使用GPU进行非键相互作用计算。如果您的GPU支持CUDA，您还需要在输入命令时添加-cuda参数，如下所示：gmx mdrun -v -deffnm prod -nb gpu -cuda”。但是我加上-cuda，会提示“Invalid command-line options Unkonwn commond-line option -cuda”。加不加-cuda是否有影响？有没有提升空间了，还是说笔记本加中低端显卡性能差不多也就这样了。同样任务在8375C双路服务器上用纯CPU版GROMACS.2020_ompi跑，用时38s，如图2所示。请各位给帮忙看一下，这种表现正常吗？

作者
Author: sobereva 时间: 2023-4-15 19:50
记得加上-update gpu

发帖时别直接贴chatGPT的回答，毫无意义，除非你用google查询了资料确认了chatGPT没有在胡说八道

作者
Author: star2128 时间: 2023-4-15 20:44
看来它确实在胡说。好的，谢谢了。我再测试下。

作者
Author: star2128 时间: 2023-4-15 20:48

sobereva 发表于 2023-4-15 19:50
记得加上-update gpu

发帖时别直接贴chatGPT的回答，毫无意义，除非你用google查询了资料确认了chatGPT ...

好的，那想用N卡而非集显，就是靠调成独显直连就可以了是吧？

作者
Author: Kmetsch 时间: 2023-4-15 22:04

star2128 发表于 2023-4-15 20:48
好的，那想用N卡而非集显，就是靠调成独显直连就可以了是吧？

从你的配置大概猜是HP或者Lenovo的游戏本，独显直连与否只会影响视频输出至屏幕，对于计算应该是没有影响。建议可以看一下二者利用时是不是存在默认gpu的改变，以及CPU对GPU的核数分配的问题。另外4060的显卡加速可能一般，cuda数太少了

作者
Author: Entropy.S.I 时间: 2023-4-15 22:53
本帖最后由 Entropy.S.I 于 2023-4-16 05:58 编辑

不要在 W i n d o w s 下跑 G M X
windows下openmp没法绑核，系统臃肿，一大堆进程在后台抢资源（有些进程还会经常莫名其妙地突然占用大半CPU资源），编译GMX又复杂，编译器/软件支持又慢，简直自取其辱

“根据chatgpt的回答xxx”这种说法更是离谱至极

作者
Author: star2128 时间: 2023-4-16 22:28

Entropy.S.I 发表于 2023-4-15 22:53
不要在 W i n d o w s 下跑 G M X
windows下openmp没法绑核，系统臃肿，一大堆进程在后 ...

虚拟机装linux不是也不支持GPU加速吗，那就是说想要GPU加速的话，只能买个服务器老老实实装linux跑了吧。不玩游戏，本来换电脑想兼顾跑跑GROMACS才买的带显卡的，现在看很鸡肋了。

作者
Author: star2128 时间: 2023-4-16 22:29

Kmetsch 发表于 2023-4-15 22:04
从你的配置大概猜是HP或者Lenovo的游戏本，独显直连与否只会影响视频输出至屏幕，对于计算应该是没有影响 ...

戴尔G16，键盘回弹故障换新中，捣鼓了两三天，一夜清零

作者
Author: Entropy.S.I 时间: 2023-4-16 23:13
本帖最后由 Entropy.S.I 于 2023-4-16 23:31 编辑

star2128 发表于 2023-4-16 22:28
虚拟机装linux不是也不支持GPU加速吗，那就是说想要GPU加速的话，只能买个服务器老老实实装linux跑了吧。 ...

加块盘装Linux不就行了。也可以用Linux to go，即把Linux装在移动SSD中，我刚开始玩Linux时，就是这么做的

更合适的做法是工作站/服务器配轻薄本，配置好虚拟专用网络，体验非常好。http://bbs.keinsci.com/thread-35277-1-1.html

作者
Author: sobereva 时间: 2023-4-16 23:38

star2128 发表于 2023-4-16 22:28
虚拟机装linux不是也不支持GPU加速吗，那就是说想要GPU加速的话，只能买个服务器老老实实装linux跑了吧。 ...

GROMACS-GPU版在wsl2中Ubuntu18.04中的安装方法
http://bbs.keinsci.com/thread-25516-1-1.html

文种做法我没亲自试过

作者
Author: star2128 时间: 2023-4-17 07:26

Entropy.S.I 发表于 2023-4-16 23:13
加块盘装Linux不就行了。也可以用Linux to go，即把Linux装在移动SSD中，我刚开始玩Linux时，就是这么做 ...

轻薄本+服务器的组合现在是有的。但是服务器自己不会维护，卖家承诺的三年内免费维护。就想着自己也得掌握写linux使用维护基础，软件编译等等。笔记本玩机练习的想法更多一些，生产力还得考服务器。我现在是两台双路8375C组的小型IB集群，主要是做一些VASP和CP2K的性质计算以及AIMD，研究领域是储能电池。目前对deepmd比较感兴趣，也正在学习，现在用dpgen能调用资源进行势函数训练了，感觉纯CPU训练速度有些缓慢。下一步计划是大概6w左右的预算，购置两台GPU服务器，或者一台双卡服务器，主要用于势函数训练，而势函数训练两块主要内容，一个是深度神经网络训练，一个是用lammps进行相空间探索，都比较吃GPU，但是具体单精度还是双精度就不是很懂了。本来看到的两种配置，一种是配两台13900+4090的主机，接入集群，另一种配置是买台4310+双卡4090，这个会便宜一些，4w~4.5w，但是CPU会比较弱，对lammps会有影响，对深度学习不知道是否有影响。我看您给我发的连接中说“仅有的那些支持GPU加速的任务需要很强的FP64性能，使用游戏GPU获得的性能提升非常低，二手市场捡块白菜价的P100都能打败顶级游戏GPU。” 我看4090单精度算力好像比计算卡强很多，显存24G也不差，但是不知道目前我的这个情况，是需要双精度还是单精度算力，买消费级的卡还是计算卡。您应该是专门做软硬件的吧，我这个4~6w的运算，有没有合理的建议？谢谢啦，也可以找你买哟。

作者
Author: star2128 时间: 2023-4-17 07:34

sobereva 发表于 2023-4-16 23:38
GROMACS-GPU版在wsl2中Ubuntu18.04中的安装方法
http://bbs.keinsci.com/thread-25516-1-1.html

谢谢sobereva老师，感慨于您精力太旺盛了！群里还有论坛都能覆盖到，培训价格也非常厚道，内容详实程度和专业性绝非盈利性培训机构能比的，我最开始是入坑的深圳某算，基础班+进阶4000块钱，只学会了如何把任务运行起来。感谢建议，我都会试一试的。

作者
Author: star2128 时间: 2023-4-17 08:14

sobereva 发表于 2023-4-16 23:38
GROMACS-GPU版在wsl2中Ubuntu18.04中的安装方法
http://bbs.keinsci.com/thread-25516-1-1.html

感谢，我再尝试下

作者
Author: Entropy.S.I 时间: 2023-4-17 12:32
本帖最后由 Entropy.S.I 于 2023-4-17 12:38 编辑

star2128 发表于 2023-4-17 07:26
轻薄本+服务器的组合现在是有的。但是服务器自己不会维护，卖家承诺的三年内免费维护。就想着自己也得掌 ...

“lammps进行相空间探索”最好明确一下你要使用什么力场/势函数。http://bbs.keinsci.com/thread-35988-1-1.html，3.2节：

对于真·经典MD模型（比如前面测试用的LJ2.5），4090的性能有A100的50%左右，而对于涉及反应力场、多体势函数的模型，4090只有A100的不到20%性能，但即使这样，目前4090性价比还是明显高于A100。

去http://bbs.keinsci.com/thread-35960-1-1.html的SI中找到Lammps数据，和NVIDIA的测试（https://developer.nvidia.com/hpc-application-performance）对照，可以得出上述结论。 (, 下载次数 Times of downloads: 29)

不过无论用什么力场，性价比最高的方案还是捡老计算卡，比如P100、V100；但是你还要训练DPMD模型，考虑到此事，还是应该用4090；Lammps也可以用你手里已有的双路8375C机器跑，估计单机性能和1块4090差不多。

预算6万左右，推荐2台13900KF+1块4090，约4.6万；如果想要花完预算，剩下的预算再买1块4090插到8375C机器上，或者把其中一台13900KF+1块4090改成13900KF+2块4090（不能随便配，要么用PCIe拆分线，要么加钱用有2条直连CPU且支持x8+x8模式的PCIe slot的主板和一体水冷4090）。

如果要玩比较大的模型，也可以考虑单台13900KF+RTX6000Ada，一台6万多（RTX6000Ada就将近6万，主要优势是具有48GB的VRAM）。

作者
Author: star2128 时间: 2023-4-18 11:08

Entropy.S.I 发表于 2023-4-17 12:32
“lammps进行相空间探索”最好明确一下你要使用什么力场/势函数。http://bbs.keinsci.com/thread-35988-1 ...

好专业啊，我学习学习

欢迎光临计算化学公社 (http://bbs.keinsci.com/)