计算化学公社

标题: windows11原生gromacs,gpu加速,这速度是否正常吗 [打印本页]

作者
Author:
star2128    时间: 2023-4-15 09:25
标题: windows11原生gromacs,gpu加速,这速度是否正常吗
本帖最后由 star2128 于 2023-4-15 10:09 编辑

    买了台笔记本电脑(13900HX+RTX4060,16G+1T),主要还是办公,想顺道试试gpu对gromacs的加速效果。装了虚拟机,centOS8系统,后来发现虚拟机不支持GPU加速。好在sobereva老师分享了sobereva.com/458的博文,安装博文成功安装了2020.6 CUDA GPU加速版,用gmx solvate -box 3 3 3 -o waterbox.gro产生的水盒子模型,力场用的gromos54a7.ff/spce.itp。产生相模拟了1 ns,表现如图1所示,用时149s。模拟过程中,GPU占用始终在40%左右,感觉利用率不高啊。分别测试了不开GPU加速,独显+集显混合模式以及独显直连模式,用时分别为167s,149s和159s。独显模式下,模拟时N卡占用率来到了100%; 而混合模式下N卡占用率为0%,也就是用的intel的集显加速,用时反而比N卡短,令人费解。感觉开了加速和没加速区别不是很大。 我在运行任务的时候,用的gmx mdrun -v -deffnm prod -nb gpu。根据chatgpt的回答“-nb gpu参数表示使用GPU进行非键相互作用计算。如果您的GPU支持CUDA,您还需要在输入命令时添加-cuda参数,如下所示:gmx mdrun -v -deffnm prod -nb gpu -cuda”。但是我加上-cuda,会提示“Invalid command-line options Unkonwn commond-line option -cuda”。加不加-cuda是否有影响?有没有提升空间了,还是说笔记本加中低端显卡性能差不多也就这样了。同样任务在8375C双路服务器上用纯CPU版GROMACS.2020_ompi跑,用时38s,如图2所示。请各位给帮忙看一下,这种表现正常吗?  
作者
Author:
sobereva    时间: 2023-4-15 19:50
记得加上-update gpu

发帖时别直接贴chatGPT的回答,毫无意义,除非你用google查询了资料确认了chatGPT没有在胡说八道

作者
Author:
star2128    时间: 2023-4-15 20:44
看来它确实在胡说。好的,谢谢了。我再测试下。
作者
Author:
star2128    时间: 2023-4-15 20:48
sobereva 发表于 2023-4-15 19:50
记得加上-update gpu

发帖时别直接贴chatGPT的回答,毫无意义,除非你用google查询了资料确认了chatGPT ...

好的,那想用N卡而非集显,就是靠调成独显直连就可以了是吧?
作者
Author:
Kmetsch    时间: 2023-4-15 22:04
star2128 发表于 2023-4-15 20:48
好的,那想用N卡而非集显,就是靠调成独显直连就可以了是吧?

从你的配置大概猜是HP或者Lenovo的游戏本,独显直连与否只会影响视频输出至屏幕,对于计算应该是没有影响。建议可以看一下二者利用时是不是存在默认gpu的改变,以及CPU对GPU的核数分配的问题。另外4060的显卡加速可能一般,cuda数太少了
作者
Author:
Entropy.S.I    时间: 2023-4-15 22:53
本帖最后由 Entropy.S.I 于 2023-4-16 05:58 编辑

不  要  在  W  i  n  d  o  w  s  下  跑  G  M  X
windows下openmp没法绑核,系统臃肿,一大堆进程在后台抢资源(有些进程还会经常莫名其妙地突然占用大半CPU资源),编译GMX又复杂,编译器/软件支持又慢,简直自取其辱

“根据chatgpt的回答xxx”这种说法更是离谱至极


作者
Author:
star2128    时间: 2023-4-16 22:28
Entropy.S.I 发表于 2023-4-15 22:53
不  要  在  W  i  n  d  o  w  s  下  跑  G  M  X
windows下openmp没法绑核,系统臃肿,一大堆进程在后 ...

虚拟机装linux不是也不支持GPU加速吗,那就是说想要GPU加速的话,只能买个服务器老老实实装linux跑了吧。不玩游戏,本来换电脑想兼顾跑跑GROMACS才买的带显卡的,现在看很鸡肋了。
作者
Author:
star2128    时间: 2023-4-16 22:29
Kmetsch 发表于 2023-4-15 22:04
从你的配置大概猜是HP或者Lenovo的游戏本,独显直连与否只会影响视频输出至屏幕,对于计算应该是没有影响 ...

戴尔G16,键盘回弹故障换新中,捣鼓了两三天,一夜清零
作者
Author:
Entropy.S.I    时间: 2023-4-16 23:13
本帖最后由 Entropy.S.I 于 2023-4-16 23:31 编辑
star2128 发表于 2023-4-16 22:28
虚拟机装linux不是也不支持GPU加速吗,那就是说想要GPU加速的话,只能买个服务器老老实实装linux跑了吧。 ...

加块盘装Linux不就行了。也可以用Linux to go,即把Linux装在移动SSD中,我刚开始玩Linux时,就是这么做的

更合适的做法是工作站/服务器配轻薄本,配置好虚拟专用网络,体验非常好。http://bbs.keinsci.com/thread-35277-1-1.html

作者
Author:
sobereva    时间: 2023-4-16 23:38
star2128 发表于 2023-4-16 22:28
虚拟机装linux不是也不支持GPU加速吗,那就是说想要GPU加速的话,只能买个服务器老老实实装linux跑了吧。 ...

GROMACS-GPU版在wsl2中Ubuntu18.04中的安装方法
http://bbs.keinsci.com/thread-25516-1-1.html

文种做法我没亲自试过
作者
Author:
star2128    时间: 2023-4-17 07:26
Entropy.S.I 发表于 2023-4-16 23:13
加块盘装Linux不就行了。也可以用Linux to go,即把Linux装在移动SSD中,我刚开始玩Linux时,就是这么做 ...

轻薄本+服务器的组合现在是有的。但是服务器自己不会维护,卖家承诺的三年内免费维护。就想着自己也得掌握写linux使用维护基础,软件编译等等。笔记本玩机练习的想法更多一些,生产力还得考服务器。我现在是两台双路8375C组的小型IB集群,主要是做一些VASP和CP2K的性质计算以及AIMD,研究领域是储能电池。目前对deepmd比较感兴趣,也正在学习,现在用dpgen能调用资源进行势函数训练了,感觉纯CPU训练速度有些缓慢。下一步计划是大概6w左右的预算,购置两台GPU服务器,或者一台双卡服务器,主要用于势函数训练,而势函数训练两块主要内容,一个是深度神经网络训练,一个是用lammps进行相空间探索,都比较吃GPU,但是具体单精度还是双精度就不是很懂了。本来看到的两种配置,一种是配两台13900+4090的主机,接入集群,另一种配置是买台4310+双卡4090,这个会便宜一些,4w~4.5w,但是CPU会比较弱,对lammps会有影响,对深度学习不知道是否有影响。我看您给我发的连接中说“仅有的那些支持GPU加速的任务需要很强的FP64性能,使用游戏GPU获得的性能提升非常低,二手市场捡块白菜价的P100都能打败顶级游戏GPU。”  我看4090单精度算力好像比计算卡强很多,显存24G也不差,但是不知道目前我的这个情况,是需要双精度还是单精度算力,买消费级的卡还是计算卡。您应该是专门做软硬件的吧,我这个4~6w的运算,有没有合理的建议?谢谢啦,也可以找你买哟。
作者
Author:
star2128    时间: 2023-4-17 07:34
sobereva 发表于 2023-4-16 23:38
GROMACS-GPU版在wsl2中Ubuntu18.04中的安装方法
http://bbs.keinsci.com/thread-25516-1-1.html

谢谢sobereva老师,感慨于您精力太旺盛了!群里还有论坛都能覆盖到,培训价格也非常厚道,内容详实程度和专业性绝非盈利性培训机构能比的,我最开始是入坑的深圳某算,基础班+进阶4000块钱,只学会了如何把任务运行起来。感谢建议,我都会试一试的。
作者
Author:
star2128    时间: 2023-4-17 08:14
sobereva 发表于 2023-4-16 23:38
GROMACS-GPU版在wsl2中Ubuntu18.04中的安装方法
http://bbs.keinsci.com/thread-25516-1-1.html

感谢,我再尝试下
作者
Author:
Entropy.S.I    时间: 2023-4-17 12:32
本帖最后由 Entropy.S.I 于 2023-4-17 12:38 编辑
star2128 发表于 2023-4-17 07:26
轻薄本+服务器的组合现在是有的。但是服务器自己不会维护,卖家承诺的三年内免费维护。就想着自己也得掌 ...

“lammps进行相空间探索”最好明确一下你要使用什么力场/势函数。http://bbs.keinsci.com/thread-35988-1-1.html,3.2节:
对于真·经典MD模型(比如前面测试用的LJ2.5),4090的性能有A100的50%左右,而对于涉及反应力场、多体势函数的模型,4090只有A100的不到20%性能,但即使这样,目前4090性价比还是明显高于A100。

http://bbs.keinsci.com/thread-35960-1-1.html的SI中找到Lammps数据,和NVIDIA的测试(https://developer.nvidia.com/hpc-application-performance)对照,可以得出上述结论。 (, 下载次数 Times of downloads: 29)

不过无论用什么力场,性价比最高的方案还是捡老计算卡,比如P100、V100;但是你还要训练DPMD模型,考虑到此事,还是应该用4090;Lammps也可以用你手里已有的双路8375C机器跑,估计单机性能和1块4090差不多。

预算6万左右,推荐2台13900KF+1块4090,约4.6万;如果想要花完预算,剩下的预算再买1块4090插到8375C机器上,或者把其中一台13900KF+1块4090改成13900KF+2块4090(不能随便配,要么用PCIe拆分线,要么加钱用有2条直连CPU且支持x8+x8模式的PCIe slot的主板和一体水冷4090)。

如果要玩比较大的模型,也可以考虑单台13900KF+RTX6000Ada,一台6万多(RTX6000Ada就将近6万,主要优势是具有48GB的VRAM)。

作者
Author:
star2128    时间: 2023-4-18 11:08
Entropy.S.I 发表于 2023-4-17 12:32
“lammps进行相空间探索”最好明确一下你要使用什么力场/势函数。http://bbs.keinsci.com/thread-35988-1 ...

好专业啊,我学习学习




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3