Entropy.S.I 发表于 2023-5-23 14:13 请问下,当前时间可以使用GMX 2023.4版本了吗?其GPU加速效果相较于2022版本是否有了较大提升? |
jim 发表于 2024-1-13 11:26 硬件有两个显卡,一是主板内置的显卡(驱动是centos系统自带的驱动),另一是装的GTX4090显卡(驱动是另外安装的NVIDIA驱动),禁用的驱动是系统自带的驱动,使得能够使用NVIDIA的驱动,这样Gromacs能够调用。您的截图好像是安装make问题,估计安装不成功跟驱动关系不大。估计是cmake3的问题,可尝试重新安装cmake3. |
请教一下,请问禁用了哪些默认驱动?禁用默认驱动的目的是什么呀? 我按照sob老师的帖子和本帖内容,想从2022.5升级到2023.2,一直都没成功。 报错提示如图: 请问各位老师如何解决? |
QQ图片20240113104259.png (52.75 KB, 下载次数 Times of downloads: 19)
牧生 发表于 2023-6-17 19:53 好的,非常感谢! |
Amphibiouskii 发表于 2023-6-17 16:31 末尾的引号内 |
牧生 发表于 2023-5-24 11:29 大佬好,请问第二步 GRUB_CMDLINE_LINUX="XXXXXXXXXXXXXXXXX=nouveaunouveau.modeset=0" #在末尾添加rd.driver.blacklist=nouveaunouveau.modeset=0 modprobe.blacklist=nouveau, 这里的在末尾添加是在引号内还是引号外啊?还有就是我这里的原始显示是:
引号内的部分需要跟楼主改成一样的吗,还是保持原样直接添加就行? |
本帖最后由 MercuryLamp 于 2023-6-4 17:24 编辑 Entropy.S.I 发表于 2023-6-4 12:30 好的,非常感谢您的指导 更新:这边按您的意见先进bios看了一下相关选项,发现已经是auto了。但主板bios版本太老了(F2),官网最新版本为F6b,更新bios版本后重新输入nvidia-smi -q | grep 'GPU Link Info' -A 9,输出为:
又拿benchmark中的A进行了测试,速度与之前相比有着巨大的提升,但与您的参考数据仍有一点差距(多核时约为10%-20%),不知能否让性能再提升一点。 |
性能比较-A.png (126.78 KB, 下载次数 Times of downloads: 11)
MercuryLamp 发表于 2023-6-4 11:00 问题很明确,就是我前面推测的,主板把PCIe Generation限制在Gen1了。应该去主板BIOS中修正此选项为auto。顺便也建议先更新主板BIOS,最新BIOS在主板官网下载。 |
本帖最后由 MercuryLamp 于 2023-6-4 12:14 编辑 Entropy.S.I 发表于 2023-6-4 00:00 好的,感谢您的建议,我们这边再排查看看 update:我用A这个例子又测试了一下,发现不管有没有任务运行,nvidia-smi -q | grep 'GPU Link Info' -A 9的输出均为:
|
本帖最后由 Entropy.S.I 于 2023-6-4 00:07 编辑 MercuryLamp 发表于 2023-6-3 23:11 后面几个百万、千万原子的模型,CPU没啥瓶颈,核数分多了用不满,正常。 你提供的log我看过了,和这一模一样的情况我没遇到过,目前还是比较怀疑问题出在PCIe通信上。目前我能提供的下一步排查思路是:在跑mdrun的时候使用nvidia-smi -q | grep 'GPU Link Info' -A 9命令查看PCIe Generation > Current和Link Width > Current这2项,检查一下PCIe实际的链接速率是否为Gen4 x16,说不定是BIOS把PCIe Generation限制在Gen1了…… 没必要把我之前benchmark的那些任务老实跑完,浪费时间,手动跑几个就行了。 |
本帖最后由 MercuryLamp 于 2023-6-3 23:13 编辑 Entropy.S.I 发表于 2023-6-2 20:43 大佬您好,受您的指导,我们又做了一次测试,并监测了GPU和CPU的实时数据,发现在测试STMV和benchPEP-h这两个例子时,CPU确实存在未完全使用的问题,但感觉可能还有其他原因,因为前面几个例子(A, A-2, B, B-TI)在测试时CPU是全部使用了的,对于bonded CPU的一些输出文件我打包在了附件的压缩包中(GPU-resident的数据还在测试中),还望您能再抽空指导一下,万分感谢 |
例STMV-NPT出现cpu未全部使用的情况.png (105.75 KB, 下载次数 Times of downloads: 18)
例benchPEP-h也出现cpu未全部使用的情况.png (104.91 KB, 下载次数 Times of downloads: 19)
1.5 MB, 下载次数 Times of downloads: 6
Entropy.S.I 发表于 2023-6-2 20:43 好的,非常感谢您的建议,我们这边再测试一下,之后再将结果拿过来请教您 |
MercuryLamp 发表于 2023-6-2 19:16 这是Kepler架构GPU的SM编号,CUDA 12移除了对Kepler架构的支持,所以检测不到相应的flags。这完全不影响4090,所以不是你GMX性能不正常的原因。 建议在运行mdrun时使用"nvidia-smi dmon -s pucvmt -o T"命令监测GPU实时详细性能数据(可以加上-f [输出文件名]以将所有信息直接保存到文本文件中),使用s-tui工具检测CPU实时功耗、各核心频率等数据,以进一步排查问题。另外,也把mdrun的log上传一下。 |
本帖最后由 MercuryLamp 于 2023-6-2 19:46 编辑 Entropy.S.I 发表于 2023-6-2 12:21 谢谢您的回复,不过我们这边刚刚检查了一下,是没有插错的,我们这边再找找有没有其他问题,谢谢您 update:我在看cmake的输出时,发现了如下的输出,不知这个是否会有影响?
|
13.34 KB, 下载次数 Times of downloads: 1
手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图
GMT+8, 2024-11-23 18:49 , Processed in 0.209364 second(s), 27 queries , Gzip On.