计算化学公社

 找回密码 Forget password
 注册 Register
Views: 11100|回复 Reply: 4
打印 Print 上一主题 Last thread 下一主题 Next thread

[GROMACS] gmx突然报错cudaFuncGetAttributes failed: out of memory

[复制链接 Copy URL]

11

帖子

0

威望

125

eV
积分
136

Level 2 能力者

大家好,我在GPU版本GROMACS上跑程序一直没有问题,今天重新运行一个程序之后,突然报错如下:

Command line:
  gmx mdrun -deffnm pull -ntmpi 1 -nb gpu -pme gpu -gpu_id 3


Back Off! I just backed up pull.log to ./#pull.log.1#

-------------------------------------------------------
Program:     gmx mdrun, version 2019.4
Source file: src/gromacs/gpu_utils/gpu_utils.cu (line 100)

Fatal error:
cudaFuncGetAttributes failed: out of memory

For more information and tips for troubleshooting, please check the GROMACS
website at http://www.gromacs.org/Documentation/Errors
-------------------------------------------------------

但是我查看过GPU根本没有被占用,而且我可以提交其他程序到GPU上,但是GROMACS的mdrun每次运行会报相同的错误,甚至做energy minimization也不行。
请问这到底是什么原因,急死了。

6万

帖子

99

威望

5万

eV
积分
120159

管理员

公社社长

2#
发表于 Post on 2020-2-21 16:36:39 | 只看该作者 Only view this author
重启后,跑一个之前能正常跑的任务看看
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办极高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入北京科音微信公众号获取北京科音培训的最新消息,并避免错过网上有价值的计算化学文章!
欢迎加入人气极高、专业性特别强的理论与计算化学综合交流群思想家公社QQ群(群号见此链接),合计达一万多人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大、极为流行的量子化学波函数分析程序)
Google Scholar:https://scholar.google.com/citations?user=tiKE0qkAAAAJ
ResearchGate:https://www.researchgate.net/profile/Tian_Lu

11

帖子

0

威望

125

eV
积分
136

Level 2 能力者

3#
 楼主 Author| 发表于 Post on 2020-2-21 16:52:16 | 只看该作者 Only view this author
sobereva 发表于 2020-2-21 16:36
重启后,跑一个之前能正常跑的任务看看

这个server我可能没有权限重启。我试了重新安装gromacs也还是相同的问题,不知道是不是其他用户在算python的缘故,但我提交的gpu跟其他用户的不是一个,应该没有影响吧。


160

帖子

7

威望

798

eV
积分
1098

Level 4 (黑子)

4#
发表于 Post on 2020-2-22 20:34:21 | 只看该作者 Only view this author
wzhang 发表于 2020-2-21 16:52
这个server我可能没有权限重启。我试了重新安装gromacs也还是相同的问题,不知道是不是其他用户在算pytho ...

利用CUDA_VISIABLE_DEVICE环境变量或者-gpu_id参数指定某个个GPU再跑试试,有可能你的作业被扔到只剩一点显存的GPU上了,和别人一挤就炸了。

11

帖子

0

威望

125

eV
积分
136

Level 2 能力者

5#
 楼主 Author| 发表于 Post on 2020-2-23 14:10:09 | 只看该作者 Only view this author
本帖最后由 wzhang 于 2020-2-24 10:52 编辑
tomwong4253 发表于 2020-2-22 20:34
利用CUDA_VISIABLE_DEVICE环境变量或者-gpu_id参数指定某个个GPU再跑试试,有可能你的作业被扔到只剩一点 ...

哇,终于可以跑了(虽然没有彻底解决),太感谢了!
我发现只有用CUDA_VISIBLE_DEVICES把沾满的GPU给屏蔽掉才能跑,如果单单用-gpu_id不管提交到哪个GPU都会报相同的错误。感觉这可能是GROMACS多GPU环境下的一个bug(多GPU下只要有某个GPU被占满则无法提交到所有的GPU)。。。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-16 11:06 , Processed in 1.657650 second(s), 23 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list