计算化学公社

标题: gmx突然报错cudaFuncGetAttributes failed: out of memory [打印本页]

作者
Author:
wzhang    时间: 2020-2-20 10:36
标题: gmx突然报错cudaFuncGetAttributes failed: out of memory
大家好,我在GPU版本GROMACS上跑程序一直没有问题,今天重新运行一个程序之后,突然报错如下:

Command line:
  gmx mdrun -deffnm pull -ntmpi 1 -nb gpu -pme gpu -gpu_id 3


Back Off! I just backed up pull.log to ./#pull.log.1#

-------------------------------------------------------
Program:     gmx mdrun, version 2019.4
Source file: src/gromacs/gpu_utils/gpu_utils.cu (line 100)

Fatal error:
cudaFuncGetAttributes failed: out of memory

For more information and tips for troubleshooting, please check the GROMACS
website at http://www.gromacs.org/Documentation/Errors
-------------------------------------------------------

但是我查看过GPU根本没有被占用,而且我可以提交其他程序到GPU上,但是GROMACS的mdrun每次运行会报相同的错误,甚至做energy minimization也不行。
请问这到底是什么原因,急死了。


作者
Author:
sobereva    时间: 2020-2-21 16:36
重启后,跑一个之前能正常跑的任务看看
作者
Author:
wzhang    时间: 2020-2-21 16:52
sobereva 发表于 2020-2-21 16:36
重启后,跑一个之前能正常跑的任务看看

这个server我可能没有权限重启。我试了重新安装gromacs也还是相同的问题,不知道是不是其他用户在算python的缘故,但我提交的gpu跟其他用户的不是一个,应该没有影响吧。
(, 下载次数 Times of downloads: 31)


作者
Author:
tomwong4253    时间: 2020-2-22 20:34
wzhang 发表于 2020-2-21 16:52
这个server我可能没有权限重启。我试了重新安装gromacs也还是相同的问题,不知道是不是其他用户在算pytho ...

利用CUDA_VISIABLE_DEVICE环境变量或者-gpu_id参数指定某个个GPU再跑试试,有可能你的作业被扔到只剩一点显存的GPU上了,和别人一挤就炸了。
作者
Author:
wzhang    时间: 2020-2-23 14:10
本帖最后由 wzhang 于 2020-2-24 10:52 编辑
tomwong4253 发表于 2020-2-22 20:34
利用CUDA_VISIABLE_DEVICE环境变量或者-gpu_id参数指定某个个GPU再跑试试,有可能你的作业被扔到只剩一点 ...

哇,终于可以跑了(虽然没有彻底解决),太感谢了!
我发现只有用CUDA_VISIBLE_DEVICES把沾满的GPU给屏蔽掉才能跑,如果单单用-gpu_id不管提交到哪个GPU都会报相同的错误。感觉这可能是GROMACS多GPU环境下的一个bug(多GPU下只要有某个GPU被占满则无法提交到所有的GPU)。。。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3