计算化学公社

标题: gromacs跑动力学不一会cpu就降到1个核在算 [打印本页]

作者
Author:
mol    时间: 2022-9-23 08:47
标题: gromacs跑动力学不一会cpu就降到1个核在算
各位前辈好,小弟最近在gpu服务器用gromacs跑动力学,一开始12个线程交上,发现跑个几十ps就只剩下一个核在算了,用kill -9也杀不死进程。
应该不是作业的问题,在其他服务器上测试正常。
请问可能是哪方面的原因

作者
Author:
mol    时间: 2022-9-23 10:44
nvidia-smi看了下gpu的情况,提示Unable to determine the device handle for GPU 0000:02:00.0: GPU is lost.  Reboot the system to recovery。重启机器后再次提交作业,同时watch nvidia-smi,发现温度达到91度,立马把kill掉任务,目前是十来分钟了,显卡温度还在65度
作者
Author:
Entropy.S.I    时间: 2022-9-24 03:00
显然是GPU散热有问题,请检查风扇是否工作正常。如果是被动散热的计算卡,需要在服务器BIOS中设置散热模式。
作者
Author:
mol    时间: 2022-9-27 20:51
Entropy.S.I 发表于 2022-9-24 03:00
显然是GPU散热有问题,请检查风扇是否工作正常。如果是被动散热的计算卡,需要在服务器BIOS中设置散热模式 ...

谢谢您,拆下显卡看了下是有个风扇坏了




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3