计算化学公社

 找回密码 Forget password
 注册 Register
Views: 1628|回复 Reply: 3
打印 Print 上一主题 Last thread 下一主题 Next thread

[GROMACS] gromacs跑动力学不一会cpu就降到1个核在算

[复制链接 Copy URL]

326

帖子

0

威望

5314

eV
积分
5640

Level 6 (一方通行)

跳转到指定楼层 Go to specific reply
楼主
各位前辈好,小弟最近在gpu服务器用gromacs跑动力学,一开始12个线程交上,发现跑个几十ps就只剩下一个核在算了,用kill -9也杀不死进程。
应该不是作业的问题,在其他服务器上测试正常。
请问可能是哪方面的原因

326

帖子

0

威望

5314

eV
积分
5640

Level 6 (一方通行)

2#
 楼主 Author| 发表于 Post on 2022-9-23 10:44:04 | 只看该作者 Only view this author
nvidia-smi看了下gpu的情况,提示Unable to determine the device handle for GPU 0000:02:00.0: GPU is lost.  Reboot the system to recovery。重启机器后再次提交作业,同时watch nvidia-smi,发现温度达到91度,立马把kill掉任务,目前是十来分钟了,显卡温度还在65度

878

帖子

17

威望

5441

eV
积分
6659

Level 6 (一方通行)

小屁孩

3#
发表于 Post on 2022-9-24 03:00:51 | 只看该作者 Only view this author
显然是GPU散热有问题,请检查风扇是否工作正常。如果是被动散热的计算卡,需要在服务器BIOS中设置散热模式。
- 向着虚无前进 -

326

帖子

0

威望

5314

eV
积分
5640

Level 6 (一方通行)

4#
 楼主 Author| 发表于 Post on 2022-9-27 20:51:29 | 只看该作者 Only view this author
Entropy.S.I 发表于 2022-9-24 03:00
显然是GPU散热有问题,请检查风扇是否工作正常。如果是被动散热的计算卡,需要在服务器BIOS中设置散热模式 ...

谢谢您,拆下显卡看了下是有个风扇坏了

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2026-2-24 18:30 , Processed in 0.525593 second(s), 20 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list