计算化学公社

 找回密码 Forget password
 注册 Register
Views: 2062|回复 Reply: 9
打印 Print 上一主题 Last thread 下一主题 Next thread

[硬件相关] 个人电脑运行gromacs重启,已排查部分,但依旧没有解决

[复制链接 Copy URL]

21

帖子

0

威望

167

eV
积分
188

Level 3 能力者

跳转到指定楼层 Go to specific reply
楼主
个人电脑配置CPU : amd ryzen9 5950x;GPU:索泰rtx3080;4tb机械硬盘(ubuntu系统),1tb固态(windows系统),内存:ddr4-3200 32gb*2;电源650w,出现重启现象后升级为850w。
个人电脑中已安装gromacs2018.8(GPU、CPU),2019.6(GPU),2022.3(GPU);ubuntu20.04;重启发生前可正常运行这些版本的gromacs。
重启描述:第一次重启:gromacs2019.6GPU版本,在运行平衡化阶段中会进行重启,大概平衡化处理十分钟后自动重启,平衡化之前的能量最小化步骤正常运行。

第一次排查:切换gromacsGPU版本,不同版本依旧会在平衡化阶段重启;此时查看重启时gpu温度到达78度,但在温度到达70度时也会重启,推测gpu,cpu温度过高重启。运行cpu版本正常。
第二次排查:售后拉走加装水冷并升级电源至850W,运行gromacsGPU版,依旧在平衡化阶段重启。
期间售后维修人员,在windows中进行GPU,CPU的满载测试,8小时运行正常。
第三次排查:在windows中编译2018.8GPU版本(http://sobereva.com/458),运行正常。
第四次排查:怀疑是ubuntu系统内核和cuda自动更新有关。多次重装系统,尝试20.04.01lts、20.04.05lts、22.04lts,cuda11.7。依旧会发生重启。ubuntu内核的方面我并不了解,所以不太清楚哪一个内核是兼容gromacs,印象中重装系统前,ubuntu中存在多个-generic文件疑似自动更新产生;cuda11.7(我最初安装的是三月发布的11.7.0)也自动更新为了11.7.3(英伟达十月更新的)。多次重装系统依旧没有解决。

待排查:硬盘出现问题,但是没有检索到合适的ubuntu磁盘检测工具,排查是否出现物理损坏,磁盘部分没有进行排查。

现在已经排查了硬盘,更换硬盘重装系统依旧重启,无解决思路


能否指明排查方向?平衡化阶段调用GPU后重启,重启原因该怎么解决?附件中是我平衡化和能量最小化的脚本。


step6.0_minimization.mdp

581 Bytes, 下载次数 Times of downloads: 0

step6.1_equilibration.mdp

1.1 KB, 下载次数 Times of downloads: 0

step6.2_equilibration.mdp

1.04 KB, 下载次数 Times of downloads: 0

step6.3_equilibration.mdp

1.25 KB, 下载次数 Times of downloads: 0

step6.4_equilibration.mdp

1.25 KB, 下载次数 Times of downloads: 0

step6.5_equilibration.mdp

1.25 KB, 下载次数 Times of downloads: 0

step6.6_equilibration.mdp

1.24 KB, 下载次数 Times of downloads: 0

step7_production.mdp

1.11 KB, 下载次数 Times of downloads: 0

859

帖子

16

威望

5082

eV
积分
6261

Level 6 (一方通行)

小屁孩

2#
发表于 Post on 2022-11-3 11:40:42 | 只看该作者 Only view this author
更换后的850W电源是什么品牌、型号?
- 向着虚无前进 -

21

帖子

0

威望

167

eV
积分
188

Level 3 能力者

3#
 楼主 Author| 发表于 Post on 2022-11-3 12:55:37 | 只看该作者 Only view this author
本帖最后由 zhuceyu 于 2022-11-3 12:56 编辑

品牌是长城,GX850

227

帖子

0

威望

2778

eV
积分
3005

Level 5 (御坂)

4#
发表于 Post on 2022-11-3 15:05:28 | 只看该作者 Only view this author
没碰到过。降级cuda试试。

21

帖子

0

威望

167

eV
积分
188

Level 3 能力者

5#
 楼主 Author| 发表于 Post on 2022-11-3 15:30:13 | 只看该作者 Only view this author
shalene 发表于 2022-11-3 15:05
没碰到过。降级cuda试试。

好的,谢谢您,我现在尝试一下cuda11.0。之前的时候cuda11.7在我的电脑上可以正常使用的,发生重启现象后再重装系统安装cuda11.7依旧会系统重启。

859

帖子

16

威望

5082

eV
积分
6261

Level 6 (一方通行)

小屁孩

6#
发表于 Post on 2022-11-3 16:59:08 | 只看该作者 Only view this author
zhuceyu 发表于 2022-11-3 12:55
品牌是长城,GX850

建议换成海韵GX850……众所周知30系列峰值功耗能达到TGP的2倍以上,二三流品牌的电源抗过载能力比较差。

Linux下对GPU利用效率高,所以可能出现了电源过载的情况。
- 向着虚无前进 -

21

帖子

0

威望

167

eV
积分
188

Level 3 能力者

7#
 楼主 Author| 发表于 Post on 2022-11-3 17:26:23 | 只看该作者 Only view this author
Entropy.S.I 发表于 2022-11-3 16:59
建议换成海韵GX850……众所周知30系列峰值功耗能达到TGP的2倍以上,二三流品牌的电源抗过载能力比较差。
...

好的,谢谢您

21

帖子

0

威望

167

eV
积分
188

Level 3 能力者

8#
 楼主 Author| 发表于 Post on 2022-11-4 17:25:55 | 只看该作者 Only view this author
现已排查,是主板问题,更换主板后正常运行。但是仍旧不知道为何原先主板中windows10能运行,ubuntu反而会重启。

2

帖子

0

威望

29

eV
积分
31

Level 2 能力者

9#
发表于 Post on 2024-3-30 22:55:08 | 只看该作者 Only view this author
如果是重启的话,可以看一下/var/crash中的记录,我之前有过一次不断重启最终确定为CPU核心损坏。如图

202403302255023077..png (48.36 KB, 下载次数 Times of downloads: 69)

202403302255023077..png

28

帖子

0

威望

892

eV
积分
920

Level 4 (黑子)

10#
发表于 Post on 2024-4-1 09:34:05 | 只看该作者 Only view this author
前段时间我用的机子莫名重启,查了半天是/dev/mapper/centos-root盘快满了,可以看看是不是这个原因

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-13 05:48 , Processed in 0.199079 second(s), 29 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list