|
个人电脑配置CPU : amd ryzen9 5950x;GPU:索泰rtx3080;4tb机械硬盘(ubuntu系统),1tb固态(windows系统),内存:ddr4-3200 32gb*2;电源650w,出现重启现象后升级为850w。
个人电脑中已安装gromacs2018.8(GPU、CPU),2019.6(GPU),2022.3(GPU);ubuntu20.04;重启发生前可正常运行这些版本的gromacs。
重启描述:第一次重启:gromacs2019.6GPU版本,在运行平衡化阶段中会进行重启,大概平衡化处理十分钟后自动重启,平衡化之前的能量最小化步骤正常运行。
第一次排查:切换gromacsGPU版本,不同版本依旧会在平衡化阶段重启;此时查看重启时gpu温度到达78度,但在温度到达70度时也会重启,推测gpu,cpu温度过高重启。运行cpu版本正常。
第二次排查:售后拉走加装水冷并升级电源至850W,运行gromacsGPU版,依旧在平衡化阶段重启。
期间售后维修人员,在windows中进行GPU,CPU的满载测试,8小时运行正常。
第三次排查:在windows中编译2018.8GPU版本(http://sobereva.com/458),运行正常。
第四次排查:怀疑是ubuntu系统内核和cuda自动更新有关。多次重装系统,尝试20.04.01lts、20.04.05lts、22.04lts,cuda11.7。依旧会发生重启。ubuntu内核的方面我并不了解,所以不太清楚哪一个内核是兼容gromacs,印象中重装系统前,ubuntu中存在多个-generic文件疑似自动更新产生;cuda11.7(我最初安装的是三月发布的11.7.0)也自动更新为了11.7.3(英伟达十月更新的)。多次重装系统依旧没有解决。
待排查:硬盘出现问题,但是没有检索到合适的ubuntu磁盘检测工具,排查是否出现物理损坏,磁盘部分没有进行排查。
现在已经排查了硬盘,更换硬盘重装系统依旧重启,无解决思路
能否指明排查方向?平衡化阶段调用GPU后重启,重启原因该怎么解决?附件中是我平衡化和能量最小化的脚本。
|
|