计算化学公社

标题: GROMACS运行十几分钟便任务中断无报错信息 [打印本页]

作者
Author:
chemTT    时间: 2026-2-4 20:09
标题: GROMACS运行十几分钟便任务中断无报错信息
在服务器跑gromacs任务时,每次运行十几分钟便远程连接自动断开,重新连接后任务中断(手动exit退出也会后一段时间后任务也会中断),产生的log文件无报错信息。于是更换了服务器硬盘并重装系统,并尝试了不同版本的gromacs问题仍然无法解决,请问有可能是什么原因造成的?

作者
Author:
KazusaT    时间: 2026-2-4 20:21
screen跑试试,看上去像是ssh断了导致任务结束了
作者
Author:
chemTT    时间: 2026-2-4 20:28
KazusaT 发表于 2026-2-4 20:21
screen跑试试,看上去像是ssh断了导致任务结束了

交完任务马上退出ssh连接,十几分之后还是会断,不知道为什么
作者
Author:
KazusaT    时间: 2026-2-4 20:29
chemTT 发表于 2026-2-4 20:28
交完任务马上退出ssh连接,十几分之后还是会断,不知道为什么

怎么跑的?nohub?
作者
Author:
chemTT    时间: 2026-2-4 20:34
KazusaT 发表于 2026-2-4 20:29
怎么跑的?nohub?

在xshell里输完跑的命令,然后exit退出xshell
作者
Author:
KazusaT    时间: 2026-2-4 21:20
chemTT 发表于 2026-2-4 20:34
在xshell里输完跑的命令,然后exit退出xshell

...那肯定会停啊,你的终端退出了啊
作者
Author:
UW_0728.    时间: 2026-2-4 21:36
你在前端跑的,只要退出登录那你当前用户在前端运行的所有任务都会自动被系统杀掉。
你们的服务器难道没有slurm之类的作业调度系统吗?
作者
Author:
chemTT    时间: 2026-2-4 22:28
UW_0728. 发表于 2026-2-4 21:36
你在前端跑的,只要退出登录那你当前用户在前端运行的所有任务都会自动被系统杀掉。
你们的服务器难道没有 ...

我的理解是exit断开远程之后,程序的运行就不受远程影响了。之前断开远程确实不会影响程序运行,而且现在不断开远程,gromacs程序也会运行十几分钟就停止
作者
Author:
KazusaT    时间: 2026-2-4 23:03
chemTT 发表于 2026-2-4 22:28
我的理解是exit断开远程之后,程序的运行就不受远程影响了。之前断开远程确实不会影响程序运行,而且现在 ...

那你能不能把你用的命令贴一下
作者
Author:
chemTT    时间: 2026-2-5 08:25
KazusaT 发表于 2026-2-4 23:03
那你能不能把你用的命令贴一下

gmx mdrun -nt 48 -pin on  -pinoffset 0 -deffnm npt -s npt.tpr </dev/null &
作者
Author:
student0618    时间: 2026-2-5 08:48
chemTT 发表于 2026-2-5 08:25
gmx mdrun -nt 48 -pin on  -pinoffset 0 -deffnm npt -s npt.tpr

没nohup 停掉很正常哦。
作者
Author:
yuzc    时间: 2026-2-5 10:34
chemTT 发表于 2026-2-5 08:25
gmx mdrun -nt 48 -pin on  -pinoffset 0 -deffnm npt -s npt.tpr

没加nohup,退出shell当然任务会挂。
用nohup gmx mdrun -nt 48 -pin on  -pinoffset 0 -deffnm npt -s npt.tpr > a.log & 即可。
作者
Author:
KazusaT    时间: 2026-2-5 10:38
chemTT 发表于 2026-2-5 08:25
gmx mdrun -nt 48 -pin on  -pinoffset 0 -deffnm npt -s npt.tpr

显然会挂啊。你得学习一下linux系统和ssh的基本操作
作者
Author:
chemTT    时间: 2026-2-5 15:05
yuzc 发表于 2026-2-5 10:34
没加nohup,退出shell当然任务会挂。
用nohup gmx mdrun -nt 48 -pin on  -pinoffset 0 -deffnm npt -s  ...

您好老师,我现在用这条命令,不退出shell还是会挂,和我之前的情况一样,感觉可能还是服务器本身的问题
作者
Author:
KazusaT    时间: 2026-2-5 15:26
chemTT 发表于 2026-2-5 15:05
您好老师,我现在用这条命令,不退出shell还是会挂,和我之前的情况一样,感觉可能还是服务器本身的问题

那么这次报错的情况是什么?
能够运行一段时间的话查看过结构吗?
作者
Author:
MilesYYh    时间: 2026-2-5 16:24
1.如果怀疑是终端退出的问题:
改用screen,运行命令后,Ctrl+A+D
2.如果怀疑真的是结构体系的问题
可以将gmx的计算全部放在CPU上算(不放在GPU),这样log的报错信息更完整。

作者
Author:
chemTT    时间: 2026-2-5 16:43
监测了一下系统日志,可能是CPU的问题,我看看想办法处理一下硬件,谢谢各位老师解答
作者
Author:
iehtian    时间: 2026-2-5 16:50
screen中跑也是相同现象吗?即使不退出shell,ssh在长时间未操作或服务器高压的情况下也是有可能断掉的
作者
Author:
chemTT    时间: 2026-2-5 17:08
iehtian 发表于 2026-2-5 16:50
screen中跑也是相同现象吗?即使不退出shell,ssh在长时间未操作或服务器高压的情况下也是有可能断掉的

我回头screen跑一下试试




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3