|
各位老师好,最近几天我们的集群上突然间运行gaussian,orca,gromacs的任务都会被莫名杀死,输出文件中没有任何报错输出(请见附件一和图一),尝试了管理节点上使用slurm和计算节点上直接提交的两种方式都是提交成功成功后会运行一段时间随后直接被kill掉,测试的时候集群上没有任何任务在运行,使用top和htop命令也检查了内存等都有非常充足的空间。紧接着通过ganglia发现有莫名的进程在每个计算节点上都占用了37%的CPU(图二和图三),但是top和htop都无法看到具体的进程,使用ps H -eo user,pid,ppid,tid,time,%cpu,cmd --sort=%cpu > 1.txt查看了系统[color=rgba(0, 0, 0, 0.85)]中进程的详细信息也没发现任何异常的地方(请见附件二)。更离奇的是某个计算节点的root密码被更改了,但是组内人员没有任何人做过更改。现在我怀疑是集群中病毒了,而且这个病毒导致我提交的任务被病毒莫名kill掉。想麻烦各位老师帮忙看一下,提供一下修复的建议。
|
-
gromacs.png
(10.12 KB, 下载次数 Times of downloads: 79)
图一
-
top.png
(128.93 KB, 下载次数 Times of downloads: 80)
图二
-
htop.png
(151.92 KB, 下载次数 Times of downloads: 82)
图三
-
-
99_347.log
50.47 KB, 下载次数 Times of downloads: 2
附件一
-
-
1.txt
107.36 KB, 下载次数 Times of downloads: 5
附件二
|