计算化学公社

标题: 集群上运行各种计算的任务被莫名杀死且有中病毒嫌疑 [打印本页]

作者
Author:
秋心    时间: 2024-12-13 21:38
标题: 集群上运行各种计算的任务被莫名杀死且有中病毒嫌疑
各位老师好,最近几天我们的集群上突然间运行gaussian,orca,gromacs的任务都会被莫名杀死,输出文件中没有任何报错输出(请见附件一和图一),尝试了管理节点上使用slurm和计算节点上直接提交的两种方式都是提交成功成功后会运行一段时间随后直接被kill掉,测试的时候集群上没有任何任务在运行,使用top和htop命令也检查了内存等都有非常充足的空间。紧接着通过ganglia发现有莫名的进程在每个计算节点上都占用了37%的CPU(图二和图三),但是top和htop都无法看到具体的进程,使用ps H -eo user,pid,ppid,tid,time,%cpu,cmd --sort=%cpu > 1.txt查看了系统[color=rgba(0, 0, 0, 0.85)]中进程的详细信息也没发现任何异常的地方(请见附件二)。更离奇的是某个计算节点的root密码被更改了,但是组内人员没有任何人做过更改。现在我怀疑是集群中病毒了,而且这个病毒导致我提交的任务被病毒莫名kill掉。想麻烦各位老师帮忙看一下,提供一下修复的建议。

作者
Author:
王二葛    时间: 2024-12-14 00:16
建议自查。恶意程序是为了吃资源、盗信息,才不会主动 kill 任务来暴露自己

先把密码改掉,ssh 登录的 key 也可以临时删掉,重启,然后观察是否问题依然存在
作者
Author:
abin    时间: 2024-12-14 08:13
你先在虚拟机搞一个同样版本的系统, 小版本号都要一样.

检查对比一下, ps top btop htop等你上文提到的指令, 是否被替换了.

要是排查起来太麻烦, 那就重新部署集群吧.


作者
Author:
smooth85    时间: 2024-12-14 09:42
按照现有的描述,有可能是感染了挖坑程序
https://github.com/YJesus/Unhide
试试这个代码,可以找到隐藏的进程。

还有一些比较简单的方法可以排查,比如last 和 lastb命令

仅供参考
作者
Author:
KAIMISITERUI    时间: 2024-12-14 15:19
我们组最近也中了挖矿病毒,之前没有这方面的经验,重启病毒也会很快恢复,当时就是根据异常进程删除文件,并且已经做好了重装系统的准备,万幸删干净了就没有了
作者
Author:
KAIMISITERUI    时间: 2024-12-14 15:19
我们组最近也中了挖矿病毒,之前没有这方面的经验,重启病毒也会很快恢复,当时就是根据异常进程删除文件,并且已经做好了重装系统的准备,万幸删干净了就没有了
作者
Author:
秋心    时间: 2024-12-14 20:24
感谢各位老师的回复,我试试先排查一下。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3