计算化学公社

 找回密码 Forget password
 注册 Register
Views: 671|回复 Reply: 6
打印 Print 上一主题 Last thread 下一主题 Next thread

[集群维护] 集群上运行各种计算的任务被莫名杀死且有中病毒嫌疑

[复制链接 Copy URL]

58

帖子

0

威望

2275

eV
积分
2333

Level 5 (御坂)

各位老师好,最近几天我们的集群上突然间运行gaussian,orca,gromacs的任务都会被莫名杀死,输出文件中没有任何报错输出(请见附件一和图一),尝试了管理节点上使用slurm和计算节点上直接提交的两种方式都是提交成功成功后会运行一段时间随后直接被kill掉,测试的时候集群上没有任何任务在运行,使用top和htop命令也检查了内存等都有非常充足的空间。紧接着通过ganglia发现有莫名的进程在每个计算节点上都占用了37%的CPU(图二和图三),但是top和htop都无法看到具体的进程,使用ps H -eo user,pid,ppid,tid,time,%cpu,cmd --sort=%cpu > 1.txt查看了系统[color=rgba(0, 0, 0, 0.85)]中进程的详细信息也没发现任何异常的地方(请见附件二)。更离奇的是某个计算节点的root密码被更改了,但是组内人员没有任何人做过更改。现在我怀疑是集群中病毒了,而且这个病毒导致我提交的任务被病毒莫名kill掉。想麻烦各位老师帮忙看一下,提供一下修复的建议。

gromacs.png (10.12 KB, 下载次数 Times of downloads: 79)

图一

图一

top.png (128.93 KB, 下载次数 Times of downloads: 80)

图二

图二

htop.png (151.92 KB, 下载次数 Times of downloads: 82)

图三

图三

99_347.log

50.47 KB, 下载次数 Times of downloads: 2

附件一

1.txt

107.36 KB, 下载次数 Times of downloads: 5

附件二

129

帖子

1

威望

3944

eV
积分
4093

Level 6 (一方通行)

2#
发表于 Post on 2024-12-14 00:16:55 | 只看该作者 Only view this author
建议自查。恶意程序是为了吃资源、盗信息,才不会主动 kill 任务来暴露自己

先把密码改掉,ssh 登录的 key 也可以临时删掉,重启,然后观察是否问题依然存在
十八介姑娘一蕾花呀,白白介牙齿、红红介嘴唇,得人惜

2407

帖子

1

威望

5948

eV
积分
8375

Level 6 (一方通行)

3#
发表于 Post on 2024-12-14 08:13:43 | 只看该作者 Only view this author
你先在虚拟机搞一个同样版本的系统, 小版本号都要一样.

检查对比一下, ps top btop htop等你上文提到的指令, 是否被替换了.

要是排查起来太麻烦, 那就重新部署集群吧.

High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

58

帖子

0

威望

1661

eV
积分
1719

Level 5 (御坂)

4#
发表于 Post on 2024-12-14 09:42:28 | 只看该作者 Only view this author
按照现有的描述,有可能是感染了挖坑程序
https://github.com/YJesus/Unhide
试试这个代码,可以找到隐藏的进程。

还有一些比较简单的方法可以排查,比如last 和 lastb命令

仅供参考

47

帖子

1

威望

1850

eV
积分
1917

Level 5 (御坂)

5#
发表于 Post on 2024-12-14 15:19:17 | 只看该作者 Only view this author
我们组最近也中了挖矿病毒,之前没有这方面的经验,重启病毒也会很快恢复,当时就是根据异常进程删除文件,并且已经做好了重装系统的准备,万幸删干净了就没有了
有得必有失,有失必有得。

47

帖子

1

威望

1850

eV
积分
1917

Level 5 (御坂)

6#
发表于 Post on 2024-12-14 15:19:19 | 只看该作者 Only view this author
我们组最近也中了挖矿病毒,之前没有这方面的经验,重启病毒也会很快恢复,当时就是根据异常进程删除文件,并且已经做好了重装系统的准备,万幸删干净了就没有了
有得必有失,有失必有得。

58

帖子

0

威望

2275

eV
积分
2333

Level 5 (御坂)

7#
 楼主 Author| 发表于 Post on 2024-12-14 20:24:02 | 只看该作者 Only view this author
感谢各位老师的回复,我试试先排查一下。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-12 21:00 , Processed in 0.158642 second(s), 23 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list