计算化学公社

 找回密码 Forget password
 注册 Register
Views: 1064|回复 Reply: 11
打印 Print 上一主题 Last thread 下一主题 Next thread

[使用经验] 服务器性能衰减,重启后又可以恢复

[复制链接 Copy URL]

4

帖子

0

威望

127

eV
积分
131

Level 2 能力者

求助!
我的服务器配置如下:在运行VASP、高斯等计算软件大概一个月左右时,计算性能衰减很厉害!拔电源重启后,性能恢复!运行一段时间后又衰减!各种测试方法均尝试过过了,没有发现硬件问题!请各位老师指教!

202412090911031324..png (123.66 KB, 下载次数 Times of downloads: 31)

服务器配置

服务器配置

6万

帖子

99

威望

5万

eV
积分
120050

管理员

公社社长

2#
发表于 Post on 2024-12-9 09:51:03 | 只看该作者 Only view this author
查不出原因就重装系统
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办极高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入北京科音微信公众号获取北京科音培训的最新消息,并避免错过网上有价值的计算化学文章!
欢迎加入人气极高、专业性特别强的理论与计算化学综合交流群思想家公社QQ群(群号见此链接),合计达一万多人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大、极为流行的量子化学波函数分析程序)
Google Scholar:https://scholar.google.com/citations?user=tiKE0qkAAAAJ
ResearchGate:https://www.researchgate.net/profile/Tian_Lu

20

帖子

0

威望

49

eV
积分
69

Level 2 能力者

3#
发表于 Post on 2024-12-9 10:27:37 | 只看该作者 Only view this author
重启之后;重新启动软件看下内存是否占满还是其它问题?针对性改善长期运行性能低下的问题;

2407

帖子

1

威望

5945

eV
积分
8372

Level 6 (一方通行)

4#
发表于 Post on 2024-12-9 10:37:21 | 只看该作者 Only view this author
如果机器没有调度器,
或者不限定各程序的内存占用,
请先定内存使用……不要使用SWAP.
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

22

帖子

0

威望

286

eV
积分
308

Level 3 能力者

5#
发表于 Post on 2024-12-9 11:34:10 | 只看该作者 Only view this author
考虑一下是否存在内存泄漏问题,内存被逐渐耗尽会引起系统频繁使用swap,显著降低性能;
另一个可能性是IO问题,inode 或 dentry 缓存在长时间高频小文件创建读写下被干爆耗尽了;
两个原因都会因为重启被暂时性解决

47

帖子

1

威望

1850

eV
积分
1917

Level 5 (御坂)

6#
发表于 Post on 2024-12-9 12:14:49 | 只看该作者 Only view this author
用top看看有没有什么不应该存在的进程,如果有可能是中病毒了,我们组最近服务器就中病毒了,搞了半天才解决。
有得必有失,有失必有得。

23

帖子

0

威望

327

eV
积分
350

Level 3 能力者

7#
发表于 Post on 2024-12-9 23:09:39 | 只看该作者 Only view this author
高温降频了。速度降低后,你用cat   /proc/cpuinfo | grep MHz查下评率大概率显示400MHz。拔电后,会重置警报,解除降频。所以断电开机后问题就解决了。
大概率cpu供电散热问题,进bmc或者用ipmitool sensor list 监控供电温度VRCPU啥的,找到问题后给厂家反馈解决

4

帖子

0

威望

127

eV
积分
131

Level 2 能力者

8#
 楼主 Author| 发表于 Post on 2024-12-10 14:47:56 | 只看该作者 Only view this author
sobereva 发表于 2024-12-9 09:51
查不出原因就重装系统

老师,系统重新装过了,还是不行。我们对所有硬件惊醒了整体检测,都没有发现问题。另外,我们把该节点作用单机使用,还是出现上述问题,经过监测发现长时间计算任务提交后,硬盘和内存之间的数据交互速度下降很厉害。目前把990pro的固态换成了Intel的S4520企业级固态。

4

帖子

0

威望

127

eV
积分
131

Level 2 能力者

9#
 楼主 Author| 发表于 Post on 2024-12-10 14:54:12 | 只看该作者 Only view this author
llzz0309 发表于 2024-12-9 23:09
高温降频了。速度降低后,你用cat   /proc/cpuinfo | grep MHz查下评率大概率显示400MHz。拔电后,会重置警 ...

经过监测没有发现高温之类的问题。

4

帖子

0

威望

127

eV
积分
131

Level 2 能力者

10#
 楼主 Author| 发表于 Post on 2024-12-10 14:57:58 | 只看该作者 Only view this author
BangbooCat 发表于 2024-12-9 11:34
考虑一下是否存在内存泄漏问题,内存被逐渐耗尽会引起系统频繁使用swap,显著降低性能;
另一个可能性是IO ...

我们把其中一台机器的990PRO换成了企业级的固态,正在监测。

27

帖子

0

威望

1489

eV
积分
1516

Level 5 (御坂)

11#
发表于 Post on 2024-12-10 16:20:49 | 只看该作者 Only view this author
运行过程中使用超微的BMC 工具IPMI_CFG或者bmc管理网页监控CPU及VRM温度,超微的H11主板是容易CPU_VRM高温的,高温报警后容易降频降速的

101

帖子

1

威望

645

eV
积分
766

Level 4 (黑子)

12#
发表于 Post on 2024-12-28 23:36:06 | 只看该作者 Only view this author
epyc 2代的可能会遇到bug,对照手册检查下系统设置

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-12 05:00 , Processed in 0.182327 second(s), 29 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list