计算化学公社

 找回密码 Forget password
 注册 Register

服务器性能衰减,重启后又可以恢复

查看数: 1069 | 评论数: 11 | 收藏 Add to favorites 1
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2024-12-9 09:16

正文摘要:

求助! 我的服务器配置如下:在运行VASP、高斯等计算软件大概一个月左右时,计算性能衰减很厉害!拔电源重启后,性能恢复!运行一段时间后又衰减!各种测试方法均尝试过过了,没有发现硬件问题!请各位老师指教!

回复 Reply

五十八 发表于 Post on 2024-12-28 23:36:06
epyc 2代的可能会遇到bug,对照手册检查下系统设置
mingkun 发表于 Post on 2024-12-10 16:20:49
运行过程中使用超微的BMC 工具IPMI_CFG或者bmc管理网页监控CPU及VRM温度,超微的H11主板是容易CPU_VRM高温的,高温报警后容易降频降速的
zwt1990920 发表于 Post on 2024-12-10 14:57:58
BangbooCat 发表于 2024-12-9 11:34
考虑一下是否存在内存泄漏问题,内存被逐渐耗尽会引起系统频繁使用swap,显著降低性能;
另一个可能性是IO ...

我们把其中一台机器的990PRO换成了企业级的固态,正在监测。
zwt1990920 发表于 Post on 2024-12-10 14:54:12
llzz0309 发表于 2024-12-9 23:09
高温降频了。速度降低后,你用cat   /proc/cpuinfo | grep MHz查下评率大概率显示400MHz。拔电后,会重置警 ...

经过监测没有发现高温之类的问题。
zwt1990920 发表于 Post on 2024-12-10 14:47:56
sobereva 发表于 2024-12-9 09:51
查不出原因就重装系统

老师,系统重新装过了,还是不行。我们对所有硬件惊醒了整体检测,都没有发现问题。另外,我们把该节点作用单机使用,还是出现上述问题,经过监测发现长时间计算任务提交后,硬盘和内存之间的数据交互速度下降很厉害。目前把990pro的固态换成了Intel的S4520企业级固态。
llzz0309 发表于 Post on 2024-12-9 23:09:39
高温降频了。速度降低后,你用cat   /proc/cpuinfo | grep MHz查下评率大概率显示400MHz。拔电后,会重置警报,解除降频。所以断电开机后问题就解决了。
大概率cpu供电散热问题,进bmc或者用ipmitool sensor list 监控供电温度VRCPU啥的,找到问题后给厂家反馈解决

KAIMISITERUI 发表于 Post on 2024-12-9 12:14:49
用top看看有没有什么不应该存在的进程,如果有可能是中病毒了,我们组最近服务器就中病毒了,搞了半天才解决。
BangbooCat 发表于 Post on 2024-12-9 11:34:10
考虑一下是否存在内存泄漏问题,内存被逐渐耗尽会引起系统频繁使用swap,显著降低性能;
另一个可能性是IO问题,inode 或 dentry 缓存在长时间高频小文件创建读写下被干爆耗尽了;
两个原因都会因为重启被暂时性解决
abin 发表于 Post on 2024-12-9 10:37:21
如果机器没有调度器,
或者不限定各程序的内存占用,
请先定内存使用……不要使用SWAP.
sunlin3685 发表于 Post on 2024-12-9 10:27:37
重启之后;重新启动软件看下内存是否占满还是其它问题?针对性改善长期运行性能低下的问题;
sobereva 发表于 Post on 2024-12-9 09:51:03
查不出原因就重装系统

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-12 08:46 , Processed in 0.265008 second(s), 31 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list