计算化学公社

标题: 双路7R32一块CPU运行速度比另一块CPU慢得多 [打印本页]

作者
Author:
MercuryLamp    时间: 2024-1-26 22:14
标题: 双路7R32一块CPU运行速度比另一块CPU慢得多
本帖最后由 MercuryLamp 于 2024-1-27 13:14 编辑

大家好,组里半年前按照sob老师购机推荐中的配置购买了一台双路7R32塔式服务器,但前几天运行任务时感觉其中一块CPU运行速度比另一块慢了很多。于是拿sob老师经验贴中(http://bbs.keinsci.com/thread-32755-1-1.html)提到的几个测试文件来测试了一下Gaussian,ORCA和CP2K几个软件的运行速度,发现CPU2的速度确实比CPU1慢了不少(如附图所示)。

对这方面没什么经验,不知从何处开始排查,尝试了用top和s-tui指令查看两块CPU的占用情况,但没看出什么区别(占用率和温度都是正常的),像这种计算服务器可以直接找电脑店检查维修吗?是否有其他需要注意的问题呢?

大家能否给我一些建议呢,十分感谢。
作者
Author:
sobereva    时间: 2024-1-26 22:39
看看CPU频率是否正常。也可能内存规格、安装的问题
作者
Author:
MercuryLamp    时间: 2024-1-27 12:52
本帖最后由 MercuryLamp 于 2024-1-27 13:19 编辑
sobereva 发表于 2024-1-26 22:39
看看CPU频率是否正常。也可能内存规格、安装的问题

谢谢老师的建议,我查看了一下运行任务时两块CPU各自48个核的平均频率,发现确实CPU2的频率要比CPU1低很多,这种应该算硬件问题吗?因为配置除了内存是16条32GB DDR4-3200外,其他都和您经验贴中一样,并且刚买的时候也测试过了性能,当时是比较正常的,但前几天机器突然重启了一次,之后就有了这个问题。
这种问题可以直接拿到电脑店修吗?当时买的时候主板缺货,最后是在淘宝/京东买的散件自己组装的,而且快放假了,现在寄回去修可能也不太方便。


顺便想问一下,频率不稳定且比3.3GHz低应该是因为机器没有关超线程导致的,但频率波动这么大(cp2k任务)是否正常呢?
虽然一般没必要刻意关,但对于7R32,不关的话满载频率会降低1/10而有损性能,所以下面的测试若未注明我都是关了HT测的,平时也都关了HT用。


作者
Author:
sobereva    时间: 2024-1-28 02:36
用%cpu设置把两个高斯任务分别绑在两个CPU上进行测试。如果还是这样,把两个CPU交换一下看看。如果确认不是CPU而是在第二个CPU槽上运行有问题,也没准是主板或电源的问题,可以进行替换测试或联系卖家
作者
Author:
MercuryLamp    时间: 2024-1-28 11:15
sobereva 发表于 2024-1-28 02:36
用%cpu设置把两个高斯任务分别绑在两个CPU上进行测试。如果还是这样,把两个CPU交换一下看看。如果确认不是 ...

好的,我是用%cpu设置把两个高斯任务分别绑在两个CPU上进行测试的,我再试试交换两个CPU的位置测试一下看看,谢谢老师的建议。
作者
Author:
sss668800    时间: 2024-2-1 09:45
MercuryLamp 发表于 2024-1-28 11:15
好的,我是用%cpu设置把两个高斯任务分别绑在两个CPU上进行测试的,我再试试交换两个CPU的位置测试一下看 ...

如果你是塔式工作站,有可能是CPU2吃了CPU1散热尾气,导致的温度上升而降频。
你把两颗CPU工作的温度曲线也画出来,就能清楚。

一般品牌工作站,会让CPU2的散热强于CPU1,比如增大散热器和热管,或者是给CPU2更强的风扇。
作者
Author:
MercuryLamp    时间: 2024-2-4 14:15
sss668800 发表于 2024-2-1 09:45
如果你是塔式工作站,有可能是CPU2吃了CPU1散热尾气,导致的温度上升而降频。
你把两颗CPU工作的温度曲 ...

感谢建议,不过我看了一下两块CPU运行时温度差不多,甚至CPU2比CPU1的温度还略低一点。

根据刚买时的运行结果来看,感觉更像是CPU1吃了CPU2的散热尾气,因为之前正常工作时温度也是CPU1比CPU2要略高。
作者
Author:
sss668800    时间: 2024-2-4 14:35
MercuryLamp 发表于 2024-2-4 14:15
感谢建议,不过我看了一下两块CPU运行时温度差不多,甚至CPU2比CPU1的温度还略低一点。

根据刚买时的 ...

你的风道是从后面进风的啊?cpu2吹向cpu1???
作者
Author:
MercuryLamp    时间: 2024-2-4 15:26
本帖最后由 MercuryLamp 于 2024-2-4 15:30 编辑
sss668800 发表于 2024-2-4 14:35
你的风道是从后面进风的啊?cpu2吹向cpu1???

抱歉,这个机器当时不是我装的,我也不太清楚,这个也只是我自己的推测,可能并不正确。
本来前几天想拆开看一下,但家里有点事提前回家了,只能等年后回学校再看一下了。

作者
Author:
sss668800    时间: 2024-2-4 16:26
MercuryLamp 发表于 2024-2-4 15:26
抱歉,这个机器当时不是我装的,我也不太清楚,这个也只是我自己的推测,可能并不正确。
本来前几天想拆 ...

我建议你把风道弄弄清楚,搞不好就是风道没布置好导致的
作者
Author:
MercuryLamp    时间: 2024-2-4 16:39
本帖最后由 MercuryLamp 于 2024-2-4 16:41 编辑
sss668800 发表于 2024-2-4 16:26
我建议你把风道弄弄清楚,搞不好就是风道没布置好导致的

好的,感谢您的建议。

不过我还有一点小疑问想请教一下,因为这个机器装好后应该是没有再拆开动过的,但之前用都是比较正常的,只有上个月才出现两块CPU速度不一样的问题,这种问题和风道有关系吗?

作者
Author:
乘风万里    时间: 2024-2-4 20:25
有没有可能主板设置了节能模式?某年在某超算跑任务,发现有的节点慢一倍,跟管理员汇报后,发现这些节点开了节能模式
作者
Author:
sss668800    时间: 2024-2-5 09:35
MercuryLamp 发表于 2024-2-4 16:39
好的,感谢您的建议。

不过我还有一点小疑问想请教一下,因为这个机器装好后应该是没有再拆开动过的, ...

有可能的,刚装好时候散热还好,时间长了硅脂老化+风扇积灰等等,散热性能下降,就会出现你说的情况。

所以说,散热尽量要有冗余
作者
Author:
MercuryLamp    时间: 2024-2-8 22:58
sss668800 发表于 2024-2-5 09:35
有可能的,刚装好时候散热还好,时间长了硅脂老化+风扇积灰等等,散热性能下降,就会出现你说的情况。

...

好的好的,非常感谢您的建议
作者
Author:
MercuryLamp    时间: 2024-2-8 22:59
乘风万里 发表于 2024-2-4 20:25
有没有可能主板设置了节能模式?某年在某超算跑任务,发现有的节点慢一倍,跟管理员汇报后,发现这些节点开 ...

感谢建议,这个之后我也检查一下




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3