计算化学公社

 找回密码 Forget password
 注册 Register
Views: 1237|回复 Reply: 14
打印 Print 上一主题 Last thread 下一主题 Next thread

[综合交流] 双路7R32一块CPU运行速度比另一块CPU慢得多

[复制链接 Copy URL]

109

帖子

0

威望

1730

eV
积分
1839

Level 5 (御坂)

本帖最后由 MercuryLamp 于 2024-1-27 13:14 编辑

大家好,组里半年前按照sob老师购机推荐中的配置购买了一台双路7R32塔式服务器,但前几天运行任务时感觉其中一块CPU运行速度比另一块慢了很多。于是拿sob老师经验贴中(http://bbs.keinsci.com/thread-32755-1-1.html)提到的几个测试文件来测试了一下Gaussian,ORCA和CP2K几个软件的运行速度,发现CPU2的速度确实比CPU1慢了不少(如附图所示)。

对这方面没什么经验,不知从何处开始排查,尝试了用top和s-tui指令查看两块CPU的占用情况,但没看出什么区别(占用率和温度都是正常的),像这种计算服务器可以直接找电脑店检查维修吗?是否有其他需要注意的问题呢?

大家能否给我一些建议呢,十分感谢。

测试结果.png (18.3 KB, 下载次数 Times of downloads: 65)

测试结果.png

5万

帖子

99

威望

5万

eV
积分
112353

管理员

公社社长

2#
发表于 Post on 2024-1-26 22:39:41 | 只看该作者 Only view this author
看看CPU频率是否正常。也可能内存规格、安装的问题
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入“北京科音”微信公众号获取北京科音培训的最新消息、避免错过网上有价值的计算化学文章!
欢迎加入人气非常高、专业性特别强的综合性理论与计算化学交流QQ群“思想家公社QQ群”:1号:18616395,2号:466017436,3号:764390338,搜索群号能搜到哪个说明目前哪个能加,合计9000人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

109

帖子

0

威望

1730

eV
积分
1839

Level 5 (御坂)

3#
 楼主 Author| 发表于 Post on 2024-1-27 12:52:22 | 只看该作者 Only view this author
本帖最后由 MercuryLamp 于 2024-1-27 13:19 编辑
sobereva 发表于 2024-1-26 22:39
看看CPU频率是否正常。也可能内存规格、安装的问题

谢谢老师的建议,我查看了一下运行任务时两块CPU各自48个核的平均频率,发现确实CPU2的频率要比CPU1低很多,这种应该算硬件问题吗?因为配置除了内存是16条32GB DDR4-3200外,其他都和您经验贴中一样,并且刚买的时候也测试过了性能,当时是比较正常的,但前几天机器突然重启了一次,之后就有了这个问题。
这种问题可以直接拿到电脑店修吗?当时买的时候主板缺货,最后是在淘宝/京东买的散件自己组装的,而且快放假了,现在寄回去修可能也不太方便。


顺便想问一下,频率不稳定且比3.3GHz低应该是因为机器没有关超线程导致的,但频率波动这么大(cp2k任务)是否正常呢?
虽然一般没必要刻意关,但对于7R32,不关的话满载频率会降低1/10而有损性能,所以下面的测试若未注明我都是关了HT测的,平时也都关了HT用。

test-gaussian.png (144.41 KB, 下载次数 Times of downloads: 73)

test-gaussian.png

test-orca.png (144.88 KB, 下载次数 Times of downloads: 60)

test-orca.png

test-cp2k.png (190.53 KB, 下载次数 Times of downloads: 69)

test-cp2k.png

5万

帖子

99

威望

5万

eV
积分
112353

管理员

公社社长

4#
发表于 Post on 2024-1-28 02:36:13 | 只看该作者 Only view this author
用%cpu设置把两个高斯任务分别绑在两个CPU上进行测试。如果还是这样,把两个CPU交换一下看看。如果确认不是CPU而是在第二个CPU槽上运行有问题,也没准是主板或电源的问题,可以进行替换测试或联系卖家
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入“北京科音”微信公众号获取北京科音培训的最新消息、避免错过网上有价值的计算化学文章!
欢迎加入人气非常高、专业性特别强的综合性理论与计算化学交流QQ群“思想家公社QQ群”:1号:18616395,2号:466017436,3号:764390338,搜索群号能搜到哪个说明目前哪个能加,合计9000人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

109

帖子

0

威望

1730

eV
积分
1839

Level 5 (御坂)

5#
 楼主 Author| 发表于 Post on 2024-1-28 11:15:06 | 只看该作者 Only view this author
sobereva 发表于 2024-1-28 02:36
用%cpu设置把两个高斯任务分别绑在两个CPU上进行测试。如果还是这样,把两个CPU交换一下看看。如果确认不是 ...

好的,我是用%cpu设置把两个高斯任务分别绑在两个CPU上进行测试的,我再试试交换两个CPU的位置测试一下看看,谢谢老师的建议。

78

帖子

0

威望

581

eV
积分
659

Level 4 (黑子)

6#
发表于 Post on 2024-2-1 09:45:05 | 只看该作者 Only view this author
MercuryLamp 发表于 2024-1-28 11:15
好的,我是用%cpu设置把两个高斯任务分别绑在两个CPU上进行测试的,我再试试交换两个CPU的位置测试一下看 ...

如果你是塔式工作站,有可能是CPU2吃了CPU1散热尾气,导致的温度上升而降频。
你把两颗CPU工作的温度曲线也画出来,就能清楚。

一般品牌工作站,会让CPU2的散热强于CPU1,比如增大散热器和热管,或者是给CPU2更强的风扇。

109

帖子

0

威望

1730

eV
积分
1839

Level 5 (御坂)

7#
 楼主 Author| 发表于 Post on 2024-2-4 14:15:19 | 只看该作者 Only view this author
sss668800 发表于 2024-2-1 09:45
如果你是塔式工作站,有可能是CPU2吃了CPU1散热尾气,导致的温度上升而降频。
你把两颗CPU工作的温度曲 ...

感谢建议,不过我看了一下两块CPU运行时温度差不多,甚至CPU2比CPU1的温度还略低一点。

根据刚买时的运行结果来看,感觉更像是CPU1吃了CPU2的散热尾气,因为之前正常工作时温度也是CPU1比CPU2要略高。

78

帖子

0

威望

581

eV
积分
659

Level 4 (黑子)

8#
发表于 Post on 2024-2-4 14:35:49 | 只看该作者 Only view this author
MercuryLamp 发表于 2024-2-4 14:15
感谢建议,不过我看了一下两块CPU运行时温度差不多,甚至CPU2比CPU1的温度还略低一点。

根据刚买时的 ...

你的风道是从后面进风的啊?cpu2吹向cpu1???

109

帖子

0

威望

1730

eV
积分
1839

Level 5 (御坂)

9#
 楼主 Author| 发表于 Post on 2024-2-4 15:26:34 | 只看该作者 Only view this author
本帖最后由 MercuryLamp 于 2024-2-4 15:30 编辑
sss668800 发表于 2024-2-4 14:35
你的风道是从后面进风的啊?cpu2吹向cpu1???

抱歉,这个机器当时不是我装的,我也不太清楚,这个也只是我自己的推测,可能并不正确。
本来前几天想拆开看一下,但家里有点事提前回家了,只能等年后回学校再看一下了。

78

帖子

0

威望

581

eV
积分
659

Level 4 (黑子)

10#
发表于 Post on 2024-2-4 16:26:30 | 只看该作者 Only view this author
MercuryLamp 发表于 2024-2-4 15:26
抱歉,这个机器当时不是我装的,我也不太清楚,这个也只是我自己的推测,可能并不正确。
本来前几天想拆 ...

我建议你把风道弄弄清楚,搞不好就是风道没布置好导致的

109

帖子

0

威望

1730

eV
积分
1839

Level 5 (御坂)

11#
 楼主 Author| 发表于 Post on 2024-2-4 16:39:49 | 只看该作者 Only view this author
本帖最后由 MercuryLamp 于 2024-2-4 16:41 编辑
sss668800 发表于 2024-2-4 16:26
我建议你把风道弄弄清楚,搞不好就是风道没布置好导致的

好的,感谢您的建议。

不过我还有一点小疑问想请教一下,因为这个机器装好后应该是没有再拆开动过的,但之前用都是比较正常的,只有上个月才出现两块CPU速度不一样的问题,这种问题和风道有关系吗?

38

帖子

0

威望

878

eV
积分
916

Level 4 (黑子)

12#
发表于 Post on 2024-2-4 20:25:24 | 只看该作者 Only view this author
有没有可能主板设置了节能模式?某年在某超算跑任务,发现有的节点慢一倍,跟管理员汇报后,发现这些节点开了节能模式

78

帖子

0

威望

581

eV
积分
659

Level 4 (黑子)

13#
发表于 Post on 2024-2-5 09:35:46 | 只看该作者 Only view this author
MercuryLamp 发表于 2024-2-4 16:39
好的,感谢您的建议。

不过我还有一点小疑问想请教一下,因为这个机器装好后应该是没有再拆开动过的, ...

有可能的,刚装好时候散热还好,时间长了硅脂老化+风扇积灰等等,散热性能下降,就会出现你说的情况。

所以说,散热尽量要有冗余

109

帖子

0

威望

1730

eV
积分
1839

Level 5 (御坂)

14#
 楼主 Author| 发表于 Post on 2024-2-8 22:58:59 | 只看该作者 Only view this author
sss668800 发表于 2024-2-5 09:35
有可能的,刚装好时候散热还好,时间长了硅脂老化+风扇积灰等等,散热性能下降,就会出现你说的情况。

...

好的好的,非常感谢您的建议

109

帖子

0

威望

1730

eV
积分
1839

Level 5 (御坂)

15#
 楼主 Author| 发表于 Post on 2024-2-8 22:59:16 | 只看该作者 Only view this author
乘风万里 发表于 2024-2-4 20:25
有没有可能主板设置了节能模式?某年在某超算跑任务,发现有的节点慢一倍,跟管理员汇报后,发现这些节点开 ...

感谢建议,这个之后我也检查一下

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 20:48 , Processed in 0.188996 second(s), 24 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list