计算化学公社

 找回密码 Forget password
 注册 Register
Views: 625|回复 Reply: 6
打印 Print 上一主题 Last thread 下一主题 Next thread

[使用经验] 求助主板PCIE通道阻塞

[复制链接 Copy URL]

7

帖子

0

威望

595

eV
积分
602

Level 4 (黑子)

跳转到指定楼层 Go to specific reply
楼主
组内两台工作站,具体配置如下:

主机1:
主板:技嘉MZ72-HB2
CPU:2*EPYC7763
GPU:4*4090-48G
内存:512G
SSD:致态4T

主机1反复出现IO报错,起初以为是SSD质量有问题,后来察觉到是主板吞吐不够。BIOS将4个GPU的PCIE通道从Gen4 x16调整到Gen4 x8,后稳定运行。但是极限满负载仍然有报错的可能。


近期又购入另一台主机,具体配置如下:
主板:ASrock ROME2D16-2T P3.70
CPU:2*EPYC7763
GPU:4*5090
内存:512G
SSD:致态4T


现在满载测试发现主机总是异常重启。查阅相关日志,经AI分析发现仍然是主板pcie通道不足所致,遂在BIOS中将主演调整到Gen3 x16。满载测试24小时无异常,但随后突然再次异常重启,遂调整成Gen4 x8。目前仍在调优过程中。

所有的GPU都是通过延长线连接主板的,一度怀疑是这些延长线质量有问题或速度不达标。但是总是不能抓到实锤证据。现在两台机器只要不是极限满载就能保持稳定运行。

不知论坛中各位大佬是否有此类机器的调优经验,愿与各位大佬交流

44

帖子

3

威望

550

eV
积分
654

Level 4 (黑子)

2#
发表于 Post on 2025-8-24 08:16:54 | 只看该作者 Only view this author
I recommend checking the integrity of the GPUs by using the gpu_burn utility. It's very good at spotting defects in GPUs that would otherwise remain hidden.

I also presume you are providing enough power for the system? Four GPUs of this spec in a dual-socket system will demand a huge amount of power, possibly more than a single residential circuit can provide. You could also try power-limiting the GPUs a little - considerably fewer watts can be consumed for a very minor decrease in performance.

7

帖子

0

威望

595

eV
积分
602

Level 4 (黑子)

3#
 楼主 Author| 发表于 Post on 2025-8-25 10:17:44 | 只看该作者 Only view this author
谢谢你的回复!
我会用 gpu_burn试一下看看系统是不是稳定。
根据系统和记录的一些log文件,可以初步判断是,PCIE链路不稳定。这是我把log文件喂给chaotGPT之后,他给我的一些回复:“症结不像是“主板总带宽不够”,而更像是 PCIe 信号完整性(SI)/链路裕量在四卡同时高负载+延长线场景下被吃光了,所以出现 AER 的 Data Link 层报错(BadTLP、Timeout),最终把某条 GPU 链路拖垮并触发重启”
主机配备了两个2600W的电源,每个电源分配两张显卡,应该不至于出现电源功率不足的情况。

8

帖子

0

威望

59

eV
积分
67

Level 2 能力者

4#
发表于 Post on 2025-8-25 11:11:35 | 只看该作者 Only view this author
本帖最后由 AKUNServer 于 2025-8-25 11:13 编辑

很明显是主板的问题, PCIe 接口在数据传输速率和带宽上存在限制,GPU之间的通信会直接影响性能,4张双宽48G 的GPU一般是可以直接选择4GPU模块或者在有后期增加显卡的需求,会直接配备8GPU SWITCH计算模块,考虑到电源的降额裕量,可以在2600w电源上再增加些。

7

帖子

0

威望

595

eV
积分
602

Level 4 (黑子)

5#
 楼主 Author| 发表于 Post on 2025-8-26 23:45:58 | 只看该作者 Only view this author
本帖最后由 zfb601 于 2025-8-27 11:27 编辑
AKUNServer 发表于 2025-8-25 11:11
很明显是主板的问题, PCIe 接口在数据传输速率和带宽上存在限制,GPU之间的通信会直接影响性能,4张双宽48G ...

感谢回复!!
我也觉得像是主板的问题,可是我限制了pcie插槽的速度,仍然会异常重启,这就很迷惑了。

主板上有6个pcie槽,其中5个是gen4x16的。
log文件提示每次报错的都是GPU3-插在pcie1上
我把报错的CPU3换pice6 插槽,结果还是报错。
接下来我又交换了一下GPU1和GPU3,这次是交换过后的卡报错了。
我现在怀疑是pcie延长线的问题。我今天又给这条怀疑的延长线换了个插槽,现在把他插在pcie5上,控制一下变量,看看这次是哪里报错

我还发现了一个问题,四张显卡排排坐,所有的热量都吹到了最后一张卡那里,(正好就是报错的那张卡的位置),这张卡吹出来的风明显比其他卡温度高,但是nvidia-smi显示这张卡温度和其他卡类似,也没有特别高。还有可能是热量积压导致的。但是log文件里也没有记录到过热死机的信息。所以暂时还不能确定

还有一种可能就是pcie延长线和接口都位于其他卡热风的攻击范围,也有可能是线路是过热了???

anyway,等这次调换测试的结果出来,要是还不行,那就尽我甲方的职责,联系乙方行使权利了


--------------------------
第二天更新
还是异常重启了。报错提示还是pcie6这条线路有问题。也就是不管下游延长线和显卡怎么换,出错的都是pcie6这条线路。我现在怀疑是主板有问题了。

7

帖子

0

威望

595

eV
积分
602

Level 4 (黑子)

6#
 楼主 Author| 发表于 Post on 2025-8-26 23:47:29 | 只看该作者 Only view this author
AKUNServer 发表于 2025-8-25 11:11
很明显是主板的问题, PCIe 接口在数据传输速率和带宽上存在限制,GPU之间的通信会直接影响性能,4张双宽48G ...

我现在是在做初步的压力测试,就是在四张卡上跑了四个独立的动力学模拟,似乎只有GPU和CPU之间的通信吧?这也会涉及gpu卡与卡之间的通信吗?

8

帖子

0

威望

59

eV
积分
67

Level 2 能力者

7#
发表于 Post on 2025-8-27 11:54:43 | 只看该作者 Only view this author
zfb601 发表于 2025-8-26 23:47
我现在是在做初步的压力测试,就是在四张卡上跑了四个独立的动力学模拟,似乎只有GPU和CPU之间的通信吧? ...

不会

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2026-1-24 04:58 , Processed in 0.159419 second(s), 20 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list