主要用于机器学习的GPU节点配置求助

胡说 · 发表于 Post on 2024-12-25 20:50:12

最近，课题组想要配置1-2台4U多卡GPU节点（组装），预算大约是20-30万，放置于机柜，主要用于机器学习、AI推理、小AI模型训练等，数据集主要就是量化数据。
由于目前课题组对多卡GPU节点用于机器学习了解不多，因此发帖求助。
提问前现在论坛里搜索了一番，发现对多卡GPU节点探讨不多，其中在http://bbs.keinsci.com/thread-40566-1-1.html这个帖子中@Entropy.S.I 大佬在7楼提到
”经典MD、AI推理、小AI模型训练的节点，用6-8卡4090。有两种方案：1. Xeon w9-3495X + 6*RTX4090 + 8*32GB DDR5 5600，CPU单核性能够强，能发挥出4090更多的性能；单台价格大约19万，搞8台。2. 双路EPYC 9334 + 8*RTX4090 + 24*16GB DDR5 4800，理论性价比更高，但4090的性能实际发挥得不太好；单台价格大约23万，搞6台。”
想请教：
1. 2025年初购买4090是否合适，还是说等5090出来再直接买5090，倒也不是特别急用。如果等5090的话，得等半年以上吧？
2. 假如购买4090的话，现阶段6卡或8卡4090节点还是推荐以上两种方案吗？主要是对CPU型号不好确定。
谢谢。

zdb · 发表于 Post on 2024-12-25 21:20:30

第一个方案：Xeon w9-3495X + 6*RTX4090 + 8*32GB DDR5 5600 有瑕疵，首先6张卡你只有用PCIE扩展卡才能实现，正常的板子很难做到那么大，W9-3495X的PCIE 支持数量112，倒是够分，但是intel官方给的内存最大支持4800MHZ，可以看看这个链接https://post.smzdm.com/p/agqv6me3/
那么你的预算空间，其实最佳的是两种选择：两台四卡或者一台8卡（有十卡平台），
对于是否等5090：
1.4090都对国内禁售，5090估计金毛上台一样会禁售（有货价格会很高），加上消息说1月份中旬发布，前期可能会炒到很高的价格，现在4090价格也是不低；
2.新产品初期bug比较多，就看会不会让你遇上
处理器选择：
1.四卡就选单核性能强的工作站处理器
2.8卡平台推荐EPYC 9004的主要内存通道比intel多。

sunlin3685 · 发表于 Post on 2024-12-26 10:58:14

哥们，可以搞定，无论是单路还是双路，都可以搞定，我之前采购的商家很是牛，新老平台都可以帮你搞定；深度学习框架都可以帮你搭好；

胡说 · 发表于 Post on 2024-12-26 15:58:01

本帖最后由胡说于 2024-12-26 16:02 编辑

zdb 发表于 2024-12-25 21:20
第一个方案：Xeon w9-3495X + 6*RTX4090 + 8*32GB DDR5 5600 有瑕疵，首先6张卡你只有用PCIE扩展卡才能实现 ...

谢谢回复，那可能更加倾向于一台8卡4090。
对于EPYC9004的8卡4090节点，是不是得用准系统了啊，看之前的帖子说准系统是用涡轮卡，不太推荐。
但对于8卡的话，用普通风冷卡并配成DIY机架式，论坛里好像没找到相关的帖子。

Entropy.S.I · 发表于 Post on 2024-12-26 20:23:46

本帖最后由 Entropy.S.I 于 2024-12-26 20:51 编辑

30万可以建一套完整的56*V100-SXM2-16GB集群：http://bbs.keinsci.com/thread-47879-1-1.html

根据我的经验，基于QC/DFT构建的那点数据集无法支撑真正的“大模型”，90%以上的用途，训练所需的最低VRAM不会超过16GiB。算力主要由推理消耗，而非训练。当然，使用V100-SXM2-32G，整机成本也只会增加不到1倍。

此外，这个领域常见的模型架构对FP16、BF16精度都不适，在低于FP32的精度下数值稳定性很差；结合实际应用场景，在整个流程中仍然会涉及许多和能量、受力相关的传统计算，这些计算甚至必须使用FP64，这与如今某些领域风靡的Transformer架构不同。因此，FP32和FP64才是最需要关注的理论性能指标。作为参考，运行DPA-1架构的模型推理（启用compress，并在训练和compress时始终设置DP_INTERFACE_PREC=low以使尽可能多的计算在FP32精度下执行），体系包含32768原子，1块RTX 4090搭配Core i7 14700KF的速度是1块V100-SXM2-16G搭配EPYC 7443P的2倍，而非理论上的5倍多。对VRAM带宽利用率进行了监测，两种GPU都远远没有打满VRAM带宽，4090的瓶颈是FP64性能。

Entropy.S.I · 发表于 Post on 2024-12-26 20:34:43

本帖最后由 Entropy.S.I 于 2024-12-26 20:40 编辑

zdb 发表于 2024-12-25 21:20
第一个方案：Xeon w9-3495X + 6*RTX4090 + 8*32GB DDR5 5600 有瑕疵，首先6张卡你只有用PCIE扩展卡才能实现 ...

我发布这篇文章的2个月后，业界就完成了W9-3495X搭配6块RTX4090且所有GPU独享直连CPU的PCIe Gen4 x16链路的工作站的开发，甚至还有多余的slot提供给Infiniband NIC。W9-3495X搭配DDR5-5600MT/s ECC-RDIMM实测也可以正常运行在5600MT/s频率下。

BTW，针对8*RTX5090非“涡轮卡”的机架式平台也已经开发完成，2周前我已经在工厂中见到实物。

多GPU服务器/工作站的开发难度在于连接器的稳定性，这个行业没有任何一家OEM/ODM企业未曾经历大规模“掉卡”或“掉速”。NVIDIA自己设计的DGX系统面临的主要挑战也是连接器不稳定。

胡说 · 发表于 Post on 2024-12-26 21:39:40

Entropy.S.I 发表于 2024-12-26 20:23
30万可以建一套完整的56*V100-SXM2-16GB集群：http://bbs.keinsci.com/thread-47879-1-1.html

根据我的 ...

谢谢老师的回复，从性价比来说确实是8卡的V100-SXM2-16GB很合适，30万就可以组7台左右。
但考虑到机柜空间，目前只允许配置1-2台GPU节点的话，那还是得选1台8卡4090更为合适吧。

zdb · 发表于 Post on 2024-12-30 18:11:44

胡说发表于 2024-12-26 15:58
谢谢回复，那可能更加倾向于一台8卡4090。
对于EPYC9004的8卡4090节点，是不是得用准系统了啊，看之前的 ...

8卡平台不用涡轮卡不可能的，而且并非是涡轮卡导致掉卡问题，严格意义上讲4090定位是消费级，游戏卡，tesla系列的属于数据中心计算卡，消费级的卡都会经历掉卡的问题，只是厂家工艺不同出现的问题概率大小，周期长短不一，

zdb · 发表于 Post on 2024-12-30 18:13:25

Entropy.S.I 发表于 2024-12-26 20:34
我发布这篇文章的2个月后，业界就完成了W9-3495X搭配6块RTX4090且所有GPU独享直连CPU的PCIe Gen4 x16链路 ...

处理器的pcie通道支持，只要主板制造商有货是可以实现，

enine · 发表于 Post on 2024-12-31 09:34:34

30W我觉得没有必要买V100,现在一个V100 32Gpcie版本也才2W，建议使用4U8GPU服务器，不要用工作站的配置，性价比来说可以选择4090，专业卡可以选择L40

frontleg · 发表于 Post on 2025-1-1 19:12:48

可以考虑dgx-2，不到30w，16卡 32G v100 smx3，带nvlink和nvswitch，大显存可以推405B模型。比8卡4090强多了。

		自动登录 Automatic login	找回密码 Forget password
密码 Password			注册 Register

[配置讨论] 主要用于机器学习的GPU节点配置求助

评分 Rate