计算化学公社

标题: 主要用于机器学习的GPU节点配置求助 [打印本页]

作者
Author:
胡说    时间: 2024-12-25 20:50
标题: 主要用于机器学习的GPU节点配置求助
最近,课题组想要配置1-2台4U多卡GPU节点(组装),预算大约是20-30万,放置于机柜,主要用于机器学习、AI推理、小AI模型训练等,数据集主要就是量化数据。
由于目前课题组对多卡GPU节点用于机器学习了解不多,因此发帖求助。
提问前现在论坛里搜索了一番,发现对多卡GPU节点探讨不多,其中在http://bbs.keinsci.com/thread-40566-1-1.html这个帖子中@Entropy.S.I 大佬在7楼提到
”经典MD、AI推理、小AI模型训练的节点,用6-8卡4090。有两种方案:1. Xeon w9-3495X + 6*RTX4090 + 8*32GB DDR5 5600,CPU单核性能够强,能发挥出4090更多的性能;单台价格大约19万,搞8台。2. 双路EPYC 9334 + 8*RTX4090 + 24*16GB DDR5 4800,理论性价比更高,但4090的性能实际发挥得不太好;单台价格大约23万,搞6台。”
想请教:
1. 2025年初购买4090是否合适,还是说等5090出来再直接买5090,倒也不是特别急用。 如果等5090的话,得等半年以上吧?
2. 假如购买4090的话,现阶段6卡或8卡4090节点还是推荐以上两种方案吗?主要是对CPU型号不好确定。
谢谢。

作者
Author:
zdb    时间: 2024-12-25 21:20
第一个方案:Xeon w9-3495X + 6*RTX4090 + 8*32GB DDR5 5600 有瑕疵,首先6张卡你只有用PCIE扩展卡才能实现,正常的板子很难做到那么大,W9-3495X的PCIE 支持数量112,倒是够分,但是intel官方给的内存最大支持4800MHZ,可以看看这个链接https://post.smzdm.com/p/agqv6me3/
那么你的预算空间,其实最佳的是两种选择:两台四卡或者一台8卡(有十卡平台),
对于是否等5090:
1.4090都对国内禁售,5090估计金毛上台一样会禁售(有货价格会很高),加上消息说1月份中旬发布,前期可能会炒到很高的价格,现在4090价格也是不低;
2.新产品初期bug比较多,就看会不会让你遇上
处理器选择:
1.四卡就选单核性能强的工作站处理器
2.8卡平台推荐EPYC 9004的主要内存通道比intel多。
作者
Author:
sunlin3685    时间: 2024-12-26 10:58
哥们,可以搞定,无论是单路还是双路,都可以搞定,我之前采购的商家很是牛,新老平台都可以帮你搞定;深度学习框架都可以帮你搭好;
作者
Author:
胡说    时间: 2024-12-26 15:58
本帖最后由 胡说 于 2024-12-26 16:02 编辑
zdb 发表于 2024-12-25 21:20
第一个方案:Xeon w9-3495X + 6*RTX4090 + 8*32GB DDR5 5600 有瑕疵,首先6张卡你只有用PCIE扩展卡才能实现 ...

谢谢回复,那可能更加倾向于一台8卡4090。
对于EPYC9004的8卡4090节点,是不是得用准系统了啊,看之前的帖子说准系统是用涡轮卡,不太推荐。
但对于8卡的话,用普通风冷卡并配成DIY机架式,论坛里好像没找到相关的帖子。
作者
Author:
Entropy.S.I    时间: 2024-12-26 20:23
本帖最后由 Entropy.S.I 于 2024-12-26 20:51 编辑

30万可以建一套完整的56*V100-SXM2-16GB集群:http://bbs.keinsci.com/thread-47879-1-1.html

根据我的经验,基于QC/DFT构建的那点数据集无法支撑真正的“大模型”,90%以上的用途,训练所需的最低VRAM不会超过16GiB。算力主要由推理消耗,而非训练。当然,使用V100-SXM2-32G,整机成本也只会增加不到1倍。

此外,这个领域常见的模型架构对FP16、BF16精度都不适,在低于FP32的精度下数值稳定性很差;结合实际应用场景,在整个流程中仍然会涉及许多和能量、受力相关的传统计算,这些计算甚至必须使用FP64,这与如今某些领域风靡的Transformer架构不同。因此,FP32和FP64才是最需要关注的理论性能指标。作为参考,运行DPA-1架构的模型推理(启用compress,并在训练和compress时始终设置DP_INTERFACE_PREC=low以使尽可能多的计算在FP32精度下执行),体系包含32768原子,1块RTX 4090搭配Core i7 14700KF的速度是1块V100-SXM2-16G搭配EPYC 7443P的2倍,而非理论上的5倍多。对VRAM带宽利用率进行了监测,两种GPU都远远没有打满VRAM带宽,4090的瓶颈是FP64性能。
作者
Author:
Entropy.S.I    时间: 2024-12-26 20:34
本帖最后由 Entropy.S.I 于 2024-12-26 20:40 编辑
zdb 发表于 2024-12-25 21:20
第一个方案:Xeon w9-3495X + 6*RTX4090 + 8*32GB DDR5 5600 有瑕疵,首先6张卡你只有用PCIE扩展卡才能实现 ...

我发布这篇文章的2个月后,业界就完成了W9-3495X搭配6块RTX4090且所有GPU独享直连CPU的PCIe Gen4 x16链路的工作站的开发,甚至还有多余的slot提供给Infiniband NIC。W9-3495X搭配DDR5-5600MT/s ECC-RDIMM实测也可以正常运行在5600MT/s频率下。

BTW,针对8*RTX5090非“涡轮卡”的机架式平台也已经开发完成,2周前我已经在工厂中见到实物。

多GPU服务器/工作站的开发难度在于连接器的稳定性,这个行业没有任何一家OEM/ODM企业未曾经历大规模“掉卡”或“掉速”。NVIDIA自己设计的DGX系统面临的主要挑战也是连接器不稳定。
作者
Author:
胡说    时间: 2024-12-26 21:39
Entropy.S.I 发表于 2024-12-26 20:23
30万可以建一套完整的56*V100-SXM2-16GB集群:http://bbs.keinsci.com/thread-47879-1-1.html

根据我的 ...

谢谢老师的回复,从性价比来说确实是8卡的V100-SXM2-16GB很合适,30万就可以组7台左右。
但考虑到机柜空间,目前只允许配置1-2台GPU节点的话,那还是得选1台8卡4090更为合适吧。
作者
Author:
zdb    时间: 2024-12-30 18:11
胡说 发表于 2024-12-26 15:58
谢谢回复,那可能更加倾向于一台8卡4090。
对于EPYC9004的8卡4090节点,是不是得用准系统了啊,看之前的 ...

8卡平台不用涡轮卡不可能的,而且并非是涡轮卡导致掉卡问题,严格意义上讲4090定位是消费级,游戏卡,tesla系列的属于数据中心计算卡,消费级的卡都会经历掉卡的问题,只是厂家工艺不同出现的问题概率大小,周期长短不一,
作者
Author:
zdb    时间: 2024-12-30 18:13
Entropy.S.I 发表于 2024-12-26 20:34
我发布这篇文章的2个月后,业界就完成了W9-3495X搭配6块RTX4090且所有GPU独享直连CPU的PCIe Gen4 x16链路 ...

处理器的pcie通道支持,只要主板制造商有货是可以实现,
作者
Author:
enine    时间: 2024-12-31 09:34
30W我觉得没有必要买V100,现在一个V100 32Gpcie版本也才2W,建议使用4U8GPU服务器,不要用工作站的配置,性价比来说可以选择4090,专业卡可以选择L40
作者
Author:
frontleg    时间: 2025-1-1 19:12
可以考虑dgx-2,不到30w,16卡 32G v100 smx3,带nvlink和nvswitch,大显存可以推405B模型。比8卡4090强多了。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3