计算化学公社

 找回密码 Forget password
 注册 Register
Views: 1041|回复 Reply: 10
打印 Print 上一主题 Last thread 下一主题 Next thread

[配置讨论] 主要用于机器学习的GPU节点配置求助

[复制链接 Copy URL]

68

帖子

0

威望

4416

eV
积分
4484

Level 6 (一方通行)

跳转到指定楼层 Go to specific reply
楼主
最近,课题组想要配置1-2台4U多卡GPU节点(组装),预算大约是20-30万,放置于机柜,主要用于机器学习、AI推理、小AI模型训练等,数据集主要就是量化数据。
由于目前课题组对多卡GPU节点用于机器学习了解不多,因此发帖求助。
提问前现在论坛里搜索了一番,发现对多卡GPU节点探讨不多,其中在http://bbs.keinsci.com/thread-40566-1-1.html这个帖子中@Entropy.S.I 大佬在7楼提到
”经典MD、AI推理、小AI模型训练的节点,用6-8卡4090。有两种方案:1. Xeon w9-3495X + 6*RTX4090 + 8*32GB DDR5 5600,CPU单核性能够强,能发挥出4090更多的性能;单台价格大约19万,搞8台。2. 双路EPYC 9334 + 8*RTX4090 + 24*16GB DDR5 4800,理论性价比更高,但4090的性能实际发挥得不太好;单台价格大约23万,搞6台。”
想请教:
1. 2025年初购买4090是否合适,还是说等5090出来再直接买5090,倒也不是特别急用。 如果等5090的话,得等半年以上吧?
2. 假如购买4090的话,现阶段6卡或8卡4090节点还是推荐以上两种方案吗?主要是对CPU型号不好确定。
谢谢。

60

帖子

0

威望

347

eV
积分
407

Level 3 能力者

2#
发表于 Post on 2024-12-25 21:20:30 | 只看该作者 Only view this author
第一个方案:Xeon w9-3495X + 6*RTX4090 + 8*32GB DDR5 5600 有瑕疵,首先6张卡你只有用PCIE扩展卡才能实现,正常的板子很难做到那么大,W9-3495X的PCIE 支持数量112,倒是够分,但是intel官方给的内存最大支持4800MHZ,可以看看这个链接https://post.smzdm.com/p/agqv6me3/
那么你的预算空间,其实最佳的是两种选择:两台四卡或者一台8卡(有十卡平台),
对于是否等5090:
1.4090都对国内禁售,5090估计金毛上台一样会禁售(有货价格会很高),加上消息说1月份中旬发布,前期可能会炒到很高的价格,现在4090价格也是不低;
2.新产品初期bug比较多,就看会不会让你遇上
处理器选择:
1.四卡就选单核性能强的工作站处理器
2.8卡平台推荐EPYC 9004的主要内存通道比intel多。

20

帖子

0

威望

49

eV
积分
69

Level 2 能力者

3#
发表于 Post on 2024-12-26 10:58:14 | 只看该作者 Only view this author
哥们,可以搞定,无论是单路还是双路,都可以搞定,我之前采购的商家很是牛,新老平台都可以帮你搞定;深度学习框架都可以帮你搭好;

68

帖子

0

威望

4416

eV
积分
4484

Level 6 (一方通行)

4#
 楼主 Author| 发表于 Post on 2024-12-26 15:58:01 | 只看该作者 Only view this author
本帖最后由 胡说 于 2024-12-26 16:02 编辑
zdb 发表于 2024-12-25 21:20
第一个方案:Xeon w9-3495X + 6*RTX4090 + 8*32GB DDR5 5600 有瑕疵,首先6张卡你只有用PCIE扩展卡才能实现 ...

谢谢回复,那可能更加倾向于一台8卡4090。
对于EPYC9004的8卡4090节点,是不是得用准系统了啊,看之前的帖子说准系统是用涡轮卡,不太推荐。
但对于8卡的话,用普通风冷卡并配成DIY机架式,论坛里好像没找到相关的帖子。

859

帖子

16

威望

5080

eV
积分
6259

Level 6 (一方通行)

小屁孩

5#
发表于 Post on 2024-12-26 20:23:46 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2024-12-26 20:51 编辑

30万可以建一套完整的56*V100-SXM2-16GB集群:http://bbs.keinsci.com/thread-47879-1-1.html

根据我的经验,基于QC/DFT构建的那点数据集无法支撑真正的“大模型”,90%以上的用途,训练所需的最低VRAM不会超过16GiB。算力主要由推理消耗,而非训练。当然,使用V100-SXM2-32G,整机成本也只会增加不到1倍。

此外,这个领域常见的模型架构对FP16、BF16精度都不适,在低于FP32的精度下数值稳定性很差;结合实际应用场景,在整个流程中仍然会涉及许多和能量、受力相关的传统计算,这些计算甚至必须使用FP64,这与如今某些领域风靡的Transformer架构不同。因此,FP32和FP64才是最需要关注的理论性能指标。作为参考,运行DPA-1架构的模型推理(启用compress,并在训练和compress时始终设置DP_INTERFACE_PREC=low以使尽可能多的计算在FP32精度下执行),体系包含32768原子,1块RTX 4090搭配Core i7 14700KF的速度是1块V100-SXM2-16G搭配EPYC 7443P的2倍,而非理论上的5倍多。对VRAM带宽利用率进行了监测,两种GPU都远远没有打满VRAM带宽,4090的瓶颈是FP64性能。

评分 Rate

参与人数
Participants 1
eV +5 收起 理由
Reason
tanyazhi + 5 赞!

查看全部评分 View all ratings

- 向着虚无前进 -

859

帖子

16

威望

5080

eV
积分
6259

Level 6 (一方通行)

小屁孩

6#
发表于 Post on 2024-12-26 20:34:43 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2024-12-26 20:40 编辑
zdb 发表于 2024-12-25 21:20
第一个方案:Xeon w9-3495X + 6*RTX4090 + 8*32GB DDR5 5600 有瑕疵,首先6张卡你只有用PCIE扩展卡才能实现 ...

我发布这篇文章的2个月后,业界就完成了W9-3495X搭配6块RTX4090且所有GPU独享直连CPU的PCIe Gen4 x16链路的工作站的开发,甚至还有多余的slot提供给Infiniband NIC。W9-3495X搭配DDR5-5600MT/s ECC-RDIMM实测也可以正常运行在5600MT/s频率下。

BTW,针对8*RTX5090非“涡轮卡”的机架式平台也已经开发完成,2周前我已经在工厂中见到实物。

多GPU服务器/工作站的开发难度在于连接器的稳定性,这个行业没有任何一家OEM/ODM企业未曾经历大规模“掉卡”或“掉速”。NVIDIA自己设计的DGX系统面临的主要挑战也是连接器不稳定。
- 向着虚无前进 -

68

帖子

0

威望

4416

eV
积分
4484

Level 6 (一方通行)

7#
 楼主 Author| 发表于 Post on 2024-12-26 21:39:40 | 只看该作者 Only view this author
Entropy.S.I 发表于 2024-12-26 20:23
30万可以建一套完整的56*V100-SXM2-16GB集群:http://bbs.keinsci.com/thread-47879-1-1.html

根据我的 ...

谢谢老师的回复,从性价比来说确实是8卡的V100-SXM2-16GB很合适,30万就可以组7台左右。
但考虑到机柜空间,目前只允许配置1-2台GPU节点的话,那还是得选1台8卡4090更为合适吧。

60

帖子

0

威望

347

eV
积分
407

Level 3 能力者

8#
发表于 Post on 2024-12-30 18:11:44 | 只看该作者 Only view this author
胡说 发表于 2024-12-26 15:58
谢谢回复,那可能更加倾向于一台8卡4090。
对于EPYC9004的8卡4090节点,是不是得用准系统了啊,看之前的 ...

8卡平台不用涡轮卡不可能的,而且并非是涡轮卡导致掉卡问题,严格意义上讲4090定位是消费级,游戏卡,tesla系列的属于数据中心计算卡,消费级的卡都会经历掉卡的问题,只是厂家工艺不同出现的问题概率大小,周期长短不一,

60

帖子

0

威望

347

eV
积分
407

Level 3 能力者

9#
发表于 Post on 2024-12-30 18:13:25 | 只看该作者 Only view this author
Entropy.S.I 发表于 2024-12-26 20:34
我发布这篇文章的2个月后,业界就完成了W9-3495X搭配6块RTX4090且所有GPU独享直连CPU的PCIe Gen4 x16链路 ...

处理器的pcie通道支持,只要主板制造商有货是可以实现,

13

帖子

0

威望

90

eV
积分
103

Level 2 能力者

10#
发表于 Post on 2024-12-31 09:34:34 | 只看该作者 Only view this author
30W我觉得没有必要买V100,现在一个V100 32Gpcie版本也才2W,建议使用4U8GPU服务器,不要用工作站的配置,性价比来说可以选择4090,专业卡可以选择L40

35

帖子

0

威望

430

eV
积分
465

Level 3 能力者

11#
发表于 Post on 2025-1-1 19:12:48 | 只看该作者 Only view this author
可以考虑dgx-2,不到30w,16卡 32G v100 smx3,带nvlink和nvswitch,大显存可以推405B模型。比8卡4090强多了。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-12 04:41 , Processed in 0.152232 second(s), 21 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list