计算化学公社

 找回密码 Forget password
 注册 Register
Views: 1205|回复 Reply: 10
打印 Print 上一主题 Last thread 下一主题 Next thread

[配置讨论] 请教GPU机器搭建基本问题

[复制链接 Copy URL]

38

帖子

0

威望

585

eV
积分
623

Level 4 (黑子)

跳转到指定楼层 Go to specific reply
楼主
本帖最后由 fsh 于 2025-5-13 03:02 编辑

对纯CPU机器配置有一点了解,对GPU机子配置不了解,属于小白,想请教一些基本的问题(后续GPU机子主要用途:DeepMD、LAMMPS、GPUMD、VASP等):
1. 对于多卡,比如4*4090显卡,放在集群中,是建成一个4卡的节点,还是两个双卡的节点,还是四个单卡的节点好呢
2. 建成塔式服务器和集群节点形式各有什么优缺点,目前已有机房(非正式)的实际情况是需要考虑噪音和散热问题的
3. 一般纯CPU机子选用内存大约为物理核数的三到四倍并插满通道,对于这种4卡4090的GPU机子,内存一般如何选用(内存选取多大为好),CPU应该如何选用(对核数有什么要求),此时的CPU还适合选用社长推荐的9950X这类CPU吗
4.对于其他的一些以双浮点精度为主的显卡,比如4卡V100并行,SXM2版本和PICE版本的价格和性能分别能差多少
ps:社长博客中推荐的单卡4090的机子配置为:AMD Ryzen 9 9950X(16核)+RTX4090D 24GB+2*金士顿FURY 32GB DDR5-5600
以上问题比较基础,希望不吝赐教!

303

帖子

0

威望

455

eV
积分
758

Level 4 (黑子)

2#
发表于 Post on 2025-5-13 09:15:43 | 只看该作者 Only view this author
本帖最后由 tonganlhy 于 2025-5-13 10:40 编辑

1. 卡也要相应的cpu来带动。根据卡哥的测评,做GPU分子动力学带动一个4090至少要7950X 8核。如果你预算够上服务器级的强CPU(要单核频率高的,比如2495X,普通4677或者9005是不行的),那可以单CPU可以支撑四卡,比如2495X+4*4090。不够的话,至少要配7950X带4090*2 两个节点。参考卡哥http://bbs.keinsci.com/thread-35988-1-1.html
2. 塔式服务器主要是配置方便,但需要考虑散热和噪音。集群如果有机房的话,主要是考虑集群如何互连和管理的。参考1中提到的配置帖子集群。
3. 内存按8个核16G一般就够了。充裕一点8个核32G也可以。如果是2*4090的话,CPU7950X就够了,没必要上到9950X。CPU具体选择看第一点。
4. V100的单精度跟3060Ti差不多,是差点意思的。如果你需要双精度浮点,又买不起更新的计算卡,V100也是可以考虑的。PCIE版要贵很多(奸商卖到三四千)。如果自己动手能力强,搞SXM2版双卡不是很难。参考本版http://bbs.keinsci.com/thread-52311-1-1.html。性能上几乎没差别。如果有专门的SXM2主板性能甚至要更高。

29

帖子

3

威望

326

eV
积分
415

Level 3 能力者

3#
发表于 Post on 2025-5-13 09:36:20 | 只看该作者 Only view this author
在构建具有多个 GPU 的系统时,需要牢记的关键是 PCI-e 带宽。消费级锐龙 CPU(例如 9950X)仅具有足够的带宽以 x16 模式运行一个 GPU。如果想在单个系统中获得更多 PCI-e 连接,则需要考虑 AMD Threadripper HEDT/工作站 CPU,它们具有高核心频率并且可以支持更多 GPU。Threadripper Pro 芯片(例如 7965WX(24 核)或 7975WX(32 核))可以毫无问题地以 x16 模式支持 4 个 GPU。

是运行一个系统还是四个独立的 9950X 系统更好,这可能是个人偏好的问题。配置和运行一个系统非常方便,并且 Threadripper 平台非常适合设置为工作站,主板上有很多有用的 I/O(与服务器级系统不同)。另一方面,独立的 9950X 系统更容易散热,而且还必须考虑如何将 4 个 GPU 安装在一个机箱中:大多数 RTX4090 显卡的设计都超过 3 个插槽,将它们中的四个安装在一块主板上可能是一个挑战!在这种情况下,PCI-e 延长线提供了一种解决方案。

对于系统内存,绝对目标是至少 128 GB(如果运行的是独立机器,则每台系统 32 GB)。Threadripper Pro 支持 8 个 DIMM,因此很容易支持大量内存,但它需要昂贵的 DDR5 ECC-REG 内存。

我没有计算过,但我怀疑总体而言,4 个 9950X 配置最终可能比单个 Threadripper Pro 系统便宜一些。

12

帖子

0

威望

303

eV
积分
315

Level 3 能力者

4#
发表于 Post on 2025-5-13 09:48:50 | 只看该作者 Only view this author
我只会用VASP,基于我用GPU跑VASP的经验说一下我个人的理解,希望对你有帮助。
1. 对于4090,建议还是单卡吧,双卡或者多卡会有插槽间距和散热方面的问题,还是按着sob老师的配置推荐配单卡节点比较合适。
2. 集群节点形式利于数据集中管理、资源灵活调配。你说的塔式服务器形式是指每台机器都独立不做成集群吗,优点我不太清楚。
3. GPU跑VASP大部分任务占用运行内存不大,也有极个别任务比如MLFF会吃掉比较多的运行内存,还是建议运行内存配大一些。
4. 跑VASP的话,V100很合适,我用单核性能好点的E5搭配V100也没有明显感觉拖后腿。
PCIE版本的V100性价比很低,而且我试着从两卡并行开始 性能损失就变得非常大了。
SXM2版本的V100的话准系统很贵,不过现在也有合适的底板了(两卡NVLINK)。
问了一家,开票+质保+现场部署集群,4卡PCIE整机2.6w左右,4卡SXM2整机(两卡NVLINK)1.6w左右,供你参考。
yuansuan.top

2407

帖子

1

威望

5945

eV
积分
8372

Level 6 (一方通行)

5#
发表于 Post on 2025-5-13 17:01:24 | 只看该作者 Only view this author
如果程序本身是GPU-only的, 或者说运行起来后, 99%都在GPU本身工作, 而且仅仅是single-GPU模式的,
那么PCIe带宽以及通道是否够用, 可以忽略.

如果要涉及到一个任务, 使用多个GPU设备, 建议采用支持GPU P2P的硬件.
否则效率不太理想.

High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

70

帖子

0

威望

1287

eV
积分
1357

Level 4 (黑子)

6#
发表于 Post on 2025-5-13 17:37:15 | 只看该作者 Only view this author
对于双精度有要求的话,可以考虑TITAN V,比V100便宜,比sxm转pci稳定,就是显存小一点

38

帖子

0

威望

585

eV
积分
623

Level 4 (黑子)

7#
 楼主 Author| 发表于 Post on 2025-5-13 23:07:59 | 只看该作者 Only view this author
多谢各位社友的解答,学到不少

60

帖子

0

威望

347

eV
积分
407

Level 3 能力者

8#
发表于 Post on 2025-5-15 12:00:57 | 只看该作者 Only view this author
推荐单机多卡平台部署,单卡多台网络带宽是瓶颈,

38

帖子

0

威望

585

eV
积分
623

Level 4 (黑子)

9#
 楼主 Author| 发表于 Post on 2025-5-19 21:53:13 | 只看该作者 Only view this author
本帖最后由 fsh 于 2025-5-19 23:28 编辑
gaozx 发表于 2025-5-13 09:48
我只会用VASP,基于我用GPU跑VASP的经验说一下我个人的理解,希望对你有帮助。
1. 对于4090,建议还是单卡 ...

前面提到:“PCIE版本的V100性价比很低,而且我试着从两卡并行开始 性能损失就变得非常大了“,”4卡PCIE整机2.6w左右,4卡SXM2整机(两卡NVLINK)1.6w左右“。有两个问题请教下:
1. SXM2并行性能更好,价格却比PCIE版本便宜很多,这是为何呢?
2. 如果在集群的一个节点中装四卡的V100-SMX2,可以实现NVLINK全局互联么,价格比单纯的四卡V100-PCIE节点贵(贵多少)还是便宜(便宜多少)呢,一般推荐采用哪种方式

3. PCIE版本价格贵,并行性能损失大,那PCIE版本的优点体现在哪呢

303

帖子

0

威望

455

eV
积分
758

Level 4 (黑子)

10#
发表于 Post on 2025-5-20 09:54:17 | 只看该作者 Only view this author
fsh 发表于 2025-5-19 21:53
前面提到:“PCIE版本的V100性价比很低,而且我试着从两卡并行开始 性能损失就变得非常大了“,”4卡PCIE ...

1和3. SXM2卡普通用户需要捣腾,无论找SXM2主板还想办法转接。没有PCIE卡可以直插,部署方便。现在这些都是洋垃圾,所以卖价都是奸商定的。
2. 可以。大型服务器就是这么搞的。如果你会折腾,大概是PCIE版价格的40-60%吧。主要是支持四卡的主板不好找。

12

帖子

0

威望

303

eV
积分
315

Level 3 能力者

11#
发表于 Post on 2025-5-20 22:44:44 | 只看该作者 Only view this author
fsh 发表于 2025-5-19 21:53
前面提到:“PCIE版本的V100性价比很低,而且我试着从两卡并行开始 性能损失就变得非常大了“,”4卡PCIE ...

价格是供需关系决定的
四卡互联目前基本买不到底板
PCIE版本正如这位老哥所说,插主板上就能用(前提是处理好散热)
yuansuan.top

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-12 08:33 , Processed in 0.159174 second(s), 20 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list