VASP等双精算力需求下的GPU集群配置

weedy · 发表于 Post on 2025-12-6 01:16:33

本帖最后由 weedy 于 2025-12-6 11:55 编辑

自从入了计算的坑，无时无刻不在为算力焦虑。一想到我导600万的集群都不够使的，就为自己的前途担忧。以前有过一点捡垃圾的经验，就逐渐开始调研服务器的行情。经过一年断断续续的准备，目前正在装机。一点经验分享出来供大家参考。本贴子不会给出具体的推荐，而是分享一下如何选择GPU服务器的配置

1. 需求分析
首先第一件事就是要搞清楚自己的需求是什么，GPU其实偏科很严重。如果需求搞错了就会出现“啊，我两万的卡这么还没有他5000的算的快”这种问题。
当然如果经费充足到H100随便买那当我没说。
这个需求主要包括两个方面：
1. 数据精度：半精度、单精度、双精度、混合精度（这里需要注意英伟达的标注有FP和TF，这两种是不同，我们一般说的双精算力指的是FP64）；
2. 卡间通讯。
其他的软件我不清楚，VASP是绝对的双精算力需求，贴个排行

可以发现除了H100一骑绝尘，下面就是A100和V100断崖领先了，这也是他俩被称为专业计算卡的原因。A100由于目前的ai潮，价格还是居高不下（2万左右），V100由于架构落后，现在已经飞入寻常百姓家，咸鱼400一张就能买到SXM版本的V100，有A00 80%的算力。（顺便吐槽一下A100架构也已经落后了，纯粹是没有替代品）。但是对于VASP这种简单粗暴的双精算力，V100是正真的性价比之王。这里顺便说一下泰坦V，他其实和V100用的一样的核心，只是阉割了NVLink（这个后面会讲）。
再贴一个中科大的测试，可以看到ACC版本下V100单卡可以达到百核的算力

而卡间通讯是一个很复杂的需求，一般大模型、机器学习、并行计算可能会用到。英伟达一代代迭代发展了多种显卡间的通讯方式。下面简单介绍以下不同的卡间通讯，可以跳过这一楼
以防有小白，我们简单的讲一下。显卡是通过PCIE连接到电脑上的，而PCIE控制器在CPU内部。也就是说显卡于电脑上其他硬件的通讯都要经过CPU的转发，包括另一张显卡。
英伟达干的第一件事就是跳过CPU转发，让显卡间间通过PCIE就能通讯，这个技术叫GPUDirect P2P，这是通过一个额外的芯片实现的，我们称之为PCIE交换机。

那么此时，卡间通讯速度就受限于PCIE速度（PCIE3X16双向约15.75 GBytes/s，也就是满显存交换需要1s左右），PCIE受限于电气性能，很难提升。英伟达就另开了一条通讯路线-NVLink，通过多条NVLink实现了卡间直连，卡间通讯速度是PCIE的5-10倍左右

但是，随着并行数量的增加，新的问题出现了。卡间通道数变少了，到8卡的时候卡间带宽已经和PCIE接近了。于是英伟达搞了个交换机，如此，任意两卡之间都可以满速NVLink通讯了。这里我们需要补充一下，NVLink是用于卡间通讯，很多人都粗暴的理解为显存叠加。这个是错误的，显卡的显存并不能叠加。NVLink的速度远远低于计算核心访问显存的速度！

那么根据自己的卡间通讯需求，选择不同的方案。比如我主要使用VASP，就选择GPUDirect P2P方案

2. 硬件选择

2.1 CPU
那么在确定了需求以后，我们开始设计装机方案。
首先是CPU的选择，通常一张GPU只会用到一个CPU核，比如VASP。那么我们就要找频率高，核心数少的CPU。不要想找个重核CPU，空闲的核心跑个CPU作业，这只会拉低CPU频率，导致GPU空载窗口边长，得不偿失。而且intel和NVCC 的mpi可能会互相冲突，如果技术一般，请保持GPU独占CPU。
具体的型号我就不推荐了，大家可以自己去看排行榜，如果经费一般X99、志强一二代都可以买到300块以内的产品。如果经费充足，可以考虑霄龙7003平台。
还有一件事，很多人挑CPU都是看频率买，但是决定CPU性能的应该是频率 x IPC，这里贴一个IPC的对比，顺便吐槽一下Intel连挤五代牙膏，活该被AMD干死。
还有一件事，挑CPU别光看CPU价格，也要看主板价格。

2.2 主板
然后就是主板选择，GPU通常是PCIEX16的。简单的说，一张主板能挂多少GPU取决于主板有多少个PCIEX16的插槽。
这里有个大坑，很多主板上都会有阉割槽，PCIEX16的插槽却只有PCIEX8的通道，虽然也能跑，但是会拖显卡后退。这就需要大家自己找一下主板手册。
通常来说AMD平台的通道数是比Intel的多。AMD一个CPU有128个通道，可以提供8个PCIEX16，所以你能看到AMD单路6槽的主板。而Intel一二代CPU只有48个通道，只可以提供3个PCIEX16，所以Intel双路五插槽的主板都凤毛麟角。再吐槽一遍Intel活该。
这里我不得不提一下我前面讲到的PCIE交换机（也叫PCIE拆分卡），通过PCIE交换机，可以将一个PCIEX16插槽拆分成若干个满速的PCIEX16插槽，而且这个拆分卡还可以级联（套娃），理论上可以带无限多个显卡。唯一的问题是比较贵。

这里我不得不显摆一下我们自己把这个拆分卡做出来了，大幅降低了成本。

2.3 内存
然后就是内存了，服务器的内存一遍都是带ECC纠错的，不是普通的消费级内存。
这玩意也不能丐，需要多少就配多少，多多益善。而且品牌尽量一致，频率要尽可能高。有些朋友可能有过装机经验，搞过什么内存超频，服务器平台没有超频一说，而且不能超过CPU的标称频率。
如果实在资金紧缺，可以上傲腾邪教。简单来说就是Intel的一个攒劲的技术，但是只能在特殊的主板上和兼容的CPU上，目前二手的大概一块钱1g，性价比拉满。

2.4 电源
再说一下电源，其实电源没啥好说的，大厂的都能用，用料都很扎实。但是要避开咸鱼上的长城巨龙，百分百矿电，我朋友直接一整套被带走了。

有了这四大件，再整个硬盘，上服务器就能跑了。
再说一下这个GPU服务器与CPU服务器的一个区别。对于CPU服务器，这五件套就能构成一个基本的节点了。但是对于GPU服务器，这些都是挂载GPU的机头，华为浪潮很多GPU服务器的机头和GPU都是可以分开的，浪潮还有GPU拓展柜这种东西。
如果想要提高性价比，就可以选在在一个机头上挂载尽可能多的显卡，我们目前是通过PCIE拆分卡在一个节点挂载20张显卡。

weedy · 发表于 Post on 2025-12-6 01:50:24

本帖最后由 weedy 于 2025-12-6 11:45 编辑

补一个中科大的GPU加速VASP测试

weedy · 发表于 Post on 2025-12-6 02:42:55

本帖最后由 weedy 于 2025-12-6 11:51 编辑

如果对卡间互联感兴趣，或者想要进一步了解跨节点卡间通讯，可以参考这篇文章：
(99+ 封私信 / 80 条消息) AI 集群基础设施 InfiniBand 详解（万字长文） - 知乎

weedy · 发表于 Post on 2025-12-6 03:04:39

本帖最后由 weedy 于 2025-12-6 11:24 编辑

weedy 发表于 2025-12-6 02:42
而卡间通讯是一个很复杂的需求，一般大模型、机器学习、并行计算可能会用到。英伟达一代代迭代发展了多种显 ...

那么在确定了需求以后，我们开始设计装机方案。
首先是CPU的选择，通常一张GPU只会用到一个CPU核，比如VASP。那么我们就要找频率高，核心数少的CPU。不要想找个重核CPU，空闲的核心跑个CPU作业，这只会拉低CPU频率，导致GPU空载窗口边长，得不偿失。而且intel和NVCC 的mpi可能会互相冲突，如果技术一般，请保持GPU独占CPU。
具体的型号我就不推荐了，大家可以自己去看排行榜，如果经费一般X99、志强一二代都可以买到300块以内的产品。如果经费充足，可以考虑霄龙7003平台。
还有一件事，很多人挑CPU都是看频率买，但是决定CPU性能的应该是频率 x IPC，这里贴一个IPC的对比，顺便吐槽一下Intel连挤五代牙膏，活该被AMD干死。
还有一件事，挑CPU别光看CPU价格，也要看主板价格。

Entropy.S.I · 发表于 Post on 2025-12-6 03:16:55

文章不写成整篇发布，这是在故意刷经验值？

weedy · 发表于 Post on 2025-12-6 03:26:48

本帖最后由 weedy 于 2025-12-6 11:52 编辑

Entropy.S.I 发表于 2025-12-6 03:16
文章不写成整篇发布，这是在故意刷经验值？

都放到同一个帖子里面了

weedy · 发表于 Post on 2025-12-6 03:27:30

本帖最后由 weedy 于 2025-12-6 11:56 编辑

单独讲一下V100的SXM版本
再说一下V100，V100有两个版本：PCIE版和SXM版。其实核心都是一样的，只是接口不一样。SXM版本由于特殊接口+大船靠岸的原因，价格奇低。
SXM版本如图，有两个座子，前面的负责PCIE通讯，后面的负责NVLink通讯。

官方出过一款转接板，但是几乎绝版了，现在咸鱼上的都是民间小作坊自己做的（英伟达设计资料泄露出来了），五花八门的都有。也有大佬开源了设计图。关于这个可以额外说一下，嘉立创可以免费打板子，但是贴片价格很贵，如果没有20个以上的批量，成本依然很高，而且由于市场火热，奸商把底座炒起来了，自己做的话成本大概200左右。由于是小作坊生产，能省则省，咸鱼上的SXM转PCIE的转接板都只有一个底座。
至于nvlink底板，去年年底超微的板子才900，现在已经3000+了，板子的价格够买8张显卡了。咸鱼上也有一些小作坊的nvlink底板，只不过比较贵。我陆陆续续也做了一些板子，从我的经验上看，小作坊的板子是远远比不上大厂的板子的，哪怕是二手货。大厂有专业的电路设计，布线，测试，用料也特别扎实（有些都是10层板，小作坊6层顶天了，这个成本差了3倍左右）。
如果你用不上nvlink，那我建议咸鱼找个小作坊的转接板。这里要注意：1. 绝对不要买廉价座子的转接板，2：选择一个用料厚实的
如果你需要nvlink，我也不建议买8卡的底板，一个是卡间通讯其实和PCIE差不多，另一个是8卡统一供电，有一波带走的风险
再说一下散热，V100有300W峰值功耗，一般风扇是压不住的。尽量避免水冷方案，尤其是放在机房里面的，出了事没有人能承担这个责任。我测试下来15W的暴力风扇完全能压住芯片温度。也不用担心温度压不住把卡烧坏了，SXMV100是服务器产品有多个安全冗余。首先是温度超过82℃核心会降频，然后卡里面自带热点监控，热点超过90℃会自动断电。所以买转接板要买包含使能控制的（你就直接这么问商家，他如果不知道这是啥，那板子上就默认没有）。
最后说一下，V100压根不是给你放在办公室里面使用的，都是要上机房的。四张V100+机头整机功耗在2000W左右，有些同学的办公室插座都不一定带的动这么大的功耗。而机房服务器的散热瓶颈根本不在芯片散热，而在环境散热，空调电费差不多能占40%。

weedy · 发表于 Post on 2025-12-6 03:36:10

本帖最后由 weedy 于 2025-12-6 03:48 编辑

weedy 发表于 2025-12-6 03:27
然后就是主板选择，GPU通常是PCIEX16的。简单的说，一张主板能挂多少GPU取决于主板有多少个PCIEX16的插槽。 ...

然后就是内存了，服务器的内存一遍都是带ECC纠错的，不是普通的消费级内存。
这玩意也不能丐，需要多少就配多少，多多益善。而且品牌尽量一致，频率要尽可能高。有些朋友可能有过装机经验，搞过什么内存超频，服务器平台没有超频一说，而且不能超过CPU的标称频率。
如果实在资金紧缺，可以上傲腾邪教。简单来说就是Intel的一个攒劲的技术，但是只能在特殊的主板上和兼容的CPU上，目前二手的大概一块钱1g，性价比拉满。

weedy · 发表于 Post on 2025-12-6 03:48:50

本帖最后由 weedy 于 2025-12-6 11:28 编辑

有了这三大件，再整个电源硬盘，上服务器就能跑了。
再说一下这个GPU服务器与CPU服务器的一个区别。对于CPU服务器，这五件套就能构成一个基本的节点了。但是对于GPU服务器，这些都是挂载GPU的机头，华为浪潮很多GPU服务器的机头和GPU都是可以分开的，浪潮还有GPU拓展柜这种东西。
如果想要提高性价比，就可以选在在一个机头上挂载尽可能多的显卡，我们目前是通过PCIE拆分卡在一个节点挂载20张显卡。

chever · 发表于 Post on 2025-12-6 08:07:09

Entropy.S.I 发表于 2025-12-6 03:16
文章不写成整篇发布，这是在故意刷经验值？

游客，本帖隐藏的内容需要积分高于 500 才可浏览，您当前积分为 0

sobereva · 发表于 Post on 2025-12-6 10:43:55

请不要一篇文章一段一段发，会导致读者阅读起来很费劲
如果文章反复需要补充，应每次重新编辑原贴

weedy · 发表于 Post on 2025-12-6 11:16:16

本帖最后由 weedy 于 2025-12-6 11:29 编辑

weedy 发表于 2025-12-6 03:48
有了这三大件，再整个电源硬盘，上服务器就能跑了。
再说一下这个GPU服务器与CPU服务器的一个区别。对于CP ...

再说一下V100，V100有两个版本：PCIE版和SXM版。其实核心都是一样的，只是接口不一样。SXM版本由于特殊接口+大船靠岸的原因，价格奇低。
SXM版本如图，有两个座子，前面的负责PCIE通讯，后面的负责NVLink通讯。

官方出过一款转接板，但是几乎绝版了，现在咸鱼上的都是民间小作坊自己做的（英伟达设计资料泄露出来了），五花八门的都有。也有大佬开源了设计图。关于这个可以额外说一下，嘉立创可以免费打板子，但是贴片价格很贵，如果没有20个以上的批量，成本依然很高，而且由于市场火热，奸商把底座炒起来了，自己做的话成本大概200左右。由于是小作坊生产，能省则省，咸鱼上的SXM转PCIE的转接板都只有一个底座。
至于nvlink底板，去年年底超微的板子才900，现在已经3000+了，板子的价格够买8张显卡了。咸鱼上也有一些小作坊的nvlink底板，只不过比较贵。我陆陆续续也做了一些板子，从我的经验上看，小作坊的板子是远远比不上大厂的板子的，哪怕是二手货。大厂有专业的电路设计，布线，测试，用料也特别扎实（有些都是10层板，小作坊6层顶天了，这个成本差了3倍左右）。
如果你用不上nvlink，那我建议咸鱼找个小作坊的转接板。这里要注意：1. 绝对不要买廉价座子的转接板，2：选择一个用料厚实的
如果你需要nvlink，我也不建议买8卡的底板，一个是卡间通讯其实和PCIE差不多，另一个是8卡统一供电，有一波带走的风险
再说一下散热，V100有300W峰值功耗，一般风扇是压不住的。尽量避免水冷方案，尤其是放在机房里面的，出了事没有人能承担这个责任。我测试下来15W的暴力风扇完全能压住芯片温度。也不用担心温度压不住把卡烧坏了，SXMV100是服务器产品有多个安全冗余。首先是温度超过82℃核心会降频，然后卡里面自带热点监控，热点超过90℃会自动断电。所以买转接板要买包含使能控制的（你就直接这么问商家，他如果不知道这是啥，那板子上就默认没有）。
最后说一下，V100压根不是给你放在办公室里面使用的，都是要上机房的。四张V100+机头整机功耗在2000W左右，有些同学的办公室插座都不一定带的动这么大的功耗。而机房服务器的散热瓶颈根本不在芯片散热，而在环境散热，空调电费差不多能占40%。

weedy · 发表于 Post on 2025-12-6 11:21:45

本帖最后由 weedy 于 2025-12-6 11:28 编辑

再说一下电源，其实电源没啥好说的，大厂的都能用，用料都很扎实。但是要避开咸鱼上的长城巨龙，百分百矿电，我朋友直接一整套被带走了。

weedy · 发表于 Post on 2025-12-6 11:23:24

sobereva 发表于 2025-12-6 10:43
请不要一篇文章一段一段发，会导致读者阅读起来很费劲
如果文章反复需要补充，应每次重新编辑原贴

已经发的怎么删除呀

sobereva · 发表于 Post on 2025-12-6 11:40:28

weedy 发表于 2025-12-6 11:23
已经发的怎么删除呀

自己没法删。看置顶的社员必读贴

		自动登录 Automatic login	找回密码 Forget password
密码 Password			注册 Register

[配置讨论] VASP等双精算力需求下的GPU集群配置

评分 Rate