计算化学公社

 找回密码 Forget password
 注册 Register
Views: 654|回复 Reply: 14
打印 Print 上一主题 Last thread 下一主题 Next thread

[配置讨论] VASP等双精算力需求下的GPU集群配置

[复制链接 Copy URL]

11

帖子

0

威望

37

eV
积分
48

Level 2 能力者

跳转到指定楼层 Go to specific reply
楼主
本帖最后由 weedy 于 2025-12-6 11:55 编辑

自从入了计算的坑,无时无刻不在为算力焦虑。一想到我导600万的集群都不够使的,就为自己的前途担忧。以前有过一点捡垃圾的经验,就逐渐开始调研服务器的行情。经过一年断断续续的准备,目前正在装机。一点经验分享出来供大家参考。本贴子不会给出具体的推荐,而是分享一下如何选择GPU服务器的配置

1. 需求分析
首先第一件事就是要搞清楚自己的需求是什么,GPU其实偏科很严重。如果需求搞错了就会出现“啊,我两万的卡这么还没有他5000的算的快”这种问题。
当然如果经费充足到H100随便买那当我没说。
这个需求主要包括两个方面:
1. 数据精度:半精度、单精度、双精度、混合精度(这里需要注意英伟达的标注有FP和TF,这两种是不同,我们一般说的双精算力指的是FP64);
2. 卡间通讯。
其他的软件我不清楚,VASP是绝对的双精算力需求,贴个排行

可以发现除了H100一骑绝尘,下面就是A100和V100断崖领先了,这也是他俩被称为专业计算卡的原因。A100由于目前的ai潮,价格还是居高不下(2万左右),V100由于架构落后,现在已经飞入寻常百姓家,咸鱼400一张就能买到SXM版本的V100,有A00 80%的算力。(顺便吐槽一下A100架构也已经落后了,纯粹是没有替代品)。但是对于VASP这种简单粗暴的双精算力,V100是正真的性价比之王。这里顺便说一下泰坦V,他其实和V100用的一样的核心,只是阉割了NVLink(这个后面会讲)。
再贴一个中科大的测试,可以看到ACC版本下V100单卡可以达到百核的算力

而卡间通讯是一个很复杂的需求,一般大模型、机器学习、并行计算可能会用到。英伟达一代代迭代发展了多种显卡间的通讯方式。下面简单介绍以下不同的卡间通讯,可以跳过这一楼
以防有小白,我们简单的讲一下。显卡是通过PCIE连接到电脑上的,而PCIE控制器在CPU内部。也就是说显卡于电脑上其他硬件的通讯都要经过CPU的转发,包括另一张显卡。
英伟达干的第一件事就是跳过CPU转发,让显卡间间通过PCIE就能通讯,这个技术叫GPUDirect P2P,这是通过一个额外的芯片实现的,我们称之为PCIE交换机。

那么此时,卡间通讯速度就受限于PCIE速度(PCIE3X16双向约15.75 GBytes/s,也就是满显存交换需要1s左右),PCIE受限于电气性能,很难提升。英伟达就另开了一条通讯路线-NVLink,通过多条NVLink实现了卡间直连,卡间通讯速度是PCIE的5-10倍左右

但是,随着并行数量的增加,新的问题出现了。卡间通道数变少了,到8卡的时候卡间带宽已经和PCIE接近了。于是英伟达搞了个交换机,如此,任意两卡之间都可以满速NVLink通讯了。这里我们需要补充一下,NVLink是用于卡间通讯,很多人都粗暴的理解为显存叠加。这个是错误的,显卡的显存并不能叠加。NVLink的速度远远低于计算核心访问显存的速度!

那么根据自己的卡间通讯需求,选择不同的方案。比如我主要使用VASP,就选择GPUDirect P2P方案


2. 硬件选择

2.1 CPU
那么在确定了需求以后,我们开始设计装机方案。
首先是CPU的选择,通常一张GPU只会用到一个CPU核,比如VASP。那么我们就要找频率高,核心数少的CPU。不要想找个重核CPU,空闲的核心跑个CPU作业,这只会拉低CPU频率,导致GPU空载窗口边长,得不偿失。而且intel和NVCC 的mpi可能会互相冲突,如果技术一般,请保持GPU独占CPU。
具体的型号我就不推荐了,大家可以自己去看排行榜,如果经费一般X99、志强一二代都可以买到300块以内的产品。如果经费充足,可以考虑霄龙7003平台。
还有一件事,很多人挑CPU都是看频率买,但是决定CPU性能的应该是频率 x IPC,这里贴一个IPC的对比,顺便吐槽一下Intel连挤五代牙膏,活该被AMD干死。
还有一件事,挑CPU别光看CPU价格,也要看主板价格。


2.2 主板
然后就是主板选择,GPU通常是PCIEX16的。简单的说,一张主板能挂多少GPU取决于主板有多少个PCIEX16的插槽。
这里有个大坑,很多主板上都会有阉割槽,PCIEX16的插槽却只有PCIEX8的通道,虽然也能跑,但是会拖显卡后退。这就需要大家自己找一下主板手册。
通常来说AMD平台的通道数是比Intel的多。AMD一个CPU有128个通道,可以提供8个PCIEX16,所以你能看到AMD单路6槽的主板。而Intel一二代CPU只有48个通道,只可以提供3个PCIEX16,所以Intel双路五插槽的主板都凤毛麟角。再吐槽一遍Intel活该。
这里我不得不提一下我前面讲到的PCIE交换机(也叫PCIE拆分卡),通过PCIE交换机,可以将一个PCIEX16插槽拆分成若干个满速的PCIEX16插槽,而且这个拆分卡还可以级联(套娃),理论上可以带无限多个显卡。唯一的问题是比较贵。这里我不得不显摆一下我们自己把这个拆分卡做出来了,大幅降低了成本。

2.3 内存
然后就是内存了,服务器的内存一遍都是带ECC纠错的,不是普通的消费级内存。
这玩意也不能丐,需要多少就配多少,多多益善。而且品牌尽量一致,频率要尽可能高。有些朋友可能有过装机经验,搞过什么内存超频,服务器平台没有超频一说,而且不能超过CPU的标称频率。
如果实在资金紧缺,可以上傲腾邪教。简单来说就是Intel的一个攒劲的技术,但是只能在特殊的主板上和兼容的CPU上,目前二手的大概一块钱1g,性价比拉满。

2.4 电源
再说一下电源,其实电源没啥好说的,大厂的都能用,用料都很扎实。但是要避开咸鱼上的长城巨龙,百分百矿电,我朋友直接一整套被带走了。

有了这四大件,再整个硬盘,上服务器就能跑了。
再说一下这个GPU服务器与CPU服务器的一个区别。对于CPU服务器,这五件套就能构成一个基本的节点了。但是对于GPU服务器,这些都是挂载GPU的机头,华为浪潮很多GPU服务器的机头和GPU都是可以分开的,浪潮还有GPU拓展柜这种东西。
如果想要提高性价比,就可以选在在一个机头上挂载尽可能多的显卡,我们目前是通过PCIE拆分卡在一个节点挂载20张显卡。









11

帖子

0

威望

37

eV
积分
48

Level 2 能力者

2#
 楼主 Author| 发表于 Post on 2025-12-6 01:50:24 | 只看该作者 Only view this author
本帖最后由 weedy 于 2025-12-6 11:45 编辑



补一个中科大的GPU加速VASP测试

VASP在多个GPU平台的计算速度测试.pdf

658.55 KB, 下载次数 Times of downloads: 82

VASP在多个GPU平台的计算速度测试

11

帖子

0

威望

37

eV
积分
48

Level 2 能力者

3#
 楼主 Author| 发表于 Post on 2025-12-6 02:42:55 | 只看该作者 Only view this author
本帖最后由 weedy 于 2025-12-6 11:51 编辑

如果对卡间互联感兴趣,或者想要进一步了解跨节点卡间通讯,可以参考这篇文章:
(99+ 封私信 / 80 条消息) AI 集群基础设施 InfiniBand 详解(万字长文) - 知乎

11

帖子

0

威望

37

eV
积分
48

Level 2 能力者

4#
 楼主 Author| 发表于 Post on 2025-12-6 03:04:39 | 只看该作者 Only view this author
本帖最后由 weedy 于 2025-12-6 11:24 编辑
weedy 发表于 2025-12-6 02:42
而卡间通讯是一个很复杂的需求,一般大模型、机器学习、并行计算可能会用到。英伟达一代代迭代发展了多种显 ...

那么在确定了需求以后,我们开始设计装机方案。
首先是CPU的选择,通常一张GPU只会用到一个CPU核,比如VASP。那么我们就要找频率高,核心数少的CPU。不要想找个重核CPU,空闲的核心跑个CPU作业,这只会拉低CPU频率,导致GPU空载窗口边长,得不偿失。而且intel和NVCC 的mpi可能会互相冲突,如果技术一般,请保持GPU独占CPU。
具体的型号我就不推荐了,大家可以自己去看排行榜,如果经费一般X99、志强一二代都可以买到300块以内的产品。如果经费充足,可以考虑霄龙7003平台。
还有一件事,很多人挑CPU都是看频率买,但是决定CPU性能的应该是频率 x IPC,这里贴一个IPC的对比,顺便吐槽一下Intel连挤五代牙膏,活该被AMD干死。
还有一件事,挑CPU别光看CPU价格,也要看主板价格。


878

帖子

17

威望

5403

eV
积分
6621

Level 6 (一方通行)

小屁孩

5#
发表于 Post on 2025-12-6 03:16:55 | 只看该作者 Only view this author
文章不写成整篇发布,这是在故意刷经验值?
- 向着虚无前进 -

11

帖子

0

威望

37

eV
积分
48

Level 2 能力者

6#
 楼主 Author| 发表于 Post on 2025-12-6 03:26:48 | 只看该作者 Only view this author
本帖最后由 weedy 于 2025-12-6 11:52 编辑
Entropy.S.I 发表于 2025-12-6 03:16
文章不写成整篇发布,这是在故意刷经验值?

都放到同一个帖子里面了

11

帖子

0

威望

37

eV
积分
48

Level 2 能力者

7#
 楼主 Author| 发表于 Post on 2025-12-6 03:27:30 | 只看该作者 Only view this author
本帖最后由 weedy 于 2025-12-6 11:56 编辑

单独讲一下V100的SXM版本
再说一下V100,V100有两个版本:PCIE版和SXM版。其实核心都是一样的,只是接口不一样。SXM版本由于特殊接口+大船靠岸的原因,价格奇低。
SXM版本如图,有两个座子,前面的负责PCIE通讯,后面的负责NVLink通讯。

官方出过一款转接板,但是几乎绝版了,现在咸鱼上的都是民间小作坊自己做的(英伟达设计资料泄露出来了),五花八门的都有。也有大佬开源了设计图。关于这个可以额外说一下,嘉立创可以免费打板子,但是贴片价格很贵,如果没有20个以上的批量,成本依然很高,而且由于市场火热,奸商把底座炒起来了,自己做的话成本大概200左右。由于是小作坊生产,能省则省,咸鱼上的SXM转PCIE的转接板都只有一个底座。
至于nvlink底板,去年年底超微的板子才900,现在已经3000+了,板子的价格够买8张显卡了。咸鱼上也有一些小作坊的nvlink底板,只不过比较贵。我陆陆续续也做了一些板子,从我的经验上看,小作坊的板子是远远比不上大厂的板子的,哪怕是二手货。大厂有专业的电路设计,布线,测试,用料也特别扎实(有些都是10层板,小作坊6层顶天了,这个成本差了3倍左右)。
如果你用不上nvlink,那我建议咸鱼找个小作坊的转接板。这里要注意:1. 绝对不要买廉价座子的转接板,2:选择一个用料厚实的
如果你需要nvlink,我也不建议买8卡的底板,一个是卡间通讯其实和PCIE差不多,另一个是8卡统一供电,有一波带走的风险
再说一下散热,V100有300W峰值功耗,一般风扇是压不住的。尽量避免水冷方案,尤其是放在机房里面的,出了事没有人能承担这个责任。我测试下来15W的暴力风扇完全能压住芯片温度。也不用担心温度压不住把卡烧坏了,SXMV100是服务器产品有多个安全冗余。首先是温度超过82℃核心会降频,然后卡里面自带热点监控,热点超过90℃会自动断电。所以买转接板要买包含使能控制的(你就直接这么问商家,他如果不知道这是啥,那板子上就默认没有)。
最后说一下,V100压根不是给你放在办公室里面使用的,都是要上机房的。四张V100+机头整机功耗在2000W左右,有些同学的办公室插座都不一定带的动这么大的功耗。而机房服务器的散热瓶颈根本不在芯片散热,而在环境散热,空调电费差不多能占40%。

11

帖子

0

威望

37

eV
积分
48

Level 2 能力者

8#
 楼主 Author| 发表于 Post on 2025-12-6 03:36:10 | 只看该作者 Only view this author
本帖最后由 weedy 于 2025-12-6 03:48 编辑
weedy 发表于 2025-12-6 03:27
然后就是主板选择,GPU通常是PCIEX16的。简单的说,一张主板能挂多少GPU取决于主板有多少个PCIEX16的插槽。 ...

然后就是内存了,服务器的内存一遍都是带ECC纠错的,不是普通的消费级内存。
这玩意也不能丐,需要多少就配多少,多多益善。而且品牌尽量一致,频率要尽可能高。有些朋友可能有过装机经验,搞过什么内存超频,服务器平台没有超频一说,而且不能超过CPU的标称频率。
如果实在资金紧缺,可以上傲腾邪教。简单来说就是Intel的一个攒劲的技术,但是只能在特殊的主板上和兼容的CPU上,目前二手的大概一块钱1g,性价比拉满。

11

帖子

0

威望

37

eV
积分
48

Level 2 能力者

9#
 楼主 Author| 发表于 Post on 2025-12-6 03:48:50 | 只看该作者 Only view this author
本帖最后由 weedy 于 2025-12-6 11:28 编辑

有了这三大件,再整个电源硬盘,上服务器就能跑了。
再说一下这个GPU服务器与CPU服务器的一个区别。对于CPU服务器,这五件套就能构成一个基本的节点了。但是对于GPU服务器,这些都是挂载GPU的机头,华为浪潮很多GPU服务器的机头和GPU都是可以分开的,浪潮还有GPU拓展柜这种东西。
如果想要提高性价比,就可以选在在一个机头上挂载尽可能多的显卡,我们目前是通过PCIE拆分卡在一个节点挂载20张显卡。

22

帖子

0

威望

1391

eV
积分
1413

Level 4 (黑子)

10#
发表于 Post on 2025-12-6 08:07:09 | 只看该作者 Only view this author
Entropy.S.I 发表于 2025-12-6 03:16
文章不写成整篇发布,这是在故意刷经验值?

游客,本帖隐藏的内容需要积分高于 500 才可浏览,您当前积分为 0

6万

帖子

99

威望

5万

eV
积分
124668

管理员

公社社长

11#
发表于 Post on 2025-12-6 10:43:55 | 只看该作者 Only view this author
请不要一篇文章一段一段发,会导致读者阅读起来很费劲
如果文章反复需要补充,应每次重新编辑原贴
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办极高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入北京科音微信公众号获取北京科音培训的最新消息,并避免错过网上有价值的计算化学文章!
欢迎加入人气极高、专业性特别强的理论与计算化学综合交流群思想家公社QQ群(群号见此链接),合计达一万多人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大、极为流行的量子化学波函数分析程序)
Google Scholar:https://scholar.google.com/citations?user=tiKE0qkAAAAJ
ResearchGate:https://www.researchgate.net/profile/Tian_Lu

11

帖子

0

威望

37

eV
积分
48

Level 2 能力者

12#
 楼主 Author| 发表于 Post on 2025-12-6 11:16:16 | 只看该作者 Only view this author
本帖最后由 weedy 于 2025-12-6 11:29 编辑
weedy 发表于 2025-12-6 03:48
有了这三大件,再整个电源硬盘,上服务器就能跑了。
再说一下这个GPU服务器与CPU服务器的一个区别。对于CP ...

再说一下V100,V100有两个版本:PCIE版和SXM版。其实核心都是一样的,只是接口不一样。SXM版本由于特殊接口+大船靠岸的原因,价格奇低。
SXM版本如图,有两个座子,前面的负责PCIE通讯,后面的负责NVLink通讯。

官方出过一款转接板,但是几乎绝版了,现在咸鱼上的都是民间小作坊自己做的(英伟达设计资料泄露出来了),五花八门的都有。也有大佬开源了设计图。关于这个可以额外说一下,嘉立创可以免费打板子,但是贴片价格很贵,如果没有20个以上的批量,成本依然很高,而且由于市场火热,奸商把底座炒起来了,自己做的话成本大概200左右。由于是小作坊生产,能省则省,咸鱼上的SXM转PCIE的转接板都只有一个底座。
至于nvlink底板,去年年底超微的板子才900,现在已经3000+了,板子的价格够买8张显卡了。咸鱼上也有一些小作坊的nvlink底板,只不过比较贵。我陆陆续续也做了一些板子,从我的经验上看,小作坊的板子是远远比不上大厂的板子的,哪怕是二手货。大厂有专业的电路设计,布线,测试,用料也特别扎实(有些都是10层板,小作坊6层顶天了,这个成本差了3倍左右)。
如果你用不上nvlink,那我建议咸鱼找个小作坊的转接板。这里要注意:1. 绝对不要买廉价座子的转接板,2:选择一个用料厚实的
如果你需要nvlink,我也不建议买8卡的底板,一个是卡间通讯其实和PCIE差不多,另一个是8卡统一供电,有一波带走的风险
再说一下散热,V100有300W峰值功耗,一般风扇是压不住的。尽量避免水冷方案,尤其是放在机房里面的,出了事没有人能承担这个责任。我测试下来15W的暴力风扇完全能压住芯片温度。也不用担心温度压不住把卡烧坏了,SXMV100是服务器产品有多个安全冗余。首先是温度超过82℃核心会降频,然后卡里面自带热点监控,热点超过90℃会自动断电。所以买转接板要买包含使能控制的(你就直接这么问商家,他如果不知道这是啥,那板子上就默认没有)。
最后说一下,V100压根不是给你放在办公室里面使用的,都是要上机房的。四张V100+机头整机功耗在2000W左右,有些同学的办公室插座都不一定带的动这么大的功耗。而机房服务器的散热瓶颈根本不在芯片散热,而在环境散热,空调电费差不多能占40%。

11

帖子

0

威望

37

eV
积分
48

Level 2 能力者

13#
 楼主 Author| 发表于 Post on 2025-12-6 11:21:45 | 只看该作者 Only view this author
本帖最后由 weedy 于 2025-12-6 11:28 编辑

再说一下电源,其实电源没啥好说的,大厂的都能用,用料都很扎实。但是要避开咸鱼上的长城巨龙,百分百矿电,我朋友直接一整套被带走了。

11

帖子

0

威望

37

eV
积分
48

Level 2 能力者

14#
 楼主 Author| 发表于 Post on 2025-12-6 11:23:24 | 只看该作者 Only view this author
sobereva 发表于 2025-12-6 10:43
请不要一篇文章一段一段发,会导致读者阅读起来很费劲
如果文章反复需要补充,应每次重新编辑原贴

已经发的怎么删除呀

6万

帖子

99

威望

5万

eV
积分
124668

管理员

公社社长

15#
发表于 Post on 2025-12-6 11:40:28 | 只看该作者 Only view this author
weedy 发表于 2025-12-6 11:23
已经发的怎么删除呀

自己没法删。看置顶的社员必读贴
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办极高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入北京科音微信公众号获取北京科音培训的最新消息,并避免错过网上有价值的计算化学文章!
欢迎加入人气极高、专业性特别强的理论与计算化学综合交流群思想家公社QQ群(群号见此链接),合计达一万多人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大、极为流行的量子化学波函数分析程序)
Google Scholar:https://scholar.google.com/citations?user=tiKE0qkAAAAJ
ResearchGate:https://www.researchgate.net/profile/Tian_Lu

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2026-1-23 20:24 , Processed in 0.646596 second(s), 23 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list