计算化学公社

标题: 超算集群配置求指点 [打印本页]

作者
Author: Weldingspock 时间: 2023-7-10 18:29
标题: 超算集群配置求指点
各位老师好，最近实验室在采购超算集群，现在有两个供货商给了配置，如图所示，大家觉得哪个更好一些？（AMD芯片的这一家不知道为啥要插24条内存……这个芯片只支持八通道）主要用途，第一性原理计算（VASP,CP2K），分子动力学(lammps)，之后也想再买些显卡插在节点上做机器学习相关。配置一计算节点，管理节点交换机配置如下：
(, 下载次数 Times of downloads: 87) (, 下载次数 Times of downloads: 91) (, 下载次数 Times of downloads: 89)
配置二计算节点和管理节点，交换机如下：
(, 下载次数 Times of downloads: 96) (, 下载次数 Times of downloads: 90) (, 下载次数 Times of downloads: 93)
求指点，二选一

作者
Author: Entropy.S.I 时间: 2023-7-10 22:25
预算也不说，单价也不说，数量也不说，网友住在你脑子里吗？

并且给的都是些瞎配的配置，一眼外行。精力有限，懒得吐槽了。

尊重、祝福。

作者
Author: Weldingspock 时间: 2023-7-11 09:40

Entropy.S.I 发表于 2023-7-10 22:25
预算也不说，单价也不说，数量也不说，网友住在你脑子里吗？

并且给的都是些瞎配的配置，一眼外行。精力 ...

老师好哈，预算是200w。配置一计算节点单价85000，管理节点单价49000。配置二计算节点90580，管理节点65500.此外还有电线电缆的费用，交换机，安装费等等。之前没说是因为现在在境外，这个采购我们完全没法自主决定。只能拟大概的需求（不允许写具体的型号）然后等厂商提供报价单。现在回来的只有这两个供应商，老板让我们二选一（我也很无奈）。希望老师能指点一下，真的非常感谢。之前拟这个需求的时候就已经头疼坏了

作者
Author: Weldingspock 时间: 2023-7-11 09:41

Entropy.S.I 发表于 2023-7-10 22:25
预算也不说，单价也不说，数量也不说，网友住在你脑子里吗？

并且给的都是些瞎配的配置，一眼外行。精力 ...

两个配置算下来，总体差了两万。虽然这个配置很多不合理的地方，但是想问一下哪个多少更合理一些。

小白一窍不通，还天天被老师逼着拟需求

作者
Author: Weldingspock 时间: 2023-7-11 09:53

Entropy.S.I 发表于 2023-7-10 22:25
预算也不说，单价也不说，数量也不说，网友住在你脑子里吗？

并且给的都是些瞎配的配置，一眼外行。精力 ...

计算节点是16个，打算组的是16*64=1024核

作者
Author: abin 时间: 2023-7-11 10:04
或者你看看我推荐的集群硬件架构?

https://hpc4you.github.io

或者中文资料在这里:
https://gitee.com/hpc4you/hpc

当然也可以提供开箱即用的集群.

VASP/CP2K + 200Gbps IB网络,
看样子是要跑多节点并行计算了?
那么磁盘I/O配置是有问题的.

报一下预算, 使用场景, 预计采购的机器总数量.
这样才可以合理规划你的集群配置.

比如, 如果机器规模在50台以上, 那么你可能需要单独的I/O机器, 并使用专业的并行文件系统做I/O.
等等, 有好多层面的.

作者
Author: abin 时间: 2023-7-11 10:07
另, 有做计算的朋友说,
这个处理器, Intel(R) Xeon(R) Platinum 8336C CPU @ 2.30GHz
用来跑CP2K和VASP很棒的, 恰好我刚刚给他们调试了集群.

16个计算节点, 其实使用100Gbps IB就可以了.

系统选择有一定要求吧, 否则你的IB设备和VASP不能很好一起高效工作的.

作者
Author: Weldingspock 时间: 2023-7-11 10:29

abin 发表于 2023-7-11 10:04
或者你看看我推荐的集群硬件架构?

https://hpc4you.github.io

这个磁盘的i/O配置问题具体是什么呢

作者
Author: abin 时间: 2023-7-11 10:38

Weldingspock 发表于 2023-7-11 10:29
这个磁盘的i/O配置问题具体是什么呢

磁盘I/O,
就是依赖存储设备的写入操作和读取操作呀.

普通设备, 顺序读写都不错的.

但是如果是并行计算, 比如64个MPI-Rank, 可能出现64个写盘操作, 这个时候, 就不是顺序读写了,
是并发读写, 如果磁盘I/O性能不足, 会严重拖慢计算速度的.

当然了, VASP不怎么写硬盘的.

既然使用100Gbps IB了,
而且规模不是很大的话, 采用阵列卡, 把8个NVMe固态搞起来, 做磁盘I/O就可以了.
用来应付任何可能写硬盘或者需要磁盘读写的应用程序.

可以撤掉每台机器上的固态硬盘.
每台机器只用一个SATA接口固态硬盘, 120GB 或者240GB做系统就可以了.

作者
Author: Weldingspock 时间: 2023-7-11 10:44

abin 发表于 2023-7-11 10:38
磁盘I/O,
就是依赖存储设备的写入操作和读取操作呀.

非常感谢你的回答

作者
Author: Entropy.S.I 时间: 2023-7-11 13:57
本帖最后由 Entropy.S.I 于 2023-8-2 08:15 编辑

默认你买在境内，价格是CNY。商用整机方案，完全没必要用这些老掉牙的平台，EPYC Genoa去年底就大规模出货了，性价比远高于你给的这几个配置。计算节点2*96核双路EPYC 9654配24*64GB RAM，单节点只需~15万CNY，单节点性能是你所列出配置的3倍以上。

此外，Lammps应当使用GPU加速，但完全不推荐A100和H100系列，即使跑双精度，性价比也不如4090。

至于渠道，上面说的配置和价格，你能想到的采购渠道全部都支持，包含建设。如果你愿意，今天之内就能给你拉来一帮OEM厂家立马给你报价单。

作者
Author: Entropy.S.I 时间: 2023-8-2 08:14
本帖最后由 Entropy.S.I 于 2023-8-2 19:38 编辑

刚好最近在设计一套规模较大的HPC，想起这个帖子，回来看了眼，又被雷到了。

200万，如果没有液冷之类的特殊要求，可以组建10台双路9654 + 1.5TB（1920核心+15TB），200G IB网络，150TB全NVMe存储兼登录节点，20kVA UPS。这性能起码是你给出这几个配置的2倍以上了，并且能在1个机柜里解决问题，密度远高于你贴的那些玩意，还能省下几万光缆钱（机柜内可用几百一条的DAC铜缆，机柜间只能用AOC光缆或光模块+光纤，一条大几千元）。

作者
Author: Weldingspock 时间: 2023-8-2 11:31

Entropy.S.I 发表于 2023-8-2 08:14
刚好最近在设计一套规模较大的HPC，想起这个帖子，回来看了眼，又被雷到了。

200万，如果没有液冷之类的 ...

确实太离谱，我们应该会把两个供货商都换了，香港这边太奸了。不知道你这边有没有做香港学校的业务？我们最近可能会重新投标

作者
Author: Entropy.S.I 时间: 2023-8-7 01:34

Weldingspock 发表于 2023-8-2 11:31
确实太离谱，我们应该会把两个供货商都换了，香港这边太奸了。不知道你这边有没有做香港学校的业务？我们 ...

你确定要的话当然可以，配置我都写在前面的回复里了。说不定还能进一步砍价/加量

作者
Author: beowulf 时间: 2023-8-7 15:51

Weldingspock 发表于 2023-7-11 09:40
老师好哈，预算是200w。配置一计算节点单价85000，管理节点单价49000。配置二计算节点90580，管理节点655 ...

200万人刀还是港刀？

你这个用途没必要9654+1.5T内存+大量存储

适当压低单节点性能
争取压榨供应商陪32节点。

作者
Author: Entropy.S.I 时间: 2023-8-7 16:31
本帖最后由 Entropy.S.I 于 2023-8-7 20:13 编辑

beowulf 发表于 2023-8-7 15:51
200万人刀还是港刀？

你这个用途没必要9654+1.5T内存+大量存储

你应该没有见识过9654的真实水平

图里那两个配置，性能连双路9654三分之一都没有。不要说核心多有边际效应，边际效应在24通道DDR5内存，921GB/s带宽下都不需要考虑

作者
Author: wypkdhd 时间: 2023-8-7 21:00
本帖最后由 wypkdhd 于 2023-8-7 21:02 编辑

Entropy.S.I 发表于 2023-8-7 16:31
你应该没有见识过9654的真实水平

图里那两个配置，性能连双路9654三分之一都没有。不要说核心多有边际 ...

熵神，7543达不到9654的三分之一这事您这边有没有vasp相关测试数据？因为我如果顺利了，年底毕业后启动经费就那么几万块，我还琢么是自己攒9654先混起来，还是咸鱼搞几台便宜的上古白金系列。（忽略电费的情况下）

作者
Author: abin 时间: 2023-8-8 11:34
AMD 核心数量多好几倍，跑那些内存占用小的，L3 就能装满的 benchmark，速度确实起飞。
跑分好看自然可以忽悠学校和研究所换平台。

对于跑科学计算, 比如vasp, cp2k这种, 普通的计算任务, 必定需要用到内存而非处理器自己的cache.
这个时候, 内存通道数量, 以及核心和内存之间数据交换的延时, 才是决定计算效率的关键所在.

如果资料没有写错的话,
9654, 96个核心, 分为12块, 每一个区域8个核心; 通过BISO似乎可以调配, NUMA的配置.

一般而言, 一个NUMA内的数, 数据交换耗时短; 跨NUMA交换数据, 耗时长.

那么配置不当, 一颗9654, 也许就是12个NUMA.

常见的8336C, 比如, 32个物理核心, 属于一个NUMA.

同时DDR5自身的latency稍微高一丢丢.

不过这都不是重点. 9654增加了AVX512指令集支持, 如果核心多主频高带来的优势,
能规避多NUMA劣势, 还是值得考虑入手的.

当前, AOCC 4.0支持还有待完善, 对于源码编译有执念的同学, 需要谨慎评估.

作者
Author: beowulf 时间: 2023-8-8 19:09

Entropy.S.I 发表于 2023-8-7 16:31
你应该没有见识过9654的真实水平

图里那两个配置，性能连双路9654三分之一都没有。不要说核心多有边际 ...

vasp主流标准是每核心陪2到4GB内存，多了都是浪费。

不是用不到，是系统大了算不动。
vasp算法复杂度是N^3。

有200万也好，有2000万也好，跑密度泛函的机器，每个节点压缩到五六万预算，多配节点一般是更合适的
选择，当然暴发户随意。

作者
Author: beowulf 时间: 2023-8-8 19:22

abin 发表于 2023-8-8 11:34
AMD 核心数量多好几倍，跑那些内存占用小的，L3 就能装满的 benchmark，速度确实起飞。
跑分好看自然可以 ...

9654是12个ccd，2个ccd应该对应一个numa。不过稍微上心点的用户，
都会把任务和核心钉扎在一起。典型的量化软件，一大堆mpi processes都是钉在核心上的。
bios里调配的是内存分配的方式，双路9654一般来说分12个numa更好。
否则的话单个的process要读写的内存分布在远离的内存区域，想想都累。

作者
Author: Entropy.S.I 时间: 2023-8-8 20:27

wypkdhd 发表于 2023-8-7 21:00
熵神，7543达不到9654的三分之一这事您这边有没有vasp相关测试数据？因为我如果顺利了，年底毕业后启动经 ...

我不用VASP，所以没测过。

Gaussian，大体系，双路9654是双路8375C的~2.9倍，双路7R32的~2.2倍，你可以参考一下。

目前基于准系统的整机，双路9654 + 1.5TB是~15万，768GB是~13.5万，个人估计到年底后者还会降两三万

作者
Author: Entropy.S.I 时间: 2023-8-8 20:35

beowulf 发表于 2023-8-8 19:09
vasp主流标准是每核心陪2到4GB内存，多了都是浪费。

不是用不到，是系统大了算不动。

降到768GB单节点可以减1.5万，算上CX6 200G IB卡，一台大概是14万。IB交换机，线缆，存储乃至UPS都要算进去。把厂家压榨到爆，再把存储砍成6*18TB的HDD阵列，200万能配13个节点。

你前面说了，压榨厂家之后也只能“争取配32节点”的双路Xeon 6338 / EPYC 7543，仔细算算，哪个性价比高？

作者
Author: abin 时间: 2023-8-9 12:23
9654有了AVX512指令集支持后
相对于英特尔平台，有可观的加速。

不过加速的前提是，多人围殴。

同样的核心数，优势并不明显。

另一个方面是，在同样的空间内，容纳了更多得核心，
对于空间和能耗，有积极的一面。

当然，在一个主板上，实现更多得核心和内存，
具有更好的应用冗余。

能在一个主板上解决，就不用费劲通过网络多机器并行了。

作者
Author: gauss98 时间: 2023-8-15 10:35

Entropy.S.I 发表于 2023-8-8 20:27
我不用VASP，所以没测过。

Gaussian，大体系，双路9654是双路8375C的~2.9倍，双路7R32的~2.2倍，你可 ...

某宝 9654*2+ 768G ddr5，+ 2u准系统

税前可到9万以下，含税10万以下了

作者
Author: beowulf 时间: 2023-8-15 13:43

Entropy.S.I 发表于 2023-8-8 20:35
降到768GB单节点可以减1.5万，算上CX6 200G IB卡，一台大概是14万。IB交换机，线缆，存储乃至UPS都要算进 ...

对于vasp为主的用户，intel系统性价比要远好于amd系统。
单节点来看6330/6430性价比最高，配到38都是浪费。

不用压死厂商，很容易可以上32点。

7543性能不行，9654这种系统跑其他的量化软件或者分子动力学更合适一些。
200G ib也是好看没有意义的东西，100G足以。
另外对于这种集群来说，ups配到文件系统上就好，整机不需要。

作者
Author: beowulf 时间: 2023-8-15 13:45

gauss98 发表于 2023-8-15 10:35
某宝 9654*2+ 768G ddr5，+ 2u准系统

税前可到9万以下，含税10万以下了

还是有点困难，再等几个月可能更好配一点。

大多数学校10万以下和10万以上繁琐程度是不一样的。

作者
Author: Entropy.S.I 时间: 2023-8-16 15:05

gauss98 发表于 2023-8-15 10:35
某宝 9654*2+ 768G ddr5，+ 2u准系统

税前可到9万以下，含税10万以下了

你都打算上tb买了，为什么不用MZ73 LM0自己攒，还要去搞准系统？MZ73 LM0早就可以稳400W了，甚至还能超频。用MZ73 LM0自己攒，全部不开发票的价格才不到8万。

作者
Author: Entropy.S.I 时间: 2023-8-16 15:25
本帖最后由 Entropy.S.I 于 2023-8-16 15:27 编辑

beowulf 发表于 2023-8-15 13:43
对于vasp为主的用户，intel系统性价比要远好于amd系统。
单节点来看6330/6430性价比最高，配到38都是浪 ...

等有VASP测试数据了再下结论也不迟。另外，你凭什么预设用户“主要”只用VASP？本贴楼主明明写着还要用CP2K、LAMMPS等。

前面你说要“争取压榨供应商”配32节点，现在又说“很容易”上32节点了？不矛盾？

这种大额采购，显然不可能用二手的东西，然而全新有原厂质保的货，EDR 100G方案和HDR 200G方案没相差多少价格，交换机只相差1万多点，IB卡每块只相差不到2000，DAC铜缆价格差可忽略不计。对于13-14节点的集群，两种方案总价只相差3万多，这点价格差，按你的说法，难道不是“压榨供应商”即可？现在这行整机商家毛利率普遍20%以上，Dell等厂家甚至搞到60%以上，200万的采购，3万多相较于他们的利润只是个零头。另外这是192核的双路9654，如果你仍然觉得100G就行，那么尊重祝福。

作者
Author: beowulf 时间: 2023-8-18 15:39

Entropy.S.I 发表于 2023-8-16 15:25
等有VASP测试数据了再下结论也不迟。另外，你凭什么预设用户“主要”只用VASP？本贴楼主明明写着还要用CP ...

抱歉挡你财路了。
我只是在根据过去一二十年的经验，告诉他们不要轻易的去采购9654这种肥胖的机器而已。

这些vasp的测试基本不会有人放出来的，挡人财路的事而已。

作者
Author: biogon 时间: 2023-8-18 17:25

beowulf 发表于 2023-8-8 19:22
9654是12个ccd，2个ccd应该对应一个numa。不过稍微上心点的用户，
都会把任务和核心钉扎在一起。典型的 ...

当然是不可能分12个numa的，看热那亚调优手册就知道了

作者
Author: beowulf 时间: 2023-8-21 14:14

biogon 发表于 2023-8-18 17:25
当然是不可能分12个numa的，看热那亚调优手册就知道了

amd的手册:

You may also be able to further improve the performance of certain environments by using the LLC (L3 Cache) as NUMA BIOS setting to associate workloads to compute cores that all share a single LLC. Enabling this setting equates each shared L3 or CCX to a separate NUMA node, as a unique L3 cache per CCD. A single AMD EPYC 9004 Series Processor with 12 CCDs can have up to 12 NUMA nodes when this setting is enabled.

单个处理器可以是1，2，4或者是按照CCD来设置。

作者
Author: abin 时间: 2023-8-21 18:51
价格价格，最后还不是用户承担。

比如戴尔，商用，按照合约描述提供硬件服务，
可以商定，常用配件，方日或者次日上门更换，
或者约定八个小时内更换。
硬件在两年后，有一定的概率会损坏……
坏了就换呗……

那么商家准备备件，就是费用了……
那么，今年机器上了40个4090，
如果考虑到两年后，可能会有两个损坏……
客户有要求八个小时内更换的话……
本地备件，可能就要预备两个卡……

在初始核算成本的时候，就是42个卡片的成本。

当然，对于部分不按照合约来的公司而言，价格很低……
出了问题，就一句话，没货……
然后等着……
你不会真去拿着合同，去告状吧？

什么价格都没有问题，
明码标价，能接受就行。

欢迎光临计算化学公社 (http://bbs.keinsci.com/)