计算化学公社

 找回密码 Forget password
 注册 Register

超算集群配置求指点

查看数: 2529 | 评论数: 31 | 收藏 Add to favorites 3
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2023-7-10 18:29

正文摘要:

各位老师好,最近实验室在采购超算集群,现在有两个供货商给了配置,如图所示,大家觉得哪个更好一些?(AMD芯片的这一家不知道为啥要插24条内存……这个芯片只支持八通道)主要用途,第一性原理计算(VASP,CP2K), ...

回复 Reply

abin 发表于 Post on 2023-8-21 18:51:42
价格价格,最后还不是用户承担。

比如戴尔,商用,按照合约描述提供硬件服务,
可以商定,常用配件,方日或者次日上门更换,
或者约定八个小时内更换。
硬件在两年后,有一定的概率会损坏……
坏了就换呗……

那么商家准备备件,就是费用了……
那么,今年机器上了40个4090,
如果考虑到两年后,可能会有两个损坏……
客户有要求八个小时内更换的话……
本地备件,可能就要预备两个卡……

在初始核算成本的时候,就是42个卡片的成本。

当然,对于部分不按照合约来的公司而言,价格很低……
出了问题,就一句话,没货……
然后等着……
你不会真去拿着合同,去告状吧?

什么价格都没有问题,
明码标价,能接受就行。

beowulf 发表于 Post on 2023-8-21 14:14:18
biogon 发表于 2023-8-18 17:25
当然是不可能分12个numa的,看热那亚调优手册就知道了

amd的手册:

You may also be able to further improve the performance of certain environments by using the LLC (L3 Cache) as NUMA BIOS setting to associate workloads to compute cores that all share a single LLC. Enabling this setting equates each shared L3 or CCX to a separate NUMA node, as a unique L3 cache per CCD. A single AMD EPYC 9004 Series Processor with 12 CCDs can have up to 12 NUMA nodes when this setting is enabled.

单个处理器可以是1,2,4或者是按照CCD来设置。
biogon 发表于 Post on 2023-8-18 17:25:56
beowulf 发表于 2023-8-8 19:22
9654是12个ccd,2个ccd应该对应一个numa。不过稍微上心点的用户,
都会把任务和核心钉扎在一起。典型的 ...

当然是不可能分12个numa的,看热那亚调优手册就知道了
beowulf 发表于 Post on 2023-8-18 15:39:29
Entropy.S.I 发表于 2023-8-16 15:25
等有VASP测试数据了再下结论也不迟。另外,你凭什么预设用户“主要”只用VASP?本贴楼主明明写着还要用CP ...

抱歉挡你财路了。
我只是在根据过去一二十年的经验,告诉他们不要轻易的去采购9654这种肥胖的机器而已。

这些vasp的测试基本不会有人放出来的,挡人财路的事而已。
Entropy.S.I 发表于 Post on 2023-8-16 15:25:29
本帖最后由 Entropy.S.I 于 2023-8-16 15:27 编辑
beowulf 发表于 2023-8-15 13:43
对于vasp为主的用户,intel系统性价比要远好于amd系统。
单节点来看6330/6430性价比最高,配到38都是浪 ...

等有VASP测试数据了再下结论也不迟。另外,你凭什么预设用户“主要”只用VASP?本贴楼主明明写着还要用CP2K、LAMMPS等。

前面你说要“争取压榨供应商”配32节点,现在又说“很容易”上32节点了?不矛盾?

这种大额采购,显然不可能用二手的东西,然而全新有原厂质保的货,EDR 100G方案和HDR 200G方案没相差多少价格,交换机只相差1万多点,IB卡每块只相差不到2000,DAC铜缆价格差可忽略不计。对于13-14节点的集群,两种方案总价只相差3万多,这点价格差,按你的说法,难道不是“压榨供应商”即可?现在这行整机商家毛利率普遍20%以上,Dell等厂家甚至搞到60%以上,200万的采购,3万多相较于他们的利润只是个零头。另外这是192核的双路9654,如果你仍然觉得100G就行,那么尊重祝福。
Entropy.S.I 发表于 Post on 2023-8-16 15:05:01
gauss98 发表于 2023-8-15 10:35
某宝 9654*2+ 768G ddr5,+ 2u准系统

税前可到9万以下,含税10万以下了

你都打算上tb买了,为什么不用MZ73 LM0自己攒,还要去搞准系统?MZ73 LM0早就可以稳400W了,甚至还能超频。用MZ73 LM0自己攒,全部不开发票的价格才不到8万。
beowulf 发表于 Post on 2023-8-15 13:45:23
gauss98 发表于 2023-8-15 10:35
某宝 9654*2+ 768G ddr5,+ 2u准系统

税前可到9万以下,含税10万以下了

还是有点困难,再等几个月可能更好配一点。

大多数学校10万以下和10万以上繁琐程度是不一样的。
beowulf 发表于 Post on 2023-8-15 13:43:39
Entropy.S.I 发表于 2023-8-8 20:35
降到768GB单节点可以减1.5万,算上CX6 200G IB卡,一台大概是14万。IB交换机,线缆,存储乃至UPS都要算进 ...

对于vasp为主的用户,intel系统性价比要远好于amd系统。
单节点来看6330/6430性价比最高,配到38都是浪费。

不用压死厂商,很容易可以上32点。

7543性能不行,9654这种系统跑其他的量化软件或者分子动力学更合适一些。
200G ib也是好看没有意义的东西,100G足以。
另外对于这种集群来说,ups配到文件系统上就好,整机不需要。

gauss98 发表于 Post on 2023-8-15 10:35:51
Entropy.S.I 发表于 2023-8-8 20:27
我不用VASP,所以没测过。

Gaussian,大体系,双路9654是双路8375C的~2.9倍,双路7R32的~2.2倍,你可 ...

某宝 9654*2+ 768G ddr5,+ 2u准系统

税前可到9万以下,含税10万以下了
abin 发表于 Post on 2023-8-9 12:23:24
9654有了AVX512指令集支持后
相对于英特尔平台,有可观的加速。

不过加速的前提是,多人围殴。

同样的核心数,优势并不明显。

另一个方面是,在同样的空间内,容纳了更多得核心,
对于空间和能耗,有积极的一面。

当然,在一个主板上,实现更多得核心和内存,
具有更好的应用冗余。

能在一个主板上解决,就不用费劲通过网络多机器并行了。
Entropy.S.I 发表于 Post on 2023-8-8 20:35:17
beowulf 发表于 2023-8-8 19:09
vasp主流标准是每核心陪2到4GB内存,多了都是浪费。

不是用不到,是系统大了算不动。

降到768GB单节点可以减1.5万,算上CX6 200G IB卡,一台大概是14万。IB交换机,线缆,存储乃至UPS都要算进去。把厂家压榨到爆,再把存储砍成6*18TB的HDD阵列,200万能配13个节点。

你前面说了,压榨厂家之后也只能“争取配32节点”的双路Xeon 6338 / EPYC 7543,仔细算算,哪个性价比高?
Entropy.S.I 发表于 Post on 2023-8-8 20:27:06
wypkdhd 发表于 2023-8-7 21:00
熵神,7543达不到9654的三分之一这事您这边有没有vasp相关测试数据?因为我如果顺利了,年底毕业后启动经 ...

我不用VASP,所以没测过。

Gaussian,大体系,双路9654是双路8375C的~2.9倍,双路7R32的~2.2倍,你可以参考一下。

目前基于准系统的整机,双路9654 + 1.5TB是~15万,768GB是~13.5万,个人估计到年底后者还会降两三万
beowulf 发表于 Post on 2023-8-8 19:22:26
abin 发表于 2023-8-8 11:34
AMD 核心数量多好几倍,跑那些内存占用小的,L3 就能装满的 benchmark,速度确实起飞。
跑分好看自然可以 ...

9654是12个ccd,2个ccd应该对应一个numa。不过稍微上心点的用户,
都会把任务和核心钉扎在一起。典型的量化软件,一大堆mpi processes都是钉在核心上的。
bios里调配的是内存分配的方式,双路9654一般来说分12个numa更好。
否则的话单个的process要读写的内存分布在远离的内存区域,想想都累。


beowulf 发表于 Post on 2023-8-8 19:09:45
Entropy.S.I 发表于 2023-8-7 16:31
你应该没有见识过9654的真实水平

图里那两个配置,性能连双路9654三分之一都没有。不要说核心多有边际 ...

vasp主流标准是每核心陪2到4GB内存,多了都是浪费。

不是用不到,是系统大了算不动。
vasp算法复杂度是N^3。

有200万也好,有2000万也好,跑密度泛函的机器,每个节点压缩到五六万预算,多配节点一般是更合适的
选择,当然暴发户随意。

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 11:17 , Processed in 0.210238 second(s), 26 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list