计算化学公社

 找回密码 Forget password
 注册 Register
楼主 Author: Weldingspock
打印 Print 上一主题 Last thread 下一主题 Next thread

[配置讨论] 超算集群配置求指点

[复制链接 Copy URL]

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

16#
发表于 Post on 2023-8-7 16:31:38 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2023-8-7 20:13 编辑
beowulf 发表于 2023-8-7 15:51
200万人刀还是港刀?

你这个用途没必要9654+1.5T内存+大量存储

你应该没有见识过9654的真实水平

图里那两个配置,性能连双路9654三分之一都没有。不要说核心多有边际效应,边际效应在24通道DDR5内存,921GB/s带宽下都不需要考虑

评分 Rate

参与人数
Participants 1
eV +5 收起 理由
Reason
wypkdhd + 5 谢谢

查看全部评分 View all ratings

- 向着虚无前进 -

279

帖子

2

威望

4421

eV
积分
4740

Level 6 (一方通行)

打脸只许打一次

17#
发表于 Post on 2023-8-7 21:00:14 | 只看该作者 Only view this author
本帖最后由 wypkdhd 于 2023-8-7 21:02 编辑
Entropy.S.I 发表于 2023-8-7 16:31
你应该没有见识过9654的真实水平

图里那两个配置,性能连双路9654三分之一都没有。不要说核心多有边际 ...

熵神,7543达不到9654的三分之一这事您这边有没有vasp相关测试数据?因为我如果顺利了,年底毕业后启动经费就那么几万块,我还琢么是自己攒9654先混起来,还是咸鱼搞几台便宜的上古白金系列。(忽略电费的情况下)

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

18#
发表于 Post on 2023-8-8 11:34:16 | 只看该作者 Only view this author
AMD 核心数量多好几倍,跑那些内存占用小的,L3 就能装满的 benchmark,速度确实起飞。
跑分好看自然可以忽悠学校和研究所换平台。

对于跑科学计算, 比如vasp, cp2k这种, 普通的计算任务, 必定需要用到内存而非处理器自己的cache.
这个时候, 内存通道数量, 以及核心和内存之间数据交换的延时, 才是决定计算效率的关键所在.

如果资料没有写错的话,
9654, 96个核心, 分为12块, 每一个区域8个核心; 通过BISO似乎可以调配, NUMA的配置.

一般而言, 一个NUMA内的数, 数据交换耗时短; 跨NUMA交换数据, 耗时长.

那么配置不当, 一颗9654, 也许就是12个NUMA.

常见的8336C, 比如, 32个物理核心, 属于一个NUMA.

同时DDR5自身的latency稍微高一丢丢.

不过这都不是重点. 9654增加了AVX512指令集支持, 如果核心多主频高带来的优势,
能规避多NUMA劣势, 还是值得考虑入手的.

当前, AOCC 4.0支持还有待完善, 对于源码编译有执念的同学, 需要谨慎评估.

评分 Rate

参与人数
Participants 1
eV +5 收起 理由
Reason
wypkdhd + 5 牛!

查看全部评分 View all ratings

High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

81

帖子

0

威望

1369

eV
积分
1450

Level 4 (黑子)

19#
发表于 Post on 2023-8-8 19:09:45 | 只看该作者 Only view this author
Entropy.S.I 发表于 2023-8-7 16:31
你应该没有见识过9654的真实水平

图里那两个配置,性能连双路9654三分之一都没有。不要说核心多有边际 ...

vasp主流标准是每核心陪2到4GB内存,多了都是浪费。

不是用不到,是系统大了算不动。
vasp算法复杂度是N^3。

有200万也好,有2000万也好,跑密度泛函的机器,每个节点压缩到五六万预算,多配节点一般是更合适的
选择,当然暴发户随意。

81

帖子

0

威望

1369

eV
积分
1450

Level 4 (黑子)

20#
发表于 Post on 2023-8-8 19:22:26 | 只看该作者 Only view this author
abin 发表于 2023-8-8 11:34
AMD 核心数量多好几倍,跑那些内存占用小的,L3 就能装满的 benchmark,速度确实起飞。
跑分好看自然可以 ...

9654是12个ccd,2个ccd应该对应一个numa。不过稍微上心点的用户,
都会把任务和核心钉扎在一起。典型的量化软件,一大堆mpi processes都是钉在核心上的。
bios里调配的是内存分配的方式,双路9654一般来说分12个numa更好。
否则的话单个的process要读写的内存分布在远离的内存区域,想想都累。


846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

21#
发表于 Post on 2023-8-8 20:27:06 | 只看该作者 Only view this author
wypkdhd 发表于 2023-8-7 21:00
熵神,7543达不到9654的三分之一这事您这边有没有vasp相关测试数据?因为我如果顺利了,年底毕业后启动经 ...

我不用VASP,所以没测过。

Gaussian,大体系,双路9654是双路8375C的~2.9倍,双路7R32的~2.2倍,你可以参考一下。

目前基于准系统的整机,双路9654 + 1.5TB是~15万,768GB是~13.5万,个人估计到年底后者还会降两三万
- 向着虚无前进 -

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

22#
发表于 Post on 2023-8-8 20:35:17 | 只看该作者 Only view this author
beowulf 发表于 2023-8-8 19:09
vasp主流标准是每核心陪2到4GB内存,多了都是浪费。

不是用不到,是系统大了算不动。

降到768GB单节点可以减1.5万,算上CX6 200G IB卡,一台大概是14万。IB交换机,线缆,存储乃至UPS都要算进去。把厂家压榨到爆,再把存储砍成6*18TB的HDD阵列,200万能配13个节点。

你前面说了,压榨厂家之后也只能“争取配32节点”的双路Xeon 6338 / EPYC 7543,仔细算算,哪个性价比高?
- 向着虚无前进 -

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

23#
发表于 Post on 2023-8-9 12:23:24 | 只看该作者 Only view this author
9654有了AVX512指令集支持后
相对于英特尔平台,有可观的加速。

不过加速的前提是,多人围殴。

同样的核心数,优势并不明显。

另一个方面是,在同样的空间内,容纳了更多得核心,
对于空间和能耗,有积极的一面。

当然,在一个主板上,实现更多得核心和内存,
具有更好的应用冗余。

能在一个主板上解决,就不用费劲通过网络多机器并行了。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

299

帖子

0

威望

1922

eV
积分
2221

Level 5 (御坂)

24#
发表于 Post on 2023-8-15 10:35:51 | 只看该作者 Only view this author
Entropy.S.I 发表于 2023-8-8 20:27
我不用VASP,所以没测过。

Gaussian,大体系,双路9654是双路8375C的~2.9倍,双路7R32的~2.2倍,你可 ...

某宝 9654*2+ 768G ddr5,+ 2u准系统

税前可到9万以下,含税10万以下了

81

帖子

0

威望

1369

eV
积分
1450

Level 4 (黑子)

25#
发表于 Post on 2023-8-15 13:43:39 | 只看该作者 Only view this author
Entropy.S.I 发表于 2023-8-8 20:35
降到768GB单节点可以减1.5万,算上CX6 200G IB卡,一台大概是14万。IB交换机,线缆,存储乃至UPS都要算进 ...

对于vasp为主的用户,intel系统性价比要远好于amd系统。
单节点来看6330/6430性价比最高,配到38都是浪费。

不用压死厂商,很容易可以上32点。

7543性能不行,9654这种系统跑其他的量化软件或者分子动力学更合适一些。
200G ib也是好看没有意义的东西,100G足以。
另外对于这种集群来说,ups配到文件系统上就好,整机不需要。

81

帖子

0

威望

1369

eV
积分
1450

Level 4 (黑子)

26#
发表于 Post on 2023-8-15 13:45:23 | 只看该作者 Only view this author
gauss98 发表于 2023-8-15 10:35
某宝 9654*2+ 768G ddr5,+ 2u准系统

税前可到9万以下,含税10万以下了

还是有点困难,再等几个月可能更好配一点。

大多数学校10万以下和10万以上繁琐程度是不一样的。

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

27#
发表于 Post on 2023-8-16 15:05:01 | 只看该作者 Only view this author
gauss98 发表于 2023-8-15 10:35
某宝 9654*2+ 768G ddr5,+ 2u准系统

税前可到9万以下,含税10万以下了

你都打算上tb买了,为什么不用MZ73 LM0自己攒,还要去搞准系统?MZ73 LM0早就可以稳400W了,甚至还能超频。用MZ73 LM0自己攒,全部不开发票的价格才不到8万。
- 向着虚无前进 -

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

28#
发表于 Post on 2023-8-16 15:25:29 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2023-8-16 15:27 编辑
beowulf 发表于 2023-8-15 13:43
对于vasp为主的用户,intel系统性价比要远好于amd系统。
单节点来看6330/6430性价比最高,配到38都是浪 ...

等有VASP测试数据了再下结论也不迟。另外,你凭什么预设用户“主要”只用VASP?本贴楼主明明写着还要用CP2K、LAMMPS等。

前面你说要“争取压榨供应商”配32节点,现在又说“很容易”上32节点了?不矛盾?

这种大额采购,显然不可能用二手的东西,然而全新有原厂质保的货,EDR 100G方案和HDR 200G方案没相差多少价格,交换机只相差1万多点,IB卡每块只相差不到2000,DAC铜缆价格差可忽略不计。对于13-14节点的集群,两种方案总价只相差3万多,这点价格差,按你的说法,难道不是“压榨供应商”即可?现在这行整机商家毛利率普遍20%以上,Dell等厂家甚至搞到60%以上,200万的采购,3万多相较于他们的利润只是个零头。另外这是192核的双路9654,如果你仍然觉得100G就行,那么尊重祝福。
- 向着虚无前进 -

81

帖子

0

威望

1369

eV
积分
1450

Level 4 (黑子)

29#
发表于 Post on 2023-8-18 15:39:29 | 只看该作者 Only view this author
Entropy.S.I 发表于 2023-8-16 15:25
等有VASP测试数据了再下结论也不迟。另外,你凭什么预设用户“主要”只用VASP?本贴楼主明明写着还要用CP ...

抱歉挡你财路了。
我只是在根据过去一二十年的经验,告诉他们不要轻易的去采购9654这种肥胖的机器而已。

这些vasp的测试基本不会有人放出来的,挡人财路的事而已。

1236

帖子

1

威望

3495

eV
积分
4751

Level 6 (一方通行)

30#
发表于 Post on 2023-8-18 17:25:56 | 只看该作者 Only view this author
beowulf 发表于 2023-8-8 19:22
9654是12个ccd,2个ccd应该对应一个numa。不过稍微上心点的用户,
都会把任务和核心钉扎在一起。典型的 ...

当然是不可能分12个numa的,看热那亚调优手册就知道了

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 07:33 , Processed in 0.196664 second(s), 25 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list