计算化学公社

标题: 求问超算软硬件配置 [打印本页]

作者
Author:
gauss98    时间: 2023-10-23 15:33
标题: 求问超算软硬件配置
院里打算建设计算中心,咨询软硬件需求。

方向包含催化剂设计(均相,多相),(高分子)材料模拟,流体力学计算和机器学习

我自己只了解 高斯相关软硬件

对于多相, vasp, MS,cp2k等需要都购置吗?  vasp等 需要 用 IB高速网络吗?需要GPU吗?什么型号(4090还是 A100之类的)

分子动力学需要IB高速网络吗? 需要GPU吗? 什么型号(4090还是 A100之类的)

机器学习(化工)需要多大的计算资源?

希望相关大神不吝赐教
谢谢!

预算没说,大致按照300-500w算吧


作者
Author:
abin    时间: 2023-10-23 18:14
按照惯例政策,
这种项目都默认给国字头或者有门路的公司来做……

这里绝大部分,
都是玩散件组装的……

首先要有存储,并行文件系统
其次,要有网络,使用100或者200Gb IB。
最后,这么多机器,有没有专用机房?
要不要建设机房?

你说的预算,是仅仅买机器吗?
机柜等算不算?

如果没有机房,建设机房装修施工,
以及电力改造,防火安全等等,要不要包含在你的预算里面?

如果,对于招标采购没有保护性限制……
我当然可以做全套的……


按照默认要求,只能采用正式售卖的处理器,可能价格不是拼装的那么美丽。


作者
Author:
gauss98    时间: 2023-10-23 19:12
机房有的,机柜也就几千块
作为使用者,先提需求吧

主要是网络配置和gpu配置的需求
对于高斯不重要,但对固体计算和高分子材料计算重要性和所需规模不确定
具体谁来做,价格多几分少几分再说
但是作为学科建设建议者起码希望买到称心的机器
因为最后的账还是摊到研究者课题上的



作者
Author:
Entropy.S.I    时间: 2023-10-24 02:16
正好两个多月前给某个研究所设计拟定了一套规模比较大的集群(预算是你们的好几倍),用途和你们的几乎完全相同。如果有兴趣,可以来详细交流
作者
Author:
sobereva    时间: 2023-10-24 04:13
CP2K是免费的

M$那种东西在我来看完全没有购买价值,整体又慢又贵又不灵活,在学术界用户也越来越少,也没有什么计算非要用M$不可,各个方面都有的是更强大的还往往是免费的程序。有买M$的钱远不如用在投资硬件上
作者
Author:
qiyangtt    时间: 2023-10-24 14:49
计算中心有大量多节点并行需求,所以IB网络基本上是属于必备。GPU这方面就要看你计算的软件和体系,一般来说vasp大体系计算GPU有一定的速率提升,CP2K不太熟悉。
作者
Author:
Entropy.S.I    时间: 2023-10-24 15:53
本帖最后由 Entropy.S.I 于 2023-10-24 16:01 编辑

在这里再发一遍给楼主私信里回复的内容。

CPU-only节点,CPU用双路9654,没其他选择了;内存可以根据你们的实际需求,选768G或1.5T,也可以两者兼有。由于是比较大的项目,用攒机的方案很可能过不了领导评审,得用准系统方案,价格会比较贵,双路9654 + 768G大约11万/台,搞25台。

跑经典MD、AI推理、小AI模型训练的节点,用6-8卡4090。有两种方案:1. Xeon w9-3495X + 6*RTX4090 + 8*32GB DDR5 5600,CPU单核性能够强,能发挥出4090更多的性能;单台价格大约19万,搞8台。2. 双路EPYC 9334 + 8*RTX4090 + 24*16GB DDR5 4800,理论性价比更高,但4090的性能实际发挥得不太好;单台价格大约23万,搞6台。

A800、H800等计算卡就不用想了,A800 SXM八卡机100多万/台,H800 SXM八卡机200多万一台,搞1台就把你们预算吃掉很大一部分了,并且现在货源也出了问题。

倒是现在特殊渠道有含税3万多一片的A100 PCIe 40G定制版,但是这东西不能走正经大品牌的公司,也即不能包含在集群项目里,可能只能单独买。

主存储直接上全NVMe闪+GPU加速RAID,这个有现成方案,比较成熟了,不过知名度不高,国内基本没人用,我算是了解得比较早的一批。配24块15.36TB PCIe Gen4 NVMe SSD,全部直连CPU,全套价格估计35-40万。另外加个500TB左右的HDD存储做定时自动备份,也可以再加一台HDD存储开放给有需求的用户存冷数据,这种存储基本上15万/台。分布式并行存储架构复杂,维护起来太麻烦,所以我推荐直接接入集群的主存储用一台容量刚刚好的全NVMe闪即可。

计算网络就用40口200G的QM8700,IB卡用200G HDR,计算节点每节点一片,主存储节点用2片,HDD存储节点每节点1片,在500万预算以内接口数肯定够用。

登录节点网络双万兆,接入核心交换机;登录节点到业务网络也用万兆;业务网络用千兆;IPMI管理网络用千兆。这个可以照搬我8月份那套方案。

以上提到的价格都已经包含了厂商合理的利润。

至于计算软件用什么,去找学院里的课题组一个个谈谈比较好。我能想到的常用的基本上就是Gaussian、ORCA、VASP、CP2K、Quantum ESPRESSO、GROMACS、LAMMPS、AMBER、OpenMM、NAMD3、OpenFOAM(CFD)。另外,据说现在PWMat(第一性原理)的GPU加速很强,合理降低了精度,4090的加速比特别高。其中需要买授权的软件有:Gaussian、VASP、PWMat
作者
Author:
gauss98    时间: 2023-10-24 16:03
Entropy.S.I 发表于 2023-10-24 15:53
在这里再发一遍给楼主私信里回复的内容。

CPU-only节点,CPU用双路9654,没其他选择了;内存可以根据你 ...

谢谢!
个人觉得存储太大了。有个30T就够了。另外,GPU节点换成 9474F怎么样?兼顾CPU跟GPU计算
作者
Author:
abin    时间: 2023-10-24 16:08
本帖最后由 abin 于 2023-10-24 16:10 编辑
gauss98 发表于 2023-10-24 16:03
谢谢!
个人觉得存储太大了。有个30T就够了。另外,GPU节点换成 9474F怎么样?兼顾CPU跟GPU计算

不建议在一个节点上, 既要又要.
跑GPU的炼丹类程序, 对于内存带宽需求很大;会导致跑CPU并且需要内存的程序, 很吃亏的.



楼上说的对,
这么大的采购, 没有品牌的”组装机器“, 无法通过招标的.

也许使用 华为、联想、浪潮等准系统, 再加其他的处理器, 搭配到一起,
才有可能通过正规招标采购审核.



作者
Author:
Entropy.S.I    时间: 2023-10-24 16:12
本帖最后由 Entropy.S.I 于 2023-10-24 16:15 编辑
gauss98 发表于 2023-10-24 16:03
谢谢!
个人觉得存储太大了。有个30T就够了。另外,GPU节点换成 9474F怎么样?兼顾CPU跟GPU计算

那就用12块7.68TB,整个存储只需要13万。另外再加个24*18TB的HDD存储用作主存储的定时备份和用户冷数据存储,10多万。

9474F是8 CCD的配置,每个CCD只开了6核,核间延迟表现很差,并且价格巨高,和9654差不多(甚至可能更贵,我最近没问这玩意的价格,不太了解实时行情),很不值。另外,GPU节点CPU互联只有3组xGMI(因为要留PCIe lane给GPU),因此CPU片间通信瓶颈更严重。
作者
Author:
Janus    时间: 2023-10-25 09:41
本帖最后由 Janus 于 2023-10-25 09:42 编辑
Entropy.S.I 发表于 2023-10-24 15:53
在这里再发一遍给楼主私信里回复的内容。

CPU-only节点,CPU用双路9654,没其他选择了;内存可以根据你 ...

这个配置,如果是课题组用,基本最优。但是,是否也要考虑,楼主提的是整个学院弄计算中心。
9654双路,可以算作胖节点了;都配这种胖节点,管理起来会非常费劲。我不是很懂,只是之前碰到过,介绍哈:
六七年前,我隔壁的学院配了30多个节点的双路2680v4,当时是很好的机器了。刚开始很顺,几个月后,我朋友就开始叫苦了;排队要三四天,总被几个组的长时间任务占着。投诉后,管理员放开了独占节点的限制,更绝的事情发生了:任务提交方式从1节点1个任务,逐渐往14核/任务,7核心/任务,2核心/任务发展。最后朋友又去租超算了。

其实,现阶段VASP等大量的作业很难去跑满双路9654,而如果让一个节点跑多个作业,管理是问题(不是一个组内,很难去要求或者控制用户的习惯)。从vasp cp2k这类软件的用户角度来说,可能限制一个任务一个节点对谁都好。如果这样,可能单路/双路在3:1或者4:1会更优。
作者
Author:
gauss98    时间: 2023-10-26 07:51
Entropy.S.I 发表于 2023-10-24 15:53
在这里再发一遍给楼主私信里回复的内容。

CPU-only节点,CPU用双路9654,没其他选择了;内存可以根据你 ...

GPU节点用7950 最多能几卡?多大内存? 相比xeon-w9-3495
作者
Author:
Entropy.S.I    时间: 2023-10-26 11:09
本帖最后由 Entropy.S.I 于 2023-10-26 11:35 编辑
gauss98 发表于 2023-10-26 07:51
GPU节点用7950 最多能几卡?多大内存? 相比xeon-w9-3495

只能1卡,撑死2卡,还做不到PCIe x16,还要另外搞一套计算和存储网络专门给GPU节点(PCIe lane不够,插不了IB卡)。有时候还是有多卡并行需求的。另外,这么大的集群还是别整这种花活了,省不了多少钱,前期省了钱,后期维护可能就麻烦了。我3月份的文章里也没这么激进…
至于最近发布的线程撕裂者7000系列,非常令人失望。Pro线价格贵上天,同级别SKU相较于上一代贵了太多,和W790平台比起来性价比并没有多高,还有核间延迟问题。从32核4CCD直接跳到64核8CCD,而平台最多只能支持到6块GPU获得PCIe x16,如果要避免核间延迟的问题,64核8CCD中有2个CCD用不起来。传统HEDT线则把PCIe规格砍成残废了,最多支持2块GPU获得PCIe x16。

作者
Author:
gauss98    时间: 2023-10-26 20:15
sobereva 发表于 2023-10-24 04:13
CP2K是免费的

M$那种东西在我来看完全没有购买价值,整体又慢又贵又不灵活,在学术界用户也越来越少,也 ...

咨询了下MS报价,一个用户界面37万,其他每个模块一百多万
四个模块报下来572万
一个用户,一个用户
真以为企业的钱是大风刮来的?
作者
Author:
zzy_1234_2001    时间: 2023-10-26 20:21
MS,国内不差钱的很多
作者
Author:
sobereva    时间: 2023-10-27 07:36
gauss98 发表于 2023-10-26 20:15
咨询了下MS报价,一个用户界面37万,其他每个模块一百多万
四个模块报下来572万
一个用户,一个用户

如此夸张的溢价,不免令我觉得买M$很容易有幕后交易
作者
Author:
不能左右    时间: 2023-10-27 13:40
现在学院自己搭建超算就是个无解的问题,场地、机房、供电、空调、日常维护都需要自己处理。
采购的话因为金额比较大,肯定要被浪潮曙光等品牌攒机商盯着。
最后的结果就是买了一堆版上负面评价极高的配置,后续集群半死不活的运行着。
作者
Author:
Entropy.S.I    时间: 2023-10-27 13:46
不能左右 发表于 2023-10-27 13:40
现在学院自己搭建超算就是个无解的问题,场地、机房、供电、空调、日常维护都需要自己处理。
采购的话因为 ...

奸商是需要调教的。希望我做的事能有个好结果吧。最近精神状态比较差,得隐一段时间了。
作者
Author:
不能左右    时间: 2023-10-27 14:05
Entropy.S.I 发表于 2023-10-27 13:46
奸商是需要调教的。希望我做的事能有个好结果吧。最近精神状态比较差,得隐一段时间了。

说到底如果做计算是自费掏腰包,肯定应该让js赚不到多余的钱,实际情况是学院买超算的钱都是某些项目或者gov突击要花掉的钱,那核心的诉求就是怎么能顺利花掉。你买个服务好的小厂子的服务器会让上峰在面对审计的时候很被动,所以平常心随缘。几百万经费肯定不能单一来源,肯定需要多个品牌来满足程序正义。
作者
Author:
Janus    时间: 2023-10-27 17:39
不能左右 发表于 2023-10-27 14:05
说到底如果做计算是自费掏腰包,肯定应该让js赚不到多余的钱,实际情况是学院买超算的钱都是某些项目或者 ...

也不完全是JS,是品牌商高价里面的附属东西,对我们这种不挣钱的行业用不上。例如:上门维修,7x24小时电话服务,4小时上门(或者次日上门),直接换件或者换机。
小的公司就是一锤子买卖,最多搞个1年或者2年售后,换件啥的还得自己出钱,还可能联系不上。
设想一下,银行、通信、金融、工程工业领域 谁会考虑洋垃圾或者小作坊
作者
Author:
AIchaosuan666    时间: 2023-10-30 13:25
首先有一点确认的就是GPU节点千万不要用9004多卡的平台(任何牌子都一样)血淋淋的教训 那玩意儿掉卡
超微 华硕 给的反馈都是跟他们没关系 NV更是不管  最后受伤的只有厂家和用户
作者
Author:
AIchaosuan666    时间: 2023-10-30 13:57
HPC的方案可以了解一下
作者
Author:
hersvim    时间: 2023-11-16 00:57
AIchaosuan666 发表于 2023-10-30 13:25
首先有一点确认的就是GPU节点千万不要用9004多卡的平台(任何牌子都一样)血淋淋的教训 那玩意儿掉卡
超微 ...

我去。mark住
作者
Author:
AIchaosuan666    时间: 2023-11-16 10:47
hersvim 发表于 2023-11-16 00:57
我去。mark住

这个只是针对双路9004多卡平台上4090 和 6000ADA哈  最近研发测试那边已经给消息这个问题已经解决 但建议还是慎重




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3