计算化学公社

标题: 要购买2-300万的服务器,纠结AMD还是Intel [打印本页]

作者
Author:
node101    时间: 2024-7-11 16:36
标题: 要购买2-300万的服务器,纠结AMD还是Intel
10来年没用AMD的服务器了,上研究生时候使用的第一个集群还是AMD的皓龙服务器,但后来就一直用的Intel的至强服务器
使用intel全家桶编译VASP也是非常方便。

现在好不容易有了经费要更新,纠结于AMD还是Intel了,AMD的性价比确实诱人,但因为很多年没用过AMD的处理器,看网上一方面说没问题,一方面AMD自家的一套比较麻烦,用Intel的编译器性能据说有降低,还有人说有莫名其妙的问题。搞的不知道该怎么决定。大家有什么建议。谢谢!

作者
Author:
sobereva    时间: 2024-7-11 17:06
如今的AMD CPU放心用,没什么可担心的
作者
Author:
wxyhgk    时间: 2024-7-11 21:23
看看 cpubenchmark,现在 AMD 的性能吊打 Intel
作者
Author:
Santz    时间: 2024-7-11 22:14
很多知名超算也在用 AMD (, 下载次数 Times of downloads: 68)
作者
Author:
AMAX、willard    时间: 2024-7-12 09:04
AMD稳稳的
作者
Author:
刘恪立    时间: 2024-7-12 09:08
具体要看跑什么软件,目前大部分软件AMD都没问题,极个别的效率不如Intel的强,但是性价比是真的高~
作者
Author:
Weldingspock    时间: 2024-7-12 10:42
AMD,企业级CPU薄纱Intel没啥好说的,我们去年差不多也是你这个预算买的AMD,速度拉满
作者
Author:
abin    时间: 2024-7-12 10:56
各有千秋,
喜欢哪个就用那个.


作者
Author:
gog    时间: 2024-7-12 15:12
本帖最后由 gog 于 2024-7-20 20:17 编辑

说不上谁好,谁不好。AMD在软件支持方面,略微弱一点点
作者
Author:
sun35mr    时间: 2024-7-12 16:03
就我个人而言,虽然amd的核心数,频率确实诱人,但是想省心的话,还是用Intel的CPU+oneAPI吧,AOCC+AOCL现阶段确实有很多局限性。
作者
Author:
二分音符    时间: 2024-7-12 18:03
这个量级的采购是可以要求配置好环境的,所以完全不用担心,甚至售前就可以要他们给测试案例。
作者
Author:
abin    时间: 2024-7-12 18:29
来来分享一个案例。

1700多万的项目,

大公司做的,
测试了多种计算搭配,
一个节点48核心八个GPU

多个节点多CPU多GPU并行,


结果这些算例,都是32秒结束……

交付说,测试正常,程序运行正常。

我不同意交付报告,有用吗?

没有!

负责签字的,会告诉你,差不多就行了,
你说的那些都是啥呀……

所以,不要想着商家处理应用。

默认,合约只处理硬件和集群系统,
其他的,也可以,但是需要付费。

一般的集群项目采购中,并没有应用程序方面的。
请勿异想天开……
作者
Author:
467840770    时间: 2024-7-22 10:34
其实差不了多少,如果是预算充足就上 Intel,
差别也差不了哪里去,不用纠结
作者
Author:
node101    时间: 2024-7-25 16:29
467840770 发表于 2024-7-22 10:34
其实差不了多少,如果是预算充足就上 Intel,
差别也差不了哪里去,不用纠结

应该能差不少节点不少核吧
作者
Author:
node101    时间: 2024-7-25 16:30
sobereva 发表于 2024-7-11 17:06
如今的AMD CPU放心用,没什么可担心的

9754 9654 9554这三款哪个比较好一些呢?谢谢!
作者
Author:
sobereva    时间: 2024-7-25 21:50
node101 发表于 2024-7-25 16:30
9754 9654 9554这三款哪个比较好一些呢?谢谢!

看实际报价
9654很主流,用的人很多,性价比不错
作者
Author:
FH-HPC    时间: 2024-7-26 10:43
VASP、MS等,主要依赖CPU作计算,并且对内存通道要求比较高,所以一般推荐使用英特尔至强系列或者AMD EPYC系列,尤其AMD EPYC性价比更高
而且目前AMD的9004系列CPU,内存通道是12通道,对计算速度提升还是很有帮助的,而且单台可以做到256核心了,据很多老师反馈,AMD做第一性原理计算的时候单核表现不输给Intel单核表现的

AMD EPYC 9754 128C 2.25GHz 256MB 360W
AMD EPYC 9654 96C 2.4GHz 384MB 360W
AMD EPYC 9554 64C 3.1GHz 256MB 360W

9754的话,计算可能核数达不到那么多的,配置了可能没用,9554核数偏少了,9654挺合适的,关键就是三级缓存大,对计算有帮助的

AMD EPYC 9684X 96C 2.55GHz 1152MB 400W  这款不错,值得考虑,三级缓存超大

而且做2、300万基本做计算集群了,如果涉及到跨节点计算的话,一定要上IB交换机,否则不如单台快
我们给全国很多高校建过量化计算的集群,对软硬件都比较精通

如果有不同意见,欢迎随时展开讨论
作者
Author:
abin    时间: 2024-7-27 21:51
本帖最后由 abin 于 2024-7-27 22:02 编辑
FH-HPC 发表于 2024-7-26 10:43
VASP、MS等,主要依赖CPU作计算,并且对内存通道要求比较高,所以一般推荐使用英特尔至强系列或者AMD EPYC ...

按照300万预算,
采用9654双路,
搭配什么规格的存储最佳?

可以区分使用200G或者400G IB卡。


保守估计,存储以及多节点I/O性能达标,
网络和存储的成本,可能达到预算的1/5或者更高。


作者
Author:
gog    时间: 2024-7-27 22:04
值得等待。zen5要出来了。zen4会让价。
作者
Author:
node101    时间: 2024-7-28 17:39
FH-HPC 发表于 2024-7-26 10:43
VASP、MS等,主要依赖CPU作计算,并且对内存通道要求比较高,所以一般推荐使用英特尔至强系列或者AMD EPYC ...

感谢详尽的建议!
作者
Author:
node101    时间: 2024-7-28 17:42
sobereva 发表于 2024-7-25 21:50
看实际报价
9654很主流,用的人很多,性价比不错

感谢建议,有厂商给我报价,同样的价格,9554做到23个节点2994核,9654做到22个节点4224核,9754做到20个节点5120核。这种的话哪个更好呢?谢谢!
作者
Author:
node101    时间: 2024-7-28 17:44
gog 发表于 2024-7-27 22:04
值得等待。zen5要出来了。zen4会让价。

我也看到相关消息了,但你也知道有些钱没法等,可能8,9月就要招标,等不到那个时候
作者
Author:
gog    时间: 2024-7-28 21:58
node101 发表于 2024-7-28 17:42
感谢建议,有厂商给我报价,同样的价格,9554做到23个节点2994核,9654做到22个节点4224核,9754做到20个 ...

IB网络是个瓶颈
作者
Author:
node101    时间: 2024-7-28 22:16
gog 发表于 2024-7-28 21:58
IB网络是个瓶颈

200G的应该还差不多吧
作者
Author:
Entropy.S.I    时间: 2024-7-28 23:05
本帖最后由 Entropy.S.I 于 2024-7-28 23:25 编辑
node101 发表于 2024-7-28 17:42
感谢建议,有厂商给我报价,同样的价格,9554做到23个节点2994核,9654做到22个节点4224核,9754做到20个 ...

仔细看http://bbs.keinsci.com/thread-40077-1-1.html,就知道9754明显不如9654。从实测结果来说,256核的双路9754在大多数场景性能不如192核的双路9654;从架构来说,9754每2个8核CCX复用1条GMI3链路,128核只有8条GMI3链路,而9654是每个8核CCX独占1条GMI3链路,96核刚好用完IO Die的12条GMI3链路,因此9754的核间互联完全不如9654,另外9754的per-core理论性能也远低于9654。9754根本不是面向科学计算设计的CPU,买9754跑科学计算完全是被忽悠的。

另外,现在双路9654 + 24*32GB DDR5 4800 2R内存的计算节点报价超过10万的都不用继续问了。

至于IB网络,基于EDR的单层网络的latency水平并不比HDR差,甚至更好,因为从HDR开始单层网络的latency已经优化到头了,HDR和NDR溢价除了在与bandwidth,还在与多层网络需要的“In-network Computing”能力以及一些针对AI集群的特性,而这对于仅有单层网络的小型科学计算HPC完全没用。二手的EDR网络方案成本只有HDR的不到十分之一,哪种方案更合适非常明显。

最后,仔细调研你们的应用是否可以GPU加速,如今所有经典分子动力学程序的GPU加速性价比都远高于CPU-only,新兴的DPMD同样如此,至于第一性原理,以平面波为主的程序(如VASP、QE、PWmat等)的GPU加速效果普遍很好。

我自己课题组新建的GPU集群就在使用二手EDR方案,计算节点是我二次开发的8卡V100 SXM2服务器,每节点有4+1块IB-EDR HCA,其中4块专门用于GPU-Direct RDMA,这种计算节点每个只需要4万元,跑VASP和QE性能相当于2-5台双路EPYC 9654,并且组成集群进行跨节点并行计算的效率也很好。

我可以帮你们设计HPC,甚至可以帮助部署,但请注意不要以甲方对乙方的态度沟通。
作者
Author:
node101    时间: 2024-7-29 17:25
Entropy.S.I 发表于 2024-7-28 23:05
仔细看http://bbs.keinsci.com/thread-40077-1-1.html,就知道9754明显不如9654。从实测结果来说,256核 ...

非常感谢这些干货!也考虑过GPU,但现在主流的太贵,你说的那些老的GPU是二手还是新的?
作者
Author:
Entropy.S.I    时间: 2024-7-29 18:56
node101 发表于 2024-7-29 17:25
非常感谢这些干货!也考虑过GPU,但现在主流的太贵,你说的那些老的GPU是二手还是新的?

显然是二手的。但是即使是二手也经过了严格质检,质检标准是我拟定的,我有信心使整机故障率达到大厂全新整机的水平,甚至超越之。至少目前已经在运行的几台机器都没有出现硬件故障,其中运行最久的一台已经有5个月,其连续运行时间也超过了3个月,完全没问题。差不多时间上线的一些大厂GPU服务器整机反而三天两头故障。
作者
Author:
FH-HPC    时间: 2024-8-2 13:09
abin 发表于 2024-7-27 21:51
按照300万预算,
采用9654双路,
搭配什么规格的存储最佳?

9004的系列的CPU都是12通道,所以机器一定要24根内存,是24个32G还是24个64 看情况,都可以,但是一定要满通道,否则计算速度影响很大
作者
Author:
abin    时间: 2024-8-3 14:09
FH-HPC 发表于 2024-8-2 13:09
9004的系列的CPU都是12通道,所以机器一定要24根内存,是24个32G还是24个64 看情况,都可以,但是一定要 ...

内存通道,满配。

存储呢?
存储采用什么方案,
可以满足并发I/O的需求?
有些类型的计算,是会疯狂读写硬盘的……

各类型的计算,读写类型也不同……

满足I/O方面,有啥方案,或者建议?

作者
Author:
Entropy.S.I    时间: 2024-8-4 21:48
本帖最后由 Entropy.S.I 于 2024-8-5 10:34 编辑
abin 发表于 2024-8-3 14:09
内存通道,满配。

存储呢?

主存储:全NVMe + Lustre集群(对于本贴规模,单机无冗余方案即可),MDT使用1块随机写性能尽可能高的SSD(如DapuStor J5310 3.2T或intel Optane P5800X 1.6T),OST使用4-8块容量/价格比尽可能高的SSD(如intel D5 P5316 15.36T);App存储:NVMe-over-RDMA一写多读;另外加一台中心化的混闪NAS存储(推荐TrueNAS Scale方案,因为管理非常方便,且可以集成LDAP,同时还可以作为集群的网关节点)用于前2者的备份(备份频率为小时级别)以及用户home目录存储。对于ORCA、Gaussian等任务使用计算节点本地SSD(跨节点计算的情况依然只能使用Lustre集群)。我搭的集群就是上述方案。
作者
Author:
abin    时间: 2024-8-5 07:52
Entropy.S.I 发表于 2024-8-4 21:48
主存储:全NVMe + Lustre集群(对于本贴规模,单机无冗余方案即可),MDT使用1块随机写性能尽可能高的SSD ...

外行专家,
不会用这种方案的。

外行专家,上来就是分布式集群存储系统。
各种测试数据都达标,
一跑磁盘I/O密集型计算,比普通单机+SSD慢个十来倍,
是非常常见的。

看看手边上千万的集群,浪潮捣鼓的……
只能呵呵了。一言难尽。

作者
Author:
Huschein    时间: 2024-8-9 04:01
包是AMD的,AMD感觉挺好




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3