计算化学公社

标题: 10W预算,购置CPU密集型LAMMPS分子动力学服务器,该如何改进? [打印本页]

作者
Author:
JianyuC    时间: 2025-4-30 14:04
标题: 10W预算,购置CPU密集型LAMMPS分子动力学服务器,该如何改进?
本帖最后由 JianyuC 于 2025-4-30 16:33 编辑

【采购背景】导师科研启动期,有10W预算可用于购置科研设备,但并非必须一次性用完。因之前”白嫖“国外某大学的超算服务器账号停用了,因此让我帮助配置一套自己的服务器用于LAMMPS分子动力学模拟。学校政策灵活,只需开具发票即可。因此打算自己攒机,发扬论坛精神。

【软件背景】服务器主要用于LAMMPS跑MD,可能也会拿这个服务器做点横向课题的FEM(Abaqus之类的,但不是主要,大概占10%)。具体到LAMMPS,当前课题做碳素材料摩擦(以及延申课题),主要使用到的Pair_style包括rebo和 kolmogorov/crespi/full,前者有Intel和OpenMP加速包但无传统GPU或KOKKOS/GPU加速包,KC势无任何加速版本,且算力耗费主要集中在KC势(涉及派键相互作用模拟)。

【使用背景】目前课题组主要有3人(含导师),且学校不能提供配套的机房设施,设备只能放置在课题室。

【配置考虑】基于以上,有如下初步考虑。1.因LAMMPS并行框架的核心是MPI,且当前所用KC势无任何加速版本,因此在目前阶段只配置AMD的多核服务器平台,只考虑选择Zen4架构的EPYC 热那亚 9654及其OEM版(如9B14/9T24等),暂不配置任何独立显卡;2.原子规模在10万以下,RAM容量考虑分配单核3~4GB即可;3.因只能放置在办公室,故只能选择塔式且需要考虑噪音问题;4.需保证用户提交的作业都能尽快跑上不为一个机子争来争去,双路192核心的并行可能涉及复杂调优本人不擅长,故考虑组2~3台单路而非1台双路,组成一个非跨节点的mini到不能再mini的mini集群,只为方便提交作业、管理和维护;5.考虑后续可能用到的GPU加速场景,可以留出一定的预算购置GPU,或另外购置GPU机器、额外的CPU机器并加入小集群。

综上考虑,当前阶段硬件方面的选择为:配置2~3*单路9B14计算节点+1*登录/管理/存储合设节点(兼具”NAS功能“<如果可以称之为NAS的话>)+3*普通PC高速接入mini集群(3台PC已经购置完成)。

【配置清单】按照上述思路,在学习论坛众多帖子并考虑自身实际情况,计算节点的单路9B14平台计划配置如下:
(, 下载次数 Times of downloads: 33)
登录/管理/存储/NAS合设节点配置如下:

(, 下载次数 Times of downloads: 38)
目前想到的网络拓扑如下:
(, 下载次数 Times of downloads: 38)

【计算架构】可用程序在合设节点编译维护,在计算节点load。I/O全部在本地NVMe固态硬盘进行,在节点内进行多核MPI并行,用户SSH到合设节点HDD硬盘自己的文件夹下创建任务文件夹、编辑/提交作业等。计算结果由NFS挂载通过10G局域网迁移到合设节点用户的任务提交目录。即在用户看来就是在自己的文件夹下提交作业并在自己的文件夹下得到结果。另外通过将合设节点的IPMI端口接入办公室现有的千兆交换机就可以实现控制,然后两台计算节点也是如此,只需要加几根网线。

【系统管理】合设节点采用Ubuntu+ZFS+NFS,计算节点也安装Ubuntu系统,然后Slurm调度,外加IPMI管理(也许有更好的方案?以及如何安装配置系统还在学习中...)

【显然的缺点】自我审视后发现以上配置有一些明显的缺点,1.计算节点主板接口利用率太低,三条PCIe Gen5×16通道无任何利用,八个MCIO接口仅用了一个还是通过转接线这种稍显蹩脚的方式,因为是两个主板上述缺点直接放大两倍;2.合设节点所谓的NAS功能过于抽象,仅有两个16T的HDD还都完全单盘使用,令人忍俊不禁;3.看似每个部分都有用,但疑似绕了弯路,单人单机也许才是版本答案(

【我的问题】目前此方案肯定并非最优,甚至有很多错误,因此还想向各位老师、同行请教几个问题:
1.合设节点的必要性。当前使用场景下,有没有必要另配一个基本纯二手拆机件组成的所谓 登录/管理/存储节点,其成本抛去本来就打算购置的两块HDD,额外成本大概在4K多点,加上组网设备1K多,共5K多。

2.合设节点的合理性。如果确实可以配置这么一个合设节点,选择Xeon W-2140或其他W-2100处理器是否可行?选这颗/系列CPU是考虑到其支持的指令集——SSE4.2 AES AVX2 AVX512与EPYC Genoa所支持的指令集——SSE4A AES AVX2 AVX512很接近,但还有些许差异,不清楚在编译LAMMPS等程序时是否会产生可能的差异导致作业调度等不能够高效运行?又或许可以考虑将此节点配置提高同时也作为计算节点?

3.多台单路的合理性。虽然目前更倾向于配置多台单路9B14,但不清楚这是否为最优,即双路9B14和两台单路9B14对比来看,谁具有更高算力?因为同样是攒机,双路9B14整机能在5.6W拿下(当然内存也是24G*24来配),反而是比两台单路耗费6W多要低一些,而且如果是单台双路那也完全没必要加额外的节点了,直接省下近1.5W。这让我对配置单路的合理性产生强烈的质疑。请问应该怎么选择?

4.内存容量的合理性。不难看到,这里的整机价格之所以比444博文给出的参考价格低,主要是因为选用了单条价格比32GB规格低一半的24GB规格内存条,虽然查阅主板官网说明书明确写明支持24GB规格,但还是有些顾虑。请问,为啥24GB要比32GB价格低这么多?是否有必要将内存容量提升到32GB或48GB呢?

5.计算架构的合理性和可能的扩展。本地I/O+结果<实时>迁移到任务提交目录这样的方案是否可行/可实现?考虑到两台机子各有一个多余的板载SFP28网口,也许还可以考虑两机直连做有限的跨节点并行?此方案是否可行或有必要?

6.后期增加显卡。如果按照目前方案,2*单路9B14+1*合设节点+组网设备,耗费总计约为7.1W,还结余近3W。请问如果后期考虑增加显卡,是否可以不再另配单独的工作站/服务器,而是直接插在当前的主板上(对应提高电源功率),9B14或9654是否能够有效发挥显卡性能?还是说直接考虑卢老师博文计算化学购机配置推荐中的”极高性能分子动力学服务器推荐配置“?即9950X+4090D的方案

7.您还有其他建议吗?


帖子有点臭长,我的问题也”稍“多,且以上论述肯定有许多不严谨的地方,又也许走了这么一大通到最后还真还不如组一台双路9B14/9654(如果真是如此我真的,但总之大家任何的一点建议、批评都表示万分感谢!





作者
Author:
tonganlhy    时间: 2025-4-30 17:10
节点的管理说实话比较复杂。我要是你就紧一紧预算组两台双路9654说不定都够了。
这些CPU主频一般,上显卡发挥不出性能。后面再上倒不如一开始就考虑。
方案可以参考这里,都很明了。http://bbs.keinsci.com/thread-35988-1-1.html
作者
Author:
JianyuC    时间: 2025-4-30 17:45
tonganlhy 发表于 2025-4-30 17:10
节点的管理说实话比较复杂。我要是你就紧一紧预算组两台双路9654说不定都够了。
这些CPU主频一般,上显卡 ...

谢谢您的建议,这篇帖子我详细阅读过,我的情况比较符合文中:
LAMMPS中有些pair_style不支持GPU加速,若你有可能用到这些pair_style,则应当另外配一台专注于CPU密集型任务的工作站/服务器

这一情况。

如果多节点没必要,那我是这样想:多核MPI在许多计算场景下都能用到,对LAMMPS来说也很高效,但如果一开始就按GPU加速来配置,对目前不能GPU加速的课题来说就感觉不太够用。如果配两台双路稍微有点超预算,或许现阶段先配置一台双路9654用着,剩下的预算先留着后续再物色一台GPU机器处理那些可能需要GPU加速的场景,这样做比较合适?双路应该也能很好地调度作业吧,只要能解决多任务的调度问题就可以。而且如果后期再加机器,这套拓扑也能用上,反正也不跨节点,就是ssh然后slurm这些应该还是搞得定。

另外,如果配双路那么考虑上水冷了,需要尽可能降低噪音,不知是否有必要。

作者
Author:
tonganlhy    时间: 2025-4-30 18:17
本帖最后由 tonganlhy 于 2025-4-30 18:22 编辑
JianyuC 发表于 2025-4-30 17:45
谢谢您的建议,这篇帖子我详细阅读过,我的情况比较符合文中:
这一情况。

这样也行。单核强的多核U很贵,不如配两台分别专注不同类型的任务。
如果放在办公室,水冷有一定的必要性。就是贵。参考本版有个9系双路水冷4000元。

作者
Author:
JianyuC    时间: 2025-4-30 18:40
tonganlhy 发表于 2025-4-30 18:17
这样也行。单核强的多核U很贵,不如配两台分别专注不同类型的任务。
如果放在办公室,水冷有一定的必要 ...

非常感谢,我去调研一下




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3