计算化学公社

标题: 服务器配置单求教 [打印本页]

作者
Author:
duanxxuan    时间: 2022-10-17 20:31
标题: 服务器配置单求教
请问各位大佬:

我们老师想要建服务器集群,我们的预算大概是150万,想要购买100台服务器。目前最常计算的任务是100-200原子的VASP计算
以及寻找过渡态。

看sobereva老师的配置文章,有以下几个问题,还请大佬帮忙解答:
1.是否必须配置网卡,多台计算机并行计算时,各个服务器之间的信息交流速度是否会影响计算
2.通过多台服务器并行,调用上百个核,是否能缩短寻找过渡态的时间,实现一两天完成计算
(, 下载次数 Times of downloads: 48)

感谢各位大佬帮忙解答

作者
Author:
sobereva    时间: 2022-10-17 23:47
搞不懂干嘛非要买100台服务器
一个双路7R32顶三台多双路2696v3服务器,一台三万左右,还不如买50台双路7R32(或其它的性价比高的,诸如7B13、8373C、8350C等等)
跨节点通讯效率远远远远低于节点内CPU间的通讯效率,而且本身并行核数越多并行效率也越低,跑一两百原子的任务靠这么大规模的跨节点并行效率极其拉胯。

作者
Author:
Entropy.S.I    时间: 2022-10-18 08:17
这种想法,非常幼稚。100台垃圾,还要考虑规模化的制冷,电费,场地费,运维费之类,和数据中心没什么区别,光这些就分分钟吃空你预算。

建议考虑只买1台GPU服务器,安装8块英伟达H100 SXM(直接找英伟达咨询DGX H100),也是一两百万,跑VASP不一定比你想搞的100台垃圾慢。
作者
Author:
孤忆梦影    时间: 2022-10-18 10:57
本帖最后由 孤忆梦影 于 2022-10-18 11:02 编辑

100台费钱又作死  虽然服务器之间的信息交流速度硬盘速度和局域网跟的上就行  每台多出去的主板,硬盘,电源机箱之类的毫无意义  100台集群就算跑起来维护是很麻烦的 机房还要考虑散热之类   需要很多核cpu计算就直接上好的cpu 金牌至强一个好点的处理器就是28核 一台上两个u就是56核 一台顶你多少台 别搞那些花里胡哨的  需要GPU直接上高的显卡就完事了  
作者
Author:
Billhenry    时间: 2022-10-18 11:10
有钱任性
作者
Author:
abin    时间: 2022-10-18 12:22
本帖最后由 abin 于 2022-10-18 12:28 编辑

看看这个 https://hpc4you.github.io

其实, 如果预算是150万的话, 你看配置都没有用的.
拆开单机购买, 是违法犯罪行为, 楼上的各种组装方案, 看看就行.

能买到什么机器呢?
去戴尔网站, 自己选选处理器内存, 会得到一个价格.
这个价格乘以0.7, 就是你去找曙光浪潮等商家的计算节点的报价.
保守估计, 双路64核心+256GB内存, 需要6万.

如果做成集群, 采用100GB IB网络, 交换机估计5万起.

150万, 其中20%是存储和网络,
剩下的80%, 是机器.
按照6万计算, 大概是20台.

所以, 结论是, 曙光浪潮这种商家, 会给100GB IB网络 + GPFS存储 + 20台左右机器组成的集群.
适合多节点并行.

至于并行效率, 看具体情形了. VASP+IB, 有测试表明, 8个节点, 效率可以做到80%左右.
(注意, 1个机器算10个小时, 10个机器计算需要1小时, 称为效率100%.)

如果没有IB网络, 仅限单节点多核心并行.
BI网络成本, 能替换为2~3台机器.

或者, 使用VASP GPU方案.
就是楼上说的NVIDIA的DGX主机.

一定要留意, 预算超过10万, 而且还是纵向科研经费, 还琢磨性价比组装的, 基本要违法乱纪了.


作者
Author:
highlight    时间: 2022-10-18 12:26
配置 150w 规模的集群采购,估计都不会优先考虑配置性价比的
申请机房场地、招标采购流程、内部供货商、学校统一规划。。。先把这些关过了再说
在此之外,你也不可能按单机 * 30 or 100 来规划价格,购置机架空调、布线、存储管理配置、IB 网络。。。都得或多或少的额外花钱
最后,这个集群还得有个人来管,考虑到你的提问方式,你或你的导师大概率都不太了解集群管理
少年,你这是已经有跳坑的觉悟了吗
作者
Author:
abin    时间: 2022-10-18 12:33
接着楼上说的集群托管费/运维费用.

高性能计算集群, 比较冷门.
专业的IT运维, 没人愿意接这个活的.

如果不需要到现场的话, 兼职运维能搞定的.

或者硬件稳定的话,  其实不需要运维的.
我做的集群系统, 除了添加用户之外, 不需要运维的.

作者
Author:
sss668800    时间: 2022-10-21 16:40
这配置是站长给普通预算紧张用户采购的塔式工作站,用的是垃圾佬的大船货,上面已经有坛友说了,你150万采购这些洋垃圾,有人来查就要出事情。

首先,你要确定你所用的程序是纯cpu还是支持gpu加速,这个截图是没有GPU的。
作者
Author:
hgyhgy    时间: 2022-10-22 10:41
你这个钱多,如果想要速度快,显然是购买gpu卡的会比较快呀。
要速度快,就要单台的性能好。vasp的并行效率不太好。

如果不是想速度快,而是研究组的使用人数很多,那么多几台机器,也是可以保证每人任何时候都能用上机器的。


作者
Author:
duanxxuan    时间: 2022-10-25 11:20
sobereva 发表于 2022-10-17 23:47
搞不懂干嘛非要买100台服务器
一个双路7R32顶三台多双路2696v3服务器,一台三万左右,还不如买50台双路7R3 ...

请问买7R32的话,100个原子以下的体系,找过渡态大概需要多久,就是在找到合适结构的情况呀,几台7R32并行可以提升速度吗
作者
Author:
duanxxuan    时间: 2022-10-25 11:24
abin 发表于 2022-10-18 12:22
看看这个 https://hpc4you.github.io

其实, 如果预算是150万的话, 你看配置都没有用的.

请问楼主,这个IB网络,如果使用40G或56G对效率影响大吗?还有是否可以把集群的集中存储改为各自节点存储是否能提高计算速度?谢谢您了
作者
Author:
Entropy.S.I    时间: 2022-10-25 13:22
本帖最后由 Entropy.S.I 于 2022-10-25 13:27 编辑
duanxxuan 发表于 2022-10-25 11:20
请问买7R32的话,100个原子以下的体系,找过渡态大概需要多久,就是在找到合适结构的情况呀,几台7R32并 ...

如果日常没有几十上百人使用,不推荐建CPU集群。找英伟达咨询DGX或HGX就行了,一台DGX H100能顶你一整套CPU集群,不过目前比较缺货,价格偏高,150万估计不够买8卡机器,4卡的HGX H100肯定足够。即使是用老的DGX A100,也很划算。如果觉得上百万就买了1台机器领导看完会不高兴,那就用性能较弱、较便宜的A100 PCIe 40G,可以买2-3台8卡机器。150万这种不上不下的预算量,跑的还是VASP这种有GPU模式的程序,搞CPU集群非常不合适。
作者
Author:
abin    时间: 2022-10-25 22:29
duanxxuan 发表于 2022-10-25 11:24
请问楼主,这个IB网络,如果使用40G或56G对效率影响大吗?还有是否可以把集群的集中存储改为各自节点存储 ...

vasp 不支持你说的存储方式。

不过你说的是一种并行存储的实现方式。
配置很麻烦的,还需要硬件支持。

你说的卡,工作在以太网模式,就是40
工作在IB模式,就是56Gbps
作者
Author:
hgyhgy    时间: 2022-10-26 09:40
duanxxuan 发表于 2022-10-25 11:20
请问买7R32的话,100个原子以下的体系,找过渡态大概需要多久,就是在找到合适结构的情况呀,几台7R32并 ...

你这种规模大,还是去超算中心测试一下,找找同学什么的。

根据过去的经验来说,vasp是不太适合单个节点有太多cpu的机器,会比较浪费机器的能力。

但现在技术进步了,vasp也进步了,过去的经验是否依然成立是有疑问的。

若无具体测试,我是倾向于更多节点,每个节点至多64 cpu或32 cpu。

GPU的会更快,能达到的最快速度更快。但同时更贵。同样金钱,可能能算的计算量会少些,但速度会快些。
作者
Author:
duanxxuan    时间: 2022-10-26 09:42
sss668800 发表于 2022-10-21 16:40
这配置是站长给普通预算紧张用户采购的塔式工作站,用的是垃圾佬的大船货,上面已经有坛友说了,你150万采 ...

好的好的,这个问题我也跟老师说说,我们主要就是计算VASP,可能会找一些过渡态
作者
Author:
hgyhgy    时间: 2022-10-26 09:46
duanxxuan 发表于 2022-10-25 11:24
请问楼主,这个IB网络,如果使用40G或56G对效率影响大吗?还有是否可以把集群的集中存储改为各自节点存储 ...

vasp对那个写硬盘什么的速度要求很低的。

而neb对于节点之间通讯要求也很低,应该是不会成为瓶颈的。

多个节点算一个非neb计算的作业,这种才涉及到节点之间通讯性能的问题。

不过,150万,如果没有高速网络,应该也说不过去。

150万,如果就买一台机器,问题也很大,除非就一个人使用机器,那当然是越快越好。如果有许多人,应该是更多机器会更好。这个同样金钱能算的计算量会更多。更快,可能不是首要的考虑因素。
作者
Author:
sobereva    时间: 2022-10-26 14:09
duanxxuan 发表于 2022-10-25 11:20
请问买7R32的话,100个原子以下的体系,找过渡态大概需要多久,就是在找到合适结构的情况呀,几台7R32并 ...

问法太粗糙,一个影响耗时的因素都能影响几倍的耗时
只能告诉你双路7R32已经近乎是单节点的顶配了
想图快就用CP2K,几百原子都没压力


作者
Author:
Ginpiesale    时间: 2022-10-27 15:34
没必要一百台工作站,150W的预算可以上一个比较好的GPU服务器,在加一个存储节点,一个计算节点,IB交换机高速网链接,现有的技术,这几个节点的算力就能满足100台这样的工作站,且占地面积小,电力方面更是少之又少




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3