计算化学公社

 找回密码 Forget password
 注册 Register

服务器配置单求教

查看数: 2220 | 评论数: 18 | 收藏 Add to favorites 1
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2022-10-17 20:31

正文摘要:

请问各位大佬: 我们老师想要建服务器集群,我们的预算大概是150万,想要购买100台服务器。目前最常计算的任务是100-200原子的VASP计算 以及寻找过渡态。 看sobereva老师的配置文章,有以下几个问题,还请大 ...

回复 Reply

Ginpiesale 发表于 Post on 2022-10-27 15:34:56
没必要一百台工作站,150W的预算可以上一个比较好的GPU服务器,在加一个存储节点,一个计算节点,IB交换机高速网链接,现有的技术,这几个节点的算力就能满足100台这样的工作站,且占地面积小,电力方面更是少之又少
sobereva 发表于 Post on 2022-10-26 14:09:47
duanxxuan 发表于 2022-10-25 11:20
请问买7R32的话,100个原子以下的体系,找过渡态大概需要多久,就是在找到合适结构的情况呀,几台7R32并 ...

问法太粗糙,一个影响耗时的因素都能影响几倍的耗时
只能告诉你双路7R32已经近乎是单节点的顶配了
想图快就用CP2K,几百原子都没压力

hgyhgy 发表于 Post on 2022-10-26 09:46:57
duanxxuan 发表于 2022-10-25 11:24
请问楼主,这个IB网络,如果使用40G或56G对效率影响大吗?还有是否可以把集群的集中存储改为各自节点存储 ...

vasp对那个写硬盘什么的速度要求很低的。

而neb对于节点之间通讯要求也很低,应该是不会成为瓶颈的。

多个节点算一个非neb计算的作业,这种才涉及到节点之间通讯性能的问题。

不过,150万,如果没有高速网络,应该也说不过去。

150万,如果就买一台机器,问题也很大,除非就一个人使用机器,那当然是越快越好。如果有许多人,应该是更多机器会更好。这个同样金钱能算的计算量会更多。更快,可能不是首要的考虑因素。
duanxxuan 发表于 Post on 2022-10-26 09:42:38
sss668800 发表于 2022-10-21 16:40
这配置是站长给普通预算紧张用户采购的塔式工作站,用的是垃圾佬的大船货,上面已经有坛友说了,你150万采 ...

好的好的,这个问题我也跟老师说说,我们主要就是计算VASP,可能会找一些过渡态
hgyhgy 发表于 Post on 2022-10-26 09:40:21
duanxxuan 发表于 2022-10-25 11:20
请问买7R32的话,100个原子以下的体系,找过渡态大概需要多久,就是在找到合适结构的情况呀,几台7R32并 ...

你这种规模大,还是去超算中心测试一下,找找同学什么的。

根据过去的经验来说,vasp是不太适合单个节点有太多cpu的机器,会比较浪费机器的能力。

但现在技术进步了,vasp也进步了,过去的经验是否依然成立是有疑问的。

若无具体测试,我是倾向于更多节点,每个节点至多64 cpu或32 cpu。

GPU的会更快,能达到的最快速度更快。但同时更贵。同样金钱,可能能算的计算量会少些,但速度会快些。
abin 发表于 Post on 2022-10-25 22:29:44
duanxxuan 发表于 2022-10-25 11:24
请问楼主,这个IB网络,如果使用40G或56G对效率影响大吗?还有是否可以把集群的集中存储改为各自节点存储 ...

vasp 不支持你说的存储方式。

不过你说的是一种并行存储的实现方式。
配置很麻烦的,还需要硬件支持。

你说的卡,工作在以太网模式,就是40
工作在IB模式,就是56Gbps
Entropy.S.I 发表于 Post on 2022-10-25 13:22:47
本帖最后由 Entropy.S.I 于 2022-10-25 13:27 编辑
duanxxuan 发表于 2022-10-25 11:20
请问买7R32的话,100个原子以下的体系,找过渡态大概需要多久,就是在找到合适结构的情况呀,几台7R32并 ...

如果日常没有几十上百人使用,不推荐建CPU集群。找英伟达咨询DGX或HGX就行了,一台DGX H100能顶你一整套CPU集群,不过目前比较缺货,价格偏高,150万估计不够买8卡机器,4卡的HGX H100肯定足够。即使是用老的DGX A100,也很划算。如果觉得上百万就买了1台机器领导看完会不高兴,那就用性能较弱、较便宜的A100 PCIe 40G,可以买2-3台8卡机器。150万这种不上不下的预算量,跑的还是VASP这种有GPU模式的程序,搞CPU集群非常不合适。
duanxxuan 发表于 Post on 2022-10-25 11:24:12
abin 发表于 2022-10-18 12:22
看看这个 https://hpc4you.github.io

其实, 如果预算是150万的话, 你看配置都没有用的.

请问楼主,这个IB网络,如果使用40G或56G对效率影响大吗?还有是否可以把集群的集中存储改为各自节点存储是否能提高计算速度?谢谢您了
duanxxuan 发表于 Post on 2022-10-25 11:20:18
sobereva 发表于 2022-10-17 23:47
搞不懂干嘛非要买100台服务器
一个双路7R32顶三台多双路2696v3服务器,一台三万左右,还不如买50台双路7R3 ...

请问买7R32的话,100个原子以下的体系,找过渡态大概需要多久,就是在找到合适结构的情况呀,几台7R32并行可以提升速度吗
hgyhgy 发表于 Post on 2022-10-22 10:41:03
你这个钱多,如果想要速度快,显然是购买gpu卡的会比较快呀。
要速度快,就要单台的性能好。vasp的并行效率不太好。

如果不是想速度快,而是研究组的使用人数很多,那么多几台机器,也是可以保证每人任何时候都能用上机器的。

sss668800 发表于 Post on 2022-10-21 16:40:57
这配置是站长给普通预算紧张用户采购的塔式工作站,用的是垃圾佬的大船货,上面已经有坛友说了,你150万采购这些洋垃圾,有人来查就要出事情。

首先,你要确定你所用的程序是纯cpu还是支持gpu加速,这个截图是没有GPU的。
abin 发表于 Post on 2022-10-18 12:33:31
接着楼上说的集群托管费/运维费用.

高性能计算集群, 比较冷门.
专业的IT运维, 没人愿意接这个活的.

如果不需要到现场的话, 兼职运维能搞定的.

或者硬件稳定的话,  其实不需要运维的.
我做的集群系统, 除了添加用户之外, 不需要运维的.
highlight 发表于 Post on 2022-10-18 12:26:55
配置 150w 规模的集群采购,估计都不会优先考虑配置性价比的
申请机房场地、招标采购流程、内部供货商、学校统一规划。。。先把这些关过了再说
在此之外,你也不可能按单机 * 30 or 100 来规划价格,购置机架空调、布线、存储管理配置、IB 网络。。。都得或多或少的额外花钱
最后,这个集群还得有个人来管,考虑到你的提问方式,你或你的导师大概率都不太了解集群管理
少年,你这是已经有跳坑的觉悟了吗
abin 发表于 Post on 2022-10-18 12:22:51
本帖最后由 abin 于 2022-10-18 12:28 编辑

看看这个 https://hpc4you.github.io

其实, 如果预算是150万的话, 你看配置都没有用的.
拆开单机购买, 是违法犯罪行为, 楼上的各种组装方案, 看看就行.

能买到什么机器呢?
去戴尔网站, 自己选选处理器内存, 会得到一个价格.
这个价格乘以0.7, 就是你去找曙光浪潮等商家的计算节点的报价.
保守估计, 双路64核心+256GB内存, 需要6万.

如果做成集群, 采用100GB IB网络, 交换机估计5万起.

150万, 其中20%是存储和网络,
剩下的80%, 是机器.
按照6万计算, 大概是20台.

所以, 结论是, 曙光浪潮这种商家, 会给100GB IB网络 + GPFS存储 + 20台左右机器组成的集群.
适合多节点并行.

至于并行效率, 看具体情形了. VASP+IB, 有测试表明, 8个节点, 效率可以做到80%左右.
(注意, 1个机器算10个小时, 10个机器计算需要1小时, 称为效率100%.)

如果没有IB网络, 仅限单节点多核心并行.
BI网络成本, 能替换为2~3台机器.

或者, 使用VASP GPU方案.
就是楼上说的NVIDIA的DGX主机.

一定要留意, 预算超过10万, 而且还是纵向科研经费, 还琢磨性价比组装的, 基本要违法乱纪了.

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 15:25 , Processed in 0.288475 second(s), 32 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list