计算化学公社

标题: 实验室采购集群配置请教 [打印本页]

作者
Author:
yaohaozhe    时间: 2022-1-26 17:13
标题: 实验室采购集群配置请教
本帖最后由 yaohaozhe 于 2022-1-26 17:28 编辑

实验室最近计划采购一个小集群,预算含税20w,主要做分子虚筛和动力学模拟,未来预期可能会有设计机器学习和深度学习,需要满足这部分需求。
node1是已有的一台主机,塔式的,这一次就想买机箱装进去即可,加一块infiniband网卡编入集群。node2~3不含GPU,node4~5含GPU,node00承担了任务提交和存储的功能。
预期设计含一块infiniband8口交换机,洋垃圾。主板自带的千兆网用来承担指令和外部数据传输。
整合sob大神给的配置,自己写的,供货商粗略报价。
(, 下载次数 Times of downloads: 23)
infiniband之前从没有用过,不知道水多深,看板上大佬说还要license,供货商跟我说不需要,就有点迷。还请大佬们审核一下,有无问题,叩谢大佬们!

作者
Author:
abin    时间: 2022-1-26 19:13
我之前给你的回复, 估计你没有仔细看.

当前配置中, 本地的读写空间少, 规格太低;
如果通过IB网络使用管理节点存储, 那么你的RAID阵列读写性能太差劲,
会严重拖慢IB网络.

如果所有的多机器并行读写, 都在内存内能完成.
存储规格就无所谓了.

IB交换机是否需要额外的授权,
取决于功能模块. 具体咨询售前技术咨询.

另, 如需基于当前硬件的更优的集群配置实施方案, 请联系我.
我实在懒得打字.

或者你可以B站查询abbottcn的视频, 自信调整集群方案.


作者
Author:
biogon    时间: 2022-1-26 21:08
本帖最后由 biogon 于 2022-1-26 21:10 编辑

is5022什么破烂玩意也报价3000,现在全都是N手的,一般也就卖1000,而且这玩意是40g的,配个56g的卡简直是浪费,起码得买56g的sx6012 15 25 36之类的
ib的lic随便就能破解,不是什么障碍

作者
Author:
yaohaozhe    时间: 2022-1-27 09:37
abin 发表于 2022-1-26 19:13
我之前给你的回复, 估计你没有仔细看.

当前配置中, 本地的读写空间少, 规格太低;

谢谢老师,我看了您的建议,可能还是没有彻底领会您的意思,我再研究研究,太感谢您了。
作者
Author:
yaohaozhe    时间: 2022-1-27 09:38
本帖最后由 yaohaozhe 于 2022-1-27 12:43 编辑
biogon 发表于 2022-1-26 21:08
is5022什么破烂玩意也报价3000,现在全都是N手的,一般也就卖1000,而且这玩意是40g的,配个56g的卡简直是浪费, ...

谢谢您,这一块您能再给点建议吗,ib这块我真的不懂,咋破呀。老板就给了个采购任务,我实在是怕给他搞了一堆铁疙瘩回去————————————————————————————————————
更新:
又联系了一家,给了这个价格,便宜了近一半,我再去研究研究abin老师的视频去
(, 下载次数 Times of downloads: 27)

作者
Author:
abin    时间: 2022-1-27 11:54
本帖最后由 abin 于 2022-1-27 13:23 编辑

去B站翻我的动态,
有一款12端口的IB交换机。
有没有货,就不晓得了。

基础的局域网互联,不需要额外的授权。

56 Gbps IB网络,
工作在以太网模式,就是40 Gbps。
注意,这种网卡,
至少需要PCIe 3.0 x8接口。



更新一下,
当时的信息内容是:
abbottcn
2021-04-14 14:08
6.0微EAbPXcLy4zh! https://m.tb.cn/h.4LmC577?sm=45b339  40G以太网卡/56G IB网卡/Mellanox MCX353A-FCBT FCCT MCX354A 买两个卡,两个模块,一条线,双机做VASP并行计算,会爽歪歪的。

有没有货, 不清楚.

IB交换机, 很少有8端口, 12端口的货品.








作者
Author:
yaohaozhe    时间: 2022-1-27 12:40
abin 发表于 2022-1-27 11:54
去B站翻我的动态,
有一款12端口的IB交换机。
有没有货,就不晓得了。

老师,您看我这个更改可以吗?加个硬raid卡,组raid5,2Tnvme固态,这样瓶颈还会很严重吗? (, 下载次数 Times of downloads: 24)
我这就去翻您的视频,谢谢老师了

作者
Author:
abin    时间: 2022-1-27 13:26
yaohaozhe 发表于 2022-1-27 12:40
老师,您看我这个更改可以吗?加个硬raid卡,组raid5,2Tnvme固态,这样瓶颈还会很严重吗?
我这就去翻 ...

你问问卖家呀,
这个阵列卡, 理论读写上限是多少呀?

好几个月前,
一个网友找我, 问链接的高性能I/O方案,
我推荐的是, HighPoint RAID卡, 安装4个NVMe 1 TB固态. RAID0, 读写可以做到4GB/s.

方案灵活多样,
我不卖硬件, 只能给你提供大体的配置方案, 你自己实施或者让卖家实施.


作者
Author:
biogon    时间: 2022-1-27 14:23
yaohaozhe 发表于 2022-1-27 09:38
谢谢您,这一块您能再给点建议吗,ib这块我真的不懂,咋破呀。老板就给了个采购任务,我实在是怕给他搞了 ...

都说了不要用is5022不明白吗,用sx60xx的56g交换机
作者
Author:
yaohaozhe    时间: 2022-1-27 16:07
biogon 发表于 2022-1-27 14:23
都说了不要用is5022不明白吗,用sx60xx的56g交换机

谢谢老师,已根据您的意见修改。之前想的省省钱的,就把网卡也降档了,看来不能省
作者
Author:
yaohaozhe    时间: 2022-1-27 16:08
abin 发表于 2022-1-27 13:26
你问问卖家呀,
这个阵列卡, 理论读写上限是多少呀?

谢谢老师,参数上号称是12gb/s
作者
Author:
abin    时间: 2022-1-27 18:29
yaohaozhe 发表于 2022-1-27 16:08
谢谢老师,参数上号称是12gb/s


12Gbps, 是SAS盘接口
6Gbps,是SATA 3.0 的理论上限。
6Gbps 实际写上限不到?650MB/s。


你如果实在搞不定的话,找个靠谱的公司协助你处理吧。
单机工作站好摆弄,
集群,如果配置不当,短板效应折腾死你。


作者
Author:
yaohaozhe    时间: 2022-1-28 13:10
abin 发表于 2022-1-27 18:29

12Gbps, 是SAS盘接口
6Gbps,是SATA 3.0 的理论上限。

哎,我也想找个公司拉倒,那个包方案的公司特别贵,老板又不想从他那采购。只能是自己干了,还有时间,一点一点改把,实在是太感谢老师您了
作者
Author:
abin    时间: 2022-1-28 14:26
yaohaozhe 发表于 2022-1-28 13:10
哎,我也想找个公司拉倒,那个包方案的公司特别贵,老板又不想从他那采购。只能是自己干了,还有时间,一 ...

淘宝上的报价, 大概是
5000+ 200 x 机器数.

如果包含IB网络配置, 纯IB直通,
5000 + 500 x 机器数.

如果包含上门, + 3000元.

以上是淘宝上一个公司的报价.

如果你有技能,
可以使用我的工具, 自己搭建.
我写的工具, 基本是按顺序执行即可.  前提是自己把所有机器配置到一个局域网.
具体查看签名链接.

另, 至少十多万的设备, 通过适当的技术, 改造为专用的计算平台,
你认为, 这个改造技术需要多少费用?
如果花500元能把价值10万的设备变成专用计算平台, 你是不是觉得这个技术本身就不靠谱?
作者
Author:
biogon    时间: 2022-1-28 15:19
本帖最后由 biogon 于 2022-1-28 15:22 编辑
yaohaozhe 发表于 2022-1-27 16:07
谢谢老师,已根据您的意见修改。之前想的省省钱的,就把网卡也降档了,看来不能省

想省钱用不到200的hpe 544flr呗,和cx354a bcbt一样是56g的ib卡,比cx354a bcct便宜多了
作者
Author:
abin    时间: 2022-1-28 17:02
上面应该已经有提及。
如果涉及使用多机器多核心并行,
IB网络是必备的。
对于这种场景,还要考虑是否配备相应的I/O设备。

如果不涉及多机器并行计算,
任何并行都是单机多核心并行,
如果I/O做本地负载,
那么普通网络都可以搞定。
但是涉及通过网络读写,
就是计算节点无系统盘,或者无I/O设备,
那么需要借助IB网络做读写。
做配置的时候,要留意读写能否跟上需求。

当然是越快越好,问题是,你的预算够不够。

NVMe四个做RAID实现高速缓存,很不错。
但是普通的卡不支持的。

业余的技术会告诉你,
用RAID5,SATA3.0 是650MB/s。
你用11个盘组阵列,
不就是6.5GB/a了吗?
哈哈哈哈哈,你让这种技术去死吧。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3