计算化学公社

标题: 课题组需要购置计算集群,请各位老师帮忙看下配置是否合理,谢谢! [打印本页]

作者
Author:
dulit    时间: 2022-10-18 15:12
标题: 课题组需要购置计算集群,请各位老师帮忙看下配置是否合理,谢谢!
各位老师好,课题组打算采购服务器集群,预算100万以内,主要用AMBER、NAMD,Gaussian,还有做些真菌基因组分析。请帮忙看下下面的配置是否合理,谢谢!
(, 下载次数 Times of downloads: 40)
作者
Author:
abin    时间: 2022-10-18 15:43
原来商业部署费用这么高呀?
看来, 我调试一套10节点集群+IB网络, 要了几千元, 太亏了.

这套集群, 可能有一个严重的问题,
那就是I/O短板.

当前配置, 显然I/O是走网络的.
如果配置描述万兆双口, 是传统的10GbE的话, 其实也就那样了.
或者使用的是25GbE, 但是无论如何, 都是以太网.

I/O走网络, 还是用IB吧. 以太网延时较高的. 如果你的计算有比较多的I/O的话, 效果很糟糕.
别听外行给你讲, ROCE效果很好的, 都是扯犊子.

高性能领域, IB是正确的选择, 就是贵.

其他硬件搭配, 是曙光, 浪潮等商家的传统配置策略, 如果变更, 代价很高的.
显然, 内存搭配, 不太适合.
GPU节点也需要16个内存条的.

其实, 可以考虑, 采购一台多卡GPU机器.
比如安装4个或者8个GPU.
其他机器都做纯CPU节点.


机器具备远程IPMI管理, 才是最有用的,
KVM这种, 没啥太大用处.

另外, 存储, 如果是做GPFS或者其他的并行文件系统,
还有点意义.
如果是单纯的磁盘阵列的话, 那就太鸡肋了.

不评价价格.

另外, 我听闻4090系列, 因为会把自己热死了, 取消出售计划了.
作者
Author:
Entropy.S.I    时间: 2022-10-18 15:52
本帖最后由 Entropy.S.I 于 2022-10-18 15:55 编辑
abin 发表于 2022-10-18 15:43
原来商业部署费用这么高呀?
看来, 我调试一套10节点集群+IB网络, 要了几千元, 太亏了.

RTX4080 12GB由于“名称不合适”取消发售。RTX4090没有取消,据小道消息称是第一批的vbios有问题,全面返工,所以至今难以买到。

另外,一般的服务器电源以及散热都无法支持4块RTX4090

作者
Author:
dulit    时间: 2022-10-18 15:53
感谢您的指点,还有个厂商给了如下配置:
(, 下载次数 Times of downloads: 43)
作者
Author:
Entropy.S.I    时间: 2022-10-18 15:57
dulit 发表于 2022-10-18 15:53
感谢您的指点,还有个厂商给了如下配置:

A40已过时,应当使用L40。价格无法评价
作者
Author:
abin    时间: 2022-10-18 15:59
Entropy.S.I 发表于 2022-10-18 15:52
RTX4080 12GB由于“名称不合适”取消发售。RTX4090没有取消,据小道消息称是第一批的vbios有问题,全面返 ...

我看到的信息是
Nvidia RTX 4090  Ti is reportedly cancelled due to melting itself.


作者
Author:
abin    时间: 2022-10-18 16:02
dulit 发表于 2022-10-18 15:53
感谢您的指点,还有个厂商给了如下配置:

依旧I/O是短板。

我又不卖这个东西。
商家也不负技术咨询费。

你们自己看着买就行了。
肯定能用,
至于用得爽不爽,就不一定了。

这家是浪潮的配置吧?

东西交付后,如果感觉不爽,
比如卡顿,商家肯定说,
你花钱换存储换网络吧。
作者
Author:
dulit    时间: 2022-10-18 16:04
对,第二个是浪潮给的报价,感觉价格太高了。
作者
Author:
abin    时间: 2022-10-18 16:14
你可以自己动手修改配置,
看看戴尔同样的配置,
需要多少钱,

你在哪个页面停留一会儿,会有人主动联系你的。

商用服务器就是这么贵呀。
本来,浪潮就是价格偏高的。

作者
Author:
dulit    时间: 2022-10-18 16:19
嗯,我现在就是在看这些配置,还没上报给学校最终的参数要求。下面是戴尔的报价,总价120万
(, 下载次数 Times of downloads: 40)
作者
Author:
Entropy.S.I    时间: 2022-10-18 16:23
dulit 发表于 2022-10-18 16:19
嗯,我现在就是在看这些配置,还没上报给学校最终的参数要求。下面是戴尔的报价,总价120万

A30跑AMBER、NAMD非常的垃圾。虽然你们富得流油,但我还是想说一句,最好别把钱花在刀把儿上,到时候花了上百万可能还不如别人十万的单机跑得快。
作者
Author:
biogon    时间: 2022-10-18 16:32
dulit 发表于 2022-10-18 16:19
嗯,我现在就是在看这些配置,还没上报给学校最终的参数要求。下面是戴尔的报价,总价120万

这个cpu配的还算是正常,比前面两个阴间配置好多了,计算节点配阵列卡干嘛,gpu节点更是不需要那么多内存
作者
Author:
dulit    时间: 2022-10-18 16:32
感谢您的建议,我不太懂硬件,所以需要参考各位的意见上报参数。这几个厂商给的配置感觉都有问题。其实也不一定要配置存储,因为之前用过曙光的,存储一个硬盘出现坏道,结果整个管理节点都不能用了。如果不配置存储的话,数据是怎么存放的?是不是每台计算服务器配置大容量的硬盘就可以。
作者
Author:
abin    时间: 2022-10-18 16:34
如果用不到多节点并行,
那就万兆以太网就可以了。
这个时候,存储就是放数据而已。

可以使用https://hpc4you.github.io 提到的local I/O集群方案。

作者
Author:
dulit    时间: 2022-10-18 16:37
应该是不会用到多节点并行,感谢您的建议
作者
Author:
abin    时间: 2022-10-18 18:11
单机多核心并行,
那就是选定处理器,
配满内存通道
一个系统盘,其实30GB都够用。
一个高速读写盘,
所有的计算节点都这么配置。

数据存放,可以用普通阵列
或者大容量硬盘,挂载到登录管理机器。

容量根据实际需求选择。

登录管理节点,
8核心或者16核心,
配置64GB内存。
一个系统盘,
一个软件盘,
然后是数据盘。

可以通过调度器来规划读写到计算节点读写。
不过需要管理员,警告用户,不要乱改脚本,
否则卡死。

集群系统,可以提高机器利用效率,
方便计算任务管理。

什么花里胡哨的并行文件系统,
你的应用场景,都用不上的。

当然,如果我是管理员,机器让我来运维,
当然是要求有IB,并且有并行文件系统,
任何节点做读写,都要满足2GB/s以上,
要求有互联网可用的配置安全措施的IPMI。

然后管理员就很轻松了,
就真的只有添加用户,删除用户的事情了。
开机关机,也不用去现场,点鼠标就行了。
如果硬件故障,当然是喊硬件商上门了。

作者
Author:
dulit    时间: 2022-10-19 08:37
abin 发表于 2022-10-18 18:11
单机多核心并行,
那就是选定处理器,
配满内存通道

非常感谢您给的建议!




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3