计算化学公社

标题: 请教集群配置问题 [打印本页]

作者
Author:
weizhuang    时间: 2023-12-8 21:53
标题: 请教集群配置问题
各位老师、同行,组里想组一个小集群,1000核左右,主要用来跑vasp和MD,请问图里的硬件搭配合理吗?有没有缺必要的硬件,或者需要改进的地方?十分感谢!
(, 下载次数 Times of downloads: 30)

作者
Author:
Picardo    时间: 2023-12-8 22:26
电源还是上1000w比较好,我实测整机满载700W+。
作者
Author:
anson    时间: 2023-12-8 23:30
2樓説得對,確實上1000W電源留更多冗餘會好些。而且跑MD不上個顯卡咩?還是説打算純CPU來跑MD?
作者
Author:
Entropy.S.I    时间: 2023-12-9 00:25
http://bbs.keinsci.com/thread-40486-1-1.html
页面搜索“希捷”
作者
Author:
abin    时间: 2023-12-9 08:29
存储是硬伤.

VASP还好,
MD可能涉及频繁I/O操作, 当前的存储设定会很糟糕的.

另数据重要的话, 记得备份.
单盘容量如此高, 一旦出现某一个盘故障, 数据恢复的可能性极低.
作者
Author:
abin    时间: 2023-12-9 13:32
本帖最后由 abin 于 2023-12-9 13:55 编辑

如果经费有限, 可以采用下面的方案处理.

如果硬件可以修改,
可以做如下调整:

# 计算节点
当前的512GB固态,
更换为 SATA 256GB固态一个 + 1TB/2TB NVMe固态

电源根据实际需要修改.

如果考虑后期加装GPU卡, 2U机箱操, 选择空间较小.


# 管理节点
如果无法保证管理员手残这种事情,
请考虑采用SATA接口固态硬盘, 256GB这种, 做系统盘, 要两块, 克隆备用.

1个1TB SATA, 单独/opt, 做软件.

保留当前HDD阵列设定, 只用来做用户数据存储.

额外装一个硬盘上去, 不用RADI接管, 做冷盘备份, 定期备份/opt里面的内容到该备份硬盘.
如果能保证“管理员手残”这种破事不发生, /opt备份可以忽略.


# 集群数据读写规划
单节点任务, 做本地读写, 读写性能是1TB/2TB固态硬盘性能上限.

多节点任务, 比如VASP, 基本不需要Disk I/O, 真正的I/O在于IB网络, 可以无视磁盘I/O问题.

其他需要依赖Disk I/O的多节点并行任务, 可以采用“分布式并行文件系统”来解决.  
我有方案, 在当前的硬件上解决, 无需购置其他存储设备. 如有兴致, 可以联系我.

不过我认为不存在物美价廉的事物.
我的解决方案, 成本比硬件设备低廉很多, 但是前提是, 计算用户, 使用管理员指定的脚本模版, 如果修改错了, 读写会跑到HDD阵列上去, 性能会差很多的.







欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3