|
本帖最后由 abin 于 2022-11-21 23:19 编辑
管理节点,
仅仅负载SSH登录的话, 一个普通的机器都搞定了.
我这里, 本地I/O集群,
千兆网络.
登录节点, 同时承担存储管理.
起初, 12个3TB硬盘, RAID5.
后来更换为5个4TB, RAID5. 因为盘挂了.
配备8核心+32GB内存, 常年负载低于1.0, 内存利用率80%.
计算节点, 最多时候23台.
至于存储, 要根据实际需求来定制.
传统的NFS, 配备一定数量的内存就搞定了.
如果采用GFS等并行文件系统, 至少需要三个独立的机器来做数据节点, 还需要网络配合.
你预算就顶天30台机器, 使用并行文件系统不太可能.
况且, 商用存储, 只管卖, 不管调试的.
买个大型存储, 不会配置, 不会使用, 也很糟糕的.
没有多节点并行计算的强烈需求的话,
使用本地I/O配置, 这个时候, 存储仅仅负载存放数据.
那么使用普通的网络就可以搞定了.
我提到的链接, https://hpc4you.github.io, 里面分析了各种可能的配置方案.
分享一个具体案例.
计算都是单节点跑,
大家指定需要Intel+内存.
电话问供应商, 现在值8369B较为核算, 而且有现货.
所以, 计算节点, 8369B x2 + 32GB x 16 + 240GB SATA + 2TB NVMe 4台;
管理、登录+存储节点, 8156 x 2 + 32 GB x 2 + 240GB SATA + 1TB SATA + 16 TB HDD x 3.
不要阵列卡.
HDD存放数据, 其中一个是热数据备份.
1TB SATA是App专用硬盘.
240GB SATA是系统盘. 原来计划采用120GB, 但是没有现货, 240GB贵10元.
板载千兆+IPMP.
采用Intra-node Local-I/O方案.
|
|