我来写点想法.
如果计算都是单机多核心跑, 没有必要使用IB网络设备.
如果的确计算多机器多核心并行跑, IB是必备的.
但是吧, IB不是插上去就可以用.
举个例子, IB配置正确, 至少56Gbps IB,
网络读写, 至少1.3GB/s,
做顺序读写测试, 128进程, 4K随机读写
Jobs: 128 (f=128): [r(128)][100.0%][r=504MiB/s][r=129k IOPS][eta 00m:00s
也就是IOPS可以至少129K.
但是不会配置, 网络读写, 大概之后600MB/s, 4K读写就很差劲了.
3块16TB硬盘, 是用来搞笑的吗? 不要告诉我你用来做RAID5.
管理节点, 用不到那么高的配置.
因为你机器不多,就算是采用IB网络,
管理兼任存储的话, CPU也要负责部分RDMA开销, 使用8核心16线程的一颗处理器就搞定了.
配置64GB或者128GB内存是必须的, 用来做缓存.
IB还有一个要命的地方是, MPI未必能开箱即用, 需要调试.
一个简单的判据是: 安装btop, 如果机器多节点运行, btop显示网卡ib0等, 有巨量的网络流量,
那么恭喜你, 你的IB是配置错误的. 多节点计算很慢的.
注意, 我再重复一次:
一个简单的判据是: 安装btop, 如果机器多节点运行, btop显示网卡ib0, 或者ib1, 具体名称不同, 有巨量的网络流量,
那么恭喜你, 你的IB是配置错误的. 多节点计算很慢的. 对这种情况, IB是配置错误的.
对了,
如果你还没有搞定你的需求, 我和朋友的公司, 可以对接你提到的需求.
另, 集群配置可以参考 https://hpc4you.github.io/ |