请大家帮忙推荐适合作为存储服务器的机架式服务器

Sollovin · 发表于 Post on 2023-8-7 00:19:41

本帖最后由 Sollovin 于 2023-8-7 00:30 编辑

目前研究所有一个公共的计算集群，包含一个登录节点，一个存储节点（30T），几十个计算节点。
最近我们组有个同学的计算需要比较大的存储空间，原来的存储空间已经用得差不多了，我们老板决定买一个存储节点加到集群里去。
现在我们计划的方案是买一个多盘位的机架式服务器加 4 块 16T 机械硬盘装 TrueNAS 组 RAID-Z1（得到 48T），如果后续有需求再往里面加硬盘。

由于并不是私人使用所以不能考虑捡垃圾。需要使用学校的公开招标平台。请大家帮忙推荐合适的服务器型号。

额外的，我自己不太能判断的点有：
1. 是否可以考虑群晖等成品方案？（优点是便于小白维护，缺点是性价比不高。）
2. 是否可以考虑将机架式换成塔式获取更高的性价比？（我们已有独立机房）
3. 是否应该直接使用 RAID 卡而非 TrueNAS 提供的 ZFS 方案？
4. 是否应该配置固态硬盘作为缓存？

也请大家帮忙提提建议。

Entropy.S.I · 发表于 Post on 2023-8-7 11:08:43

本帖最后由 Entropy.S.I 于 2023-8-7 12:00 编辑

几十个计算节点用30TB，令人无语的配置。最近我给某单位设计的一套HPC，7680+1152+64 CPU核，192+8 GPU卡，也是几十个计算节点，光NVMe存储就160TiB，主存储1.5PB。

Synology完全不适用于HPC存储，绝对不要考虑之，否则用户体验生不如死。

TrueNAS也非常不合适，没有RDMA。

机架式和塔式都有盘位巨多的准系统方案或ATX标准机架式机箱，既然有机房，DIY用机架式即可，不能DIY也可找专业的商家提供准系统方案。

几十个计算节点，建议使用并行分布式存储+并行文件系统。

如果对存储IO需求非常低，硬要用单机（根据你的描述，估计基本不能指望你们使用并行分布式存储），请务必考虑可以使用RDMA的操作系统，事实上最方便的反而是Debian、Ubuntu等，而非专门的NAS操作系统。使用OpenZFS，组多个RAID Z1 vdev条带化即可。不需要太高的高可用性，如果要考虑数据安全，请使用定时冷备份，而不是依靠表面上高冗余度的硬盘阵列。不推荐使用传统的硬件RAID卡，因为性能相较于RAID Z没有显著优势。如果是大量NVMe SSD的RAID，那么完全不推荐传统硬件RAID卡，建议考虑GPU加速RAID，性能远强于任何传统RAID方案，前面提到的我设计的HPC，NVMe存储用的就是GPU加速RAID。

SSD缓存非常有必要，单机就用单块NVMe SSD L2ARC + 双块老Optane SSD ZIL，使用L2ARC的前提是RAM已经堆到存储空间的千分之一以上且已经无法继续增加。如果是并行分布式存储，首先应该有独立的RAID 1 （或10）NVMe SSD阵列作为Metadata节点，然后再考虑各个target的配置，target的配置类似于单机方案。

abin · 发表于 Post on 2023-8-7 12:46:31

要么找曙光，浪潮购买，
要么找二楼定制。

前提是，当初这套集群采用的什么架构方案，
采用的什么网络？

如果网络很菜，再高大上的存储产品，
都没有用武之地。

MKai · 发表于 Post on 2023-8-7 15:38:16

群晖的系统比较便于存储，同时可开私有云，传输速度也较快
考虑定制的话也可以用超微的存储系列，多盘位的机器，都可以私信了解

beowulf · 发表于 Post on 2023-8-7 15:39:51

Entropy.S.I 发表于 2023-8-7 11:08
几十个计算节点用30TB，令人无语的配置。最近我给某单位设计的一套HPC，7680+1152+64 CPU核，192+8 GPU卡， ...

没什么无语的，很多量化/vasp用户对io的需求就是这么低。

单个的计算的输入/输出结果以KB和MB计算。

Entropy.S.I · 发表于 Post on 2023-8-7 16:25:19

本帖最后由 Entropy.S.I 于 2023-8-7 16:26 编辑

beowulf 发表于 2023-8-7 15:39
没什么无语的，很多量化/vasp用户对io的需求就是这么低。

单个的计算的输入/输出结果以KB和MB计算 ...

等不够用时再来扩，你就知道有多头疼了。哪怕是分布式存储，扩容都远没有有些人想象的简单。

不考虑矿潮期间的波动，这3年HDD价格几乎没有下降，未来很长一段时间也不可能大幅降价，除非SSD真正做到和HDD一样的容量和价格。一次性把大容量配好才是正道。

Sollovin · 发表于 Post on 2023-8-7 17:19:17

本帖最后由 Sollovin 于 2023-8-7 17:53 编辑

不愧是坛友们，对性能都很有追求。
但是我们这个集群吧，情况其实比较尴尬。我们这边虽然看似有这么多机器，但其实是从2015开始陆陆续续添置起来的。内网只有千兆，一开始是只有一个4T的登录节点同时作为存储节点的，19年我们老板才出钱加上了一个30T的存储节点。在我接手管理之前是浪潮做的一套集群系统，因为中了挖矿病毒，我就基于 OpenHPC 重新做了集群系统。所以，我们集群现在是有大量新旧设备共存的状态。
更麻烦的是，集群并不是某一个老师的，很多老师都往里加了计算节点，但老师们其实不关心性能，他们只要能用就行。所以在这种情况下，我能做的比较有限。

总结大家的建议，可能还是用机架式服务器比较好。
至于系统，请教 @Entropy.S.I ，如果不做跨节点计算，千兆内网有配置 RDMA 的必要吗？

Entropy.S.I · 发表于 Post on 2023-8-7 17:53:53

本帖最后由 Entropy.S.I 于 2023-8-7 17:58 编辑

Sollovin 发表于 2023-8-7 17:19
不愧是坛友们，对性能都很有追求。
但是我们这个集群吧，情况其实比较尴尬。我们这边虽然看似有这么多机器 ...

和我本科课题组情况类似。

这种情况，就是纯粹的一大堆单机，完全不考虑跨节点并行。估计有些节点还是用本地硬盘跑计算任务的。

简单做个带2-4个10G网口的TrueNAS，搭配一台48*1G+若干10G的二层交换机（例如H3C S5048X-EI），NAS到交换机这段做一下链路聚合即可。也没必要考虑RDMA了，千兆Eth搞不了RDMA。

买一套12盘位及以上的机器，盘一次性插满，RAM容量根据存储空间决定，至少要达到存储容量的千分之一以上，否则之后的L2ARC没意义。加上NVMe SSD做L2ARC，L2ARC容量在存储空间的千分之五到百分之一之间。然后去淘宝自费捡两个白菜价的16GB Optane做ZIL，这样就差不多了。最后上tb自费捡两个二手双口10G网卡，100来块钱一个。

顺便说下，RAID Z不要给单个vdev用太多盘，根据ZFS文档，单个vdev用3-9个HDD为佳，更多的盘建议组多个vdev然后条带化。

AIchaosuan666 · 发表于 Post on 2023-8-7 17:56:37

Sollovin 发表于 2023-8-7 17:19
不愧是坛友们，对性能都很有追求。
但是我们这个集群吧，情况其实比较尴尬。我们这边虽然看似有这么多机器 ...

有机房并且是增加节点那肯定是机架式的
像这种情况我之前在北工大碰到过我们可以把你现有的节点做一个整合统一管理

abin · 发表于 Post on 2023-8-7 18:00:01

有两大聪明
第一类
以太网用RDMA，

第二类
使用机械硬盘划出来80GB做SWAP，
用交换分区顶替物理内存使用。

也不是不能用，就是慢嘛……

话说回来，楼主描述的集群，
是典型的本地读写，单机多核心并行计算集群。

用户存储空间，只是用来存放计算结果，
而非存放计算读写数据。

存储是用来放数据而已，基本不用来做I/O，
所以，即便通过PCIe卡，接八个SATA硬盘，
SoftRAID，依旧能解决问题。

如果是计算读写空间不足，那需要考虑给每台机器，
升级安装一个大容量固态，比如2TB 4TB固态，是每台机器都需要。

显然，这套集群，
脚本应该限定，所有计算，单台多核心，并且本地读写，
否则卡死。

我们课题组的集群，就是这么搞的。
存储/登录/管理一台8核心机器搞定， SoftRAID+HDD
集群网络千兆以太网，限定所有计算都在计算节点读写。

常年，登录管理节点，负载低于1.0。
登录节点，网络流量峰值100MB/s，大多数时候，基本没有流量。

每台机器，配置固态硬盘，所有计算运行顺畅。
当然，只能单节点多核心并行。

为何采用这种模式，没钱。搞成这种模式后，管理维护比较方便。

Sollovin · 发表于 Post on 2023-8-7 18:45:11

Entropy.S.I 发表于 2023-8-7 17:53
和我本科课题组情况类似。

这种情况，就是纯粹的一大堆单机，完全不考虑跨节点并行。估计有些节点还是 ...

是的，感觉只能这样了，建议非常具体，万分感谢！

Sollovin · 发表于 Post on 2023-8-7 18:47:49

abin 发表于 2023-8-7 18:00
有两大聪明
第一类
以太网用RDMA，

很好的建议。如果配成像你们课题组那样，那计算节点上的数据与存储节点上的数据可以自动迁移吗？

abin · 发表于 Post on 2023-8-7 20:25:58

Sollovin 发表于 2023-8-7 18:47
很好的建议。如果配成像你们课题组那样，那计算节点上的数据与存储节点上的数据可以自动迁移吗？

全自动。

这里有我们使用的调度脚本。

gitee.com/hpc4you/redstar

Sollovin · 发表于 Post on 2023-8-8 11:14:10

abin 发表于 2023-8-7 20:25
全自动。

这里有我们使用的调度脚本。

好的，我看下，谢谢

myemo · 发表于 Post on 2023-8-15 10:52:31

我们这边也是类似的情况，前不久刚扩容了，上了一个二线品牌的4U36盘位服务器，品牌就不说了，免得广告，配置是三代4310处理器+128G内存+16块16T的银河盘+2个SSD，交换机也是千兆48口的，但是有2个万兆扩展口，把服务器接万兆，TrueNas搞了RAIZ2，zfs共享，实际上能跑带800多M,很满足了，比之前那个千兆的快了差不多7-8倍。
什么RDMA,分布式，冷热数据，什么RTX IO DirectStorage ，Graid,我们也想上。
但老板就那么点预算，有钱多不如买2块硬盘多加2块GPU跑得快点，不用老是抢任务。
我觉得还是看预算，统一集采有钱就上高大上点的，项目制没钱就实用为主，买个二线的服务器+SSD缓存自己搞个系统先跑起来完成项目，无非就是快点慢点，使用简单点复杂点的问题，先解决有无，再讨论其他。担心计算结果安全性问题，我这边基本自己导到老存储归档，或者自己再次备份到外部存储。

		自动登录 Automatic login	找回密码 Forget password
密码 Password			注册 Register

[配置讨论] 请大家帮忙推荐适合作为存储服务器的机架式服务器