计算化学公社

标题: 请大家帮忙推荐适合作为存储服务器的机架式服务器 [打印本页]

作者
Author:
Sollovin    时间: 2023-8-7 00:19
标题: 请大家帮忙推荐适合作为存储服务器的机架式服务器
本帖最后由 Sollovin 于 2023-8-7 00:30 编辑

目前研究所有一个公共的计算集群,包含一个登录节点,一个存储节点(30T),几十个计算节点。
最近我们组有个同学的计算需要比较大的存储空间,原来的存储空间已经用得差不多了,我们老板决定买一个存储节点加到集群里去。
现在我们计划的方案是买一个多盘位的机架式服务器加 4 块 16T 机械硬盘装 TrueNAS 组 RAID-Z1(得到 48T),如果后续有需求再往里面加硬盘。

由于并不是私人使用所以不能考虑捡垃圾。需要使用学校的公开招标平台。请大家帮忙推荐合适的服务器型号。

额外的,我自己不太能判断的点有:
1. 是否可以考虑群晖等成品方案?(优点是便于小白维护,缺点是性价比不高。)
2. 是否可以考虑将机架式换成塔式获取更高的性价比?(我们已有独立机房)
3. 是否应该直接使用 RAID 卡而非 TrueNAS 提供的 ZFS 方案?
4. 是否应该配置固态硬盘作为缓存?

也请大家帮忙提提建议。


作者
Author:
Entropy.S.I    时间: 2023-8-7 11:08
本帖最后由 Entropy.S.I 于 2023-8-7 12:00 编辑

几十个计算节点用30TB,令人无语的配置。最近我给某单位设计的一套HPC,7680+1152+64 CPU核,192+8 GPU卡,也是几十个计算节点,光NVMe存储就160TiB,主存储1.5PB。

Synology完全不适用于HPC存储,绝对不要考虑之,否则用户体验生不如死。

TrueNAS也非常不合适,没有RDMA。

机架式和塔式都有盘位巨多的准系统方案或ATX标准机架式机箱,既然有机房,DIY用机架式即可,不能DIY也可找专业的商家提供准系统方案。

几十个计算节点,建议使用并行分布式存储+并行文件系统。

如果对存储IO需求非常低,硬要用单机(根据你的描述,估计基本不能指望你们使用并行分布式存储),请务必考虑可以使用RDMA的操作系统,事实上最方便的反而是Debian、Ubuntu等,而非专门的NAS操作系统。使用OpenZFS,组多个RAID Z1 vdev条带化即可。不需要太高的高可用性,如果要考虑数据安全,请使用定时冷备份,而不是依靠表面上高冗余度的硬盘阵列。不推荐使用传统的硬件RAID卡,因为性能相较于RAID Z没有显著优势。如果是大量NVMe SSD的RAID,那么完全不推荐传统硬件RAID卡,建议考虑GPU加速RAID,性能远强于任何传统RAID方案,前面提到的我设计的HPC,NVMe存储用的就是GPU加速RAID。

SSD缓存非常有必要,单机就用单块NVMe SSD L2ARC + 双块老Optane SSD ZIL,使用L2ARC的前提是RAM已经堆到存储空间的千分之一以上且已经无法继续增加。如果是并行分布式存储,首先应该有独立的RAID 1 (或10)NVMe SSD阵列作为Metadata节点,然后再考虑各个target的配置,target的配置类似于单机方案。
作者
Author:
abin    时间: 2023-8-7 12:46
要么找曙光,浪潮购买,
要么找二楼定制。

前提是,当初这套集群采用的什么架构方案,
采用的什么网络?

如果网络很菜,再高大上的存储产品,
都没有用武之地。

作者
Author:
MKai    时间: 2023-8-7 15:38
群晖的系统比较便于存储,同时可开私有云,传输速度也较快
考虑定制的话也可以用超微的存储系列,多盘位的机器,都可以私信了解
作者
Author:
beowulf    时间: 2023-8-7 15:39
Entropy.S.I 发表于 2023-8-7 11:08
几十个计算节点用30TB,令人无语的配置。最近我给某单位设计的一套HPC,7680+1152+64 CPU核,192+8 GPU卡, ...

没什么无语的,很多量化/vasp用户对io的需求就是这么低。

单个的计算的输入/输出结果以KB和MB计算。

作者
Author:
Entropy.S.I    时间: 2023-8-7 16:25
本帖最后由 Entropy.S.I 于 2023-8-7 16:26 编辑
beowulf 发表于 2023-8-7 15:39
没什么无语的,很多量化/vasp用户对io的需求就是这么低。

单个的计算的输入/输出结果以KB和MB计算 ...

等不够用时再来扩,你就知道有多头疼了。哪怕是分布式存储,扩容都远没有有些人想象的简单。

不考虑矿潮期间的波动,这3年HDD价格几乎没有下降,未来很长一段时间也不可能大幅降价,除非SSD真正做到和HDD一样的容量和价格。一次性把大容量配好才是正道。
作者
Author:
Sollovin    时间: 2023-8-7 17:19
本帖最后由 Sollovin 于 2023-8-7 17:53 编辑

不愧是坛友们,对性能都很有追求。
但是我们这个集群吧,情况其实比较尴尬。我们这边虽然看似有这么多机器,但其实是从2015开始陆陆续续添置起来的。内网只有千兆,一开始是只有一个4T的登录节点同时作为存储节点的,19年我们老板才出钱加上了一个30T的存储节点。在我接手管理之前是浪潮做的一套集群系统,因为中了挖矿病毒,我就基于 OpenHPC 重新做了集群系统。所以,我们集群现在是有大量新旧设备共存的状态。
更麻烦的是,集群并不是某一个老师的,很多老师都往里加了计算节点,但老师们其实不关心性能,他们只要能用就行。所以在这种情况下,我能做的比较有限。

总结大家的建议,可能还是用机架式服务器比较好。
至于系统,请教 @Entropy.S.I ,如果不做跨节点计算,千兆内网有配置 RDMA 的必要吗?
作者
Author:
Entropy.S.I    时间: 2023-8-7 17:53
本帖最后由 Entropy.S.I 于 2023-8-7 17:58 编辑
Sollovin 发表于 2023-8-7 17:19
不愧是坛友们,对性能都很有追求。
但是我们这个集群吧,情况其实比较尴尬。我们这边虽然看似有这么多机器 ...

和我本科课题组情况类似。

这种情况,就是纯粹的一大堆单机,完全不考虑跨节点并行。估计有些节点还是用本地硬盘跑计算任务的。

简单做个带2-4个10G网口的TrueNAS,搭配一台48*1G+若干10G的二层交换机(例如H3C S5048X-EI),NAS到交换机这段做一下链路聚合即可。也没必要考虑RDMA了,千兆Eth搞不了RDMA。

买一套12盘位及以上的机器,盘一次性插满,RAM容量根据存储空间决定,至少要达到存储容量的千分之一以上,否则之后的L2ARC没意义。加上NVMe SSD做L2ARC,L2ARC容量在存储空间的千分之五到百分之一之间。然后去淘宝自费捡两个白菜价的16GB Optane做ZIL,这样就差不多了。最后上tb自费捡两个二手双口10G网卡,100来块钱一个。

顺便说下,RAID Z不要给单个vdev用太多盘,根据ZFS文档,单个vdev用3-9个HDD为佳,更多的盘建议组多个vdev然后条带化。

作者
Author:
AIchaosuan666    时间: 2023-8-7 17:56
Sollovin 发表于 2023-8-7 17:19
不愧是坛友们,对性能都很有追求。
但是我们这个集群吧,情况其实比较尴尬。我们这边虽然看似有这么多机器 ...

有机房并且是增加节点那肯定是机架式的
像这种情况我之前在北工大碰到过 我们可以把你现有的节点做一个整合统一管理
作者
Author:
abin    时间: 2023-8-7 18:00
有两大聪明
第一类
以太网用RDMA,


第二类
使用机械硬盘划出来80GB做SWAP,
用交换分区顶替物理内存使用。

也不是不能用,就是慢嘛……


话说回来,楼主描述的集群,
是典型的本地读写,单机多核心并行计算集群。

用户存储空间,只是用来存放计算结果,
而非存放计算读写数据。

存储是用来放数据而已,基本不用来做I/O,
所以,即便通过PCIe卡,接八个SATA硬盘,
SoftRAID,依旧能解决问题。

如果是计算读写空间不足,那需要考虑给每台机器,
升级安装一个大容量固态,比如2TB 4TB固态,是每台机器都需要。

显然,这套集群,
脚本应该限定,所有计算,单台多核心,并且本地读写,
否则卡死。


我们课题组的集群, 就是这么搞的。
存储/登录/管理一台8核心机器搞定, SoftRAID+HDD
集群网络千兆以太网, 限定所有计算都在计算节点读写。

常年, 登录管理节点, 负载低于1.0。
登录节点, 网络流量峰值100MB/s, 大多数时候, 基本没有流量。

每台机器, 配置固态硬盘, 所有计算运行顺畅。
当然, 只能单节点多核心并行。

为何采用这种模式, 没钱。 搞成这种模式后, 管理维护比较方便。
作者
Author:
Sollovin    时间: 2023-8-7 18:45
Entropy.S.I 发表于 2023-8-7 17:53
和我本科课题组情况类似。

这种情况,就是纯粹的一大堆单机,完全不考虑跨节点并行。估计有些节点还是 ...

是的,感觉只能这样了,建议非常具体,万分感谢!
作者
Author:
Sollovin    时间: 2023-8-7 18:47
abin 发表于 2023-8-7 18:00
有两大聪明
第一类
以太网用RDMA,

很好的建议。如果配成像你们课题组那样,那计算节点上的数据与存储节点上的数据可以自动迁移吗?
作者
Author:
abin    时间: 2023-8-7 20:25
Sollovin 发表于 2023-8-7 18:47
很好的建议。如果配成像你们课题组那样,那计算节点上的数据与存储节点上的数据可以自动迁移吗?

全自动。

这里有我们使用的调度脚本。

gitee.com/hpc4you/redstar
作者
Author:
Sollovin    时间: 2023-8-8 11:14
abin 发表于 2023-8-7 20:25
全自动。

这里有我们使用的调度脚本。

好的,我看下,谢谢
作者
Author:
myemo    时间: 2023-8-15 10:52
我们这边也是类似的情况,前不久刚扩容了,上了一个二线品牌的4U36盘位服务器,品牌就不说了,免得广告,配置是三代4310处理器+128G内存+16块16T的银河盘+2个SSD,交换机也是千兆48口的,但是有2个万兆扩展口,把服务器接万兆,TrueNas搞了RAIZ2,zfs共享,实际上能跑带800多M,很满足了,比之前那个千兆的快了差不多7-8倍。
什么RDMA,分布式,冷热数据,什么RTX IO DirectStorage ,Graid,我们也想上。
但老板就那么点预算,有钱多不如买2块硬盘多加2块GPU跑得快点,不用老是抢任务。
我觉得还是看预算,统一集采有钱就上高大上点的,项目制没钱就实用为主,买个二线的服务器+SSD缓存自己搞个系统先跑起来完成项目,无非就是快点慢点,使用简单点复杂点的问题,先解决有无,再讨论其他。担心计算结果安全性问题,我这边基本自己导到老存储归档,或者自己再次备份到外部存储。
作者
Author:
Sollovin    时间: 2023-8-19 16:42
myemo 发表于 2023-8-15 10:52
我们这边也是类似的情况,前不久刚扩容了,上了一个二线品牌的4U36盘位服务器,品牌就不说了,免得广告,配 ...

是的,我们最后也配了个差不多的,哈哈。2颗4210,8块16T机械加2块SSD做缓存。

额外问下,你们文件共享是用 NFS 还是 SAMBA?我在虚拟机上测试 TrueNAS 上的 NFS 共享时遇到点问题。
我们集群的账号是通过 NIS(YP) 共享的,TrueNAS 上配 NIS 老是不成功,导致分享出来的 NFS 目录没有写权限。
作者
Author:
RES    时间: 2024-7-8 11:24
您好,借楼问一下:我们计算的结果或者是临时文件如何存储到存储服务器,我看服务器一直有个45T的盘没用到,但是计算的那个盘却满了,无法计算,需要一直清临时文件。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3