计算化学公社

 找回密码 Forget password
 注册 Register
Views: 2231|回复 Reply: 16
打印 Print 上一主题 Last thread 下一主题 Next thread

[配置讨论] 请大家帮忙推荐适合作为存储服务器的机架式服务器

[复制链接 Copy URL]

7

帖子

0

威望

87

eV
积分
94

Level 2 能力者

本帖最后由 Sollovin 于 2023-8-7 00:30 编辑

目前研究所有一个公共的计算集群,包含一个登录节点,一个存储节点(30T),几十个计算节点。
最近我们组有个同学的计算需要比较大的存储空间,原来的存储空间已经用得差不多了,我们老板决定买一个存储节点加到集群里去。
现在我们计划的方案是买一个多盘位的机架式服务器加 4 块 16T 机械硬盘装 TrueNAS 组 RAID-Z1(得到 48T),如果后续有需求再往里面加硬盘。

由于并不是私人使用所以不能考虑捡垃圾。需要使用学校的公开招标平台。请大家帮忙推荐合适的服务器型号。

额外的,我自己不太能判断的点有:
1. 是否可以考虑群晖等成品方案?(优点是便于小白维护,缺点是性价比不高。)
2. 是否可以考虑将机架式换成塔式获取更高的性价比?(我们已有独立机房)
3. 是否应该直接使用 RAID 卡而非 TrueNAS 提供的 ZFS 方案?
4. 是否应该配置固态硬盘作为缓存?

也请大家帮忙提提建议。

846

帖子

16

威望

4652

eV
积分
5818

Level 6 (一方通行)

小屁孩

2#
发表于 Post on 2023-8-7 11:08:43 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2023-8-7 12:00 编辑

几十个计算节点用30TB,令人无语的配置。最近我给某单位设计的一套HPC,7680+1152+64 CPU核,192+8 GPU卡,也是几十个计算节点,光NVMe存储就160TiB,主存储1.5PB。

Synology完全不适用于HPC存储,绝对不要考虑之,否则用户体验生不如死。

TrueNAS也非常不合适,没有RDMA。

机架式和塔式都有盘位巨多的准系统方案或ATX标准机架式机箱,既然有机房,DIY用机架式即可,不能DIY也可找专业的商家提供准系统方案。

几十个计算节点,建议使用并行分布式存储+并行文件系统。

如果对存储IO需求非常低,硬要用单机(根据你的描述,估计基本不能指望你们使用并行分布式存储),请务必考虑可以使用RDMA的操作系统,事实上最方便的反而是Debian、Ubuntu等,而非专门的NAS操作系统。使用OpenZFS,组多个RAID Z1 vdev条带化即可。不需要太高的高可用性,如果要考虑数据安全,请使用定时冷备份,而不是依靠表面上高冗余度的硬盘阵列。不推荐使用传统的硬件RAID卡,因为性能相较于RAID Z没有显著优势。如果是大量NVMe SSD的RAID,那么完全不推荐传统硬件RAID卡,建议考虑GPU加速RAID,性能远强于任何传统RAID方案,前面提到的我设计的HPC,NVMe存储用的就是GPU加速RAID。

SSD缓存非常有必要,单机就用单块NVMe SSD L2ARC + 双块老Optane SSD ZIL,使用L2ARC的前提是RAM已经堆到存储空间的千分之一以上且已经无法继续增加。如果是并行分布式存储,首先应该有独立的RAID 1 (或10)NVMe SSD阵列作为Metadata节点,然后再考虑各个target的配置,target的配置类似于单机方案。
- 向着虚无前进 -

2302

帖子

1

威望

5479

eV
积分
7801

Level 6 (一方通行)

3#
发表于 Post on 2023-8-7 12:46:31 | 只看该作者 Only view this author
要么找曙光,浪潮购买,
要么找二楼定制。

前提是,当初这套集群采用的什么架构方案,
采用的什么网络?

如果网络很菜,再高大上的存储产品,
都没有用武之地。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

8

帖子

0

威望

539

eV
积分
547

Level 4 (黑子)

4#
发表于 Post on 2023-8-7 15:38:16 | 只看该作者 Only view this author
群晖的系统比较便于存储,同时可开私有云,传输速度也较快
考虑定制的话也可以用超微的存储系列,多盘位的机器,都可以私信了解

81

帖子

0

威望

1371

eV
积分
1452

Level 4 (黑子)

5#
发表于 Post on 2023-8-7 15:39:51 | 只看该作者 Only view this author
Entropy.S.I 发表于 2023-8-7 11:08
几十个计算节点用30TB,令人无语的配置。最近我给某单位设计的一套HPC,7680+1152+64 CPU核,192+8 GPU卡, ...

没什么无语的,很多量化/vasp用户对io的需求就是这么低。

单个的计算的输入/输出结果以KB和MB计算。

846

帖子

16

威望

4652

eV
积分
5818

Level 6 (一方通行)

小屁孩

6#
发表于 Post on 2023-8-7 16:25:19 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2023-8-7 16:26 编辑
beowulf 发表于 2023-8-7 15:39
没什么无语的,很多量化/vasp用户对io的需求就是这么低。

单个的计算的输入/输出结果以KB和MB计算 ...

等不够用时再来扩,你就知道有多头疼了。哪怕是分布式存储,扩容都远没有有些人想象的简单。

不考虑矿潮期间的波动,这3年HDD价格几乎没有下降,未来很长一段时间也不可能大幅降价,除非SSD真正做到和HDD一样的容量和价格。一次性把大容量配好才是正道。
- 向着虚无前进 -

7

帖子

0

威望

87

eV
积分
94

Level 2 能力者

7#
 楼主 Author| 发表于 Post on 2023-8-7 17:19:17 | 只看该作者 Only view this author
本帖最后由 Sollovin 于 2023-8-7 17:53 编辑

不愧是坛友们,对性能都很有追求。
但是我们这个集群吧,情况其实比较尴尬。我们这边虽然看似有这么多机器,但其实是从2015开始陆陆续续添置起来的。内网只有千兆,一开始是只有一个4T的登录节点同时作为存储节点的,19年我们老板才出钱加上了一个30T的存储节点。在我接手管理之前是浪潮做的一套集群系统,因为中了挖矿病毒,我就基于 OpenHPC 重新做了集群系统。所以,我们集群现在是有大量新旧设备共存的状态。
更麻烦的是,集群并不是某一个老师的,很多老师都往里加了计算节点,但老师们其实不关心性能,他们只要能用就行。所以在这种情况下,我能做的比较有限。

总结大家的建议,可能还是用机架式服务器比较好。
至于系统,请教 @Entropy.S.I ,如果不做跨节点计算,千兆内网有配置 RDMA 的必要吗?

846

帖子

16

威望

4652

eV
积分
5818

Level 6 (一方通行)

小屁孩

8#
发表于 Post on 2023-8-7 17:53:53 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2023-8-7 17:58 编辑
Sollovin 发表于 2023-8-7 17:19
不愧是坛友们,对性能都很有追求。
但是我们这个集群吧,情况其实比较尴尬。我们这边虽然看似有这么多机器 ...

和我本科课题组情况类似。

这种情况,就是纯粹的一大堆单机,完全不考虑跨节点并行。估计有些节点还是用本地硬盘跑计算任务的。

简单做个带2-4个10G网口的TrueNAS,搭配一台48*1G+若干10G的二层交换机(例如H3C S5048X-EI),NAS到交换机这段做一下链路聚合即可。也没必要考虑RDMA了,千兆Eth搞不了RDMA。

买一套12盘位及以上的机器,盘一次性插满,RAM容量根据存储空间决定,至少要达到存储容量的千分之一以上,否则之后的L2ARC没意义。加上NVMe SSD做L2ARC,L2ARC容量在存储空间的千分之五到百分之一之间。然后去淘宝自费捡两个白菜价的16GB Optane做ZIL,这样就差不多了。最后上tb自费捡两个二手双口10G网卡,100来块钱一个。

顺便说下,RAID Z不要给单个vdev用太多盘,根据ZFS文档,单个vdev用3-9个HDD为佳,更多的盘建议组多个vdev然后条带化。
- 向着虚无前进 -

40

帖子

0

威望

509

eV
积分
549

Level 4 (黑子)

9#
发表于 Post on 2023-8-7 17:56:37 | 只看该作者 Only view this author
Sollovin 发表于 2023-8-7 17:19
不愧是坛友们,对性能都很有追求。
但是我们这个集群吧,情况其实比较尴尬。我们这边虽然看似有这么多机器 ...

有机房并且是增加节点那肯定是机架式的
像这种情况我之前在北工大碰到过 我们可以把你现有的节点做一个整合统一管理

2302

帖子

1

威望

5479

eV
积分
7801

Level 6 (一方通行)

10#
发表于 Post on 2023-8-7 18:00:01 | 只看该作者 Only view this author
有两大聪明
第一类
以太网用RDMA,


第二类
使用机械硬盘划出来80GB做SWAP,
用交换分区顶替物理内存使用。

也不是不能用,就是慢嘛……


话说回来,楼主描述的集群,
是典型的本地读写,单机多核心并行计算集群。

用户存储空间,只是用来存放计算结果,
而非存放计算读写数据。

存储是用来放数据而已,基本不用来做I/O,
所以,即便通过PCIe卡,接八个SATA硬盘,
SoftRAID,依旧能解决问题。

如果是计算读写空间不足,那需要考虑给每台机器,
升级安装一个大容量固态,比如2TB 4TB固态,是每台机器都需要。

显然,这套集群,
脚本应该限定,所有计算,单台多核心,并且本地读写,
否则卡死。


我们课题组的集群, 就是这么搞的。
存储/登录/管理一台8核心机器搞定, SoftRAID+HDD
集群网络千兆以太网, 限定所有计算都在计算节点读写。

常年, 登录管理节点, 负载低于1.0。
登录节点, 网络流量峰值100MB/s, 大多数时候, 基本没有流量。

每台机器, 配置固态硬盘, 所有计算运行顺畅。
当然, 只能单节点多核心并行。

为何采用这种模式, 没钱。 搞成这种模式后, 管理维护比较方便。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

7

帖子

0

威望

87

eV
积分
94

Level 2 能力者

11#
 楼主 Author| 发表于 Post on 2023-8-7 18:45:11 | 只看该作者 Only view this author
Entropy.S.I 发表于 2023-8-7 17:53
和我本科课题组情况类似。

这种情况,就是纯粹的一大堆单机,完全不考虑跨节点并行。估计有些节点还是 ...

是的,感觉只能这样了,建议非常具体,万分感谢!

7

帖子

0

威望

87

eV
积分
94

Level 2 能力者

12#
 楼主 Author| 发表于 Post on 2023-8-7 18:47:49 | 只看该作者 Only view this author
abin 发表于 2023-8-7 18:00
有两大聪明
第一类
以太网用RDMA,

很好的建议。如果配成像你们课题组那样,那计算节点上的数据与存储节点上的数据可以自动迁移吗?

2302

帖子

1

威望

5479

eV
积分
7801

Level 6 (一方通行)

13#
发表于 Post on 2023-8-7 20:25:58 | 只看该作者 Only view this author
Sollovin 发表于 2023-8-7 18:47
很好的建议。如果配成像你们课题组那样,那计算节点上的数据与存储节点上的数据可以自动迁移吗?

全自动。

这里有我们使用的调度脚本。

gitee.com/hpc4you/redstar
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

7

帖子

0

威望

87

eV
积分
94

Level 2 能力者

14#
 楼主 Author| 发表于 Post on 2023-8-8 11:14:10 | 只看该作者 Only view this author
abin 发表于 2023-8-7 20:25
全自动。

这里有我们使用的调度脚本。

好的,我看下,谢谢

3

帖子

0

威望

61

eV
积分
64

Level 2 能力者

15#
发表于 Post on 2023-8-15 10:52:31 | 只看该作者 Only view this author
我们这边也是类似的情况,前不久刚扩容了,上了一个二线品牌的4U36盘位服务器,品牌就不说了,免得广告,配置是三代4310处理器+128G内存+16块16T的银河盘+2个SSD,交换机也是千兆48口的,但是有2个万兆扩展口,把服务器接万兆,TrueNas搞了RAIZ2,zfs共享,实际上能跑带800多M,很满足了,比之前那个千兆的快了差不多7-8倍。
什么RDMA,分布式,冷热数据,什么RTX IO DirectStorage ,Graid,我们也想上。
但老板就那么点预算,有钱多不如买2块硬盘多加2块GPU跑得快点,不用老是抢任务。
我觉得还是看预算,统一集采有钱就上高大上点的,项目制没钱就实用为主,买个二线的服务器+SSD缓存自己搞个系统先跑起来完成项目,无非就是快点慢点,使用简单点复杂点的问题,先解决有无,再讨论其他。担心计算结果安全性问题,我这边基本自己导到老存储归档,或者自己再次备份到外部存储。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-27 04:44 , Processed in 0.172321 second(s), 21 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list