计算化学公社

 找回密码 Forget password
 注册 Register
Views: 1335|回复 Reply: 13
打印 Print 上一主题 Last thread 下一主题 Next thread

[配置讨论] 集群中的存储节点和登录节点

[复制链接 Copy URL]

9

帖子

0

威望

39

eV
积分
48

Level 2 能力者

跳转到指定楼层 Go to specific reply
楼主
请教各位老师,课题组准备搭建一个较大的集群,假设计算节点配置使用的是EPYC双路服务器,大概20-30个计算节点,那么相关的存储节点和登录节点的配置应该如何? 上IB网络的必要性又是如何?

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

2#
发表于 Post on 2022-11-21 18:05:16 | 只看该作者 Only view this author
本帖最后由 abin 于 2022-11-21 18:33 编辑

https://hpc4you.github.io
读读这里再讨论。
简单说,是否使用IB网络,
和程序特性有关。
也与整体管制规划有关。

集群,可以根据应用场景,高度定制。

补充一下,
20多个节点,
是要招标采购的。
这里的拼装廉价服务器的经历,参考意义不大。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

9

帖子

0

威望

39

eV
积分
48

Level 2 能力者

3#
 楼主 Author| 发表于 Post on 2022-11-21 21:42:05 | 只看该作者 Only view this author
abin 发表于 2022-11-21 18:05
https://hpc4you.github.io
读读这里再讨论。
简单说,是否使用IB网络,

好的,谢谢。是的的确是要通过采购,所以想储备一些知识。 如果是20-30台的话,对应管理节点节点大概是什么水平 16核128G?

129

帖子

0

威望

701

eV
积分
830

Level 4 (黑子)

4#
发表于 Post on 2022-11-21 21:45:24 | 只看该作者 Only view this author
jackyjj123 发表于 2022-11-21 21:42
好的,谢谢。是的的确是要通过采购,所以想储备一些知识。 如果是20-30台的话,对应管理节点节点大概是什 ...

管理节点这个配置够用了。IB的意义在于跨节点,不跨节点用IB没什么意义 。

161

帖子

0

威望

2635

eV
积分
2796

Level 5 (御坂)

5#
发表于 Post on 2022-11-21 21:48:21 | 只看该作者 Only view this author
个人建议光纤,raid卡,万兆光纤的速度不错
卡+线一套低于500,一个24口华为交换机不到4000
存储raid卡。加硬盘足够了。

9

帖子

0

威望

39

eV
积分
48

Level 2 能力者

6#
 楼主 Author| 发表于 Post on 2022-11-21 22:40:29 | 只看该作者 Only view this author
alwens 发表于 2022-11-21 21:48
个人建议光纤,raid卡,万兆光纤的速度不错
卡+线一套低于500,一个24口华为交换机不到4000
存储raid卡。 ...

好的,谢谢我去了解下

9

帖子

0

威望

39

eV
积分
48

Level 2 能力者

7#
 楼主 Author| 发表于 Post on 2022-11-21 22:40:50 | 只看该作者 Only view this author
janstao 发表于 2022-11-21 21:45
管理节点这个配置够用了。IB的意义在于跨节点,不跨节点用IB没什么意义 。

好的!谢谢

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

8#
发表于 Post on 2022-11-21 23:13:44 | 只看该作者 Only view this author
本帖最后由 abin 于 2022-11-21 23:19 编辑
jackyjj123 发表于 2022-11-21 21:42
好的,谢谢。是的的确是要通过采购,所以想储备一些知识。 如果是20-30台的话,对应管理节点节点大概是什 ...

管理节点,
仅仅负载SSH登录的话, 一个普通的机器都搞定了.

我这里, 本地I/O集群,
千兆网络.
登录节点, 同时承担存储管理.
起初, 12个3TB硬盘, RAID5.
后来更换为5个4TB, RAID5. 因为盘挂了.
配备8核心+32GB内存, 常年负载低于1.0, 内存利用率80%.
计算节点, 最多时候23台.

至于存储, 要根据实际需求来定制.
传统的NFS, 配备一定数量的内存就搞定了.
如果采用GFS等并行文件系统, 至少需要三个独立的机器来做数据节点, 还需要网络配合.
你预算就顶天30台机器, 使用并行文件系统不太可能.

况且, 商用存储, 只管卖, 不管调试的.
买个大型存储, 不会配置, 不会使用, 也很糟糕的.

没有多节点并行计算的强烈需求的话,
使用本地I/O配置, 这个时候, 存储仅仅负载存放数据.
那么使用普通的网络就可以搞定了.

我提到的链接, https://hpc4you.github.io, 里面分析了各种可能的配置方案.

分享一个具体案例.
计算都是单节点跑,
大家指定需要Intel+内存.
电话问供应商, 现在值8369B较为核算, 而且有现货.
所以, 计算节点, 8369B x2 + 32GB x 16 + 240GB SATA + 2TB NVMe 4台;
管理、登录+存储节点, 8156 x 2 + 32 GB x 2 + 240GB SATA + 1TB SATA + 16 TB HDD x 3.
不要阵列卡.
HDD存放数据, 其中一个是热数据备份.
1TB SATA是App专用硬盘.   
240GB SATA是系统盘. 原来计划采用120GB, 但是没有现货, 240GB贵10元.
板载千兆+IPMP.
采用Intra-node Local-I/O方案.



High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

9

帖子

0

威望

39

eV
积分
48

Level 2 能力者

9#
 楼主 Author| 发表于 Post on 2022-11-22 10:11:27 | 只看该作者 Only view this author
abin 发表于 2022-11-21 23:13
管理节点,
仅仅负载SSH登录的话, 一个普通的机器都搞定了.

非常感谢!
有几点我想确认下,
1.计算节点中SSD是挂载/tmp加速IO是吗?
2.多个16TB HDD是通过LVM挂载同一个目录?
3.您自己的节点使用了RAID,后面的案例使用了多HDD。是出于什么理由?

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

10#
发表于 Post on 2022-11-22 11:54:34 | 只看该作者 Only view this author
本帖最后由 abin 于 2022-11-22 11:56 编辑
jackyjj123 发表于 2022-11-22 10:11
非常感谢!
有几点我想确认下,
1.计算节点中SSD是挂载/tmp加速IO是吗?

给你的链接也不看呀.

现在的学生也基本这样的, 资料不看.
然后直接跑来, 这XXXX你给我仔细讲一遍. 哈哈

1 计算节点使用SSD是否在/tmp就可以加速读写, 不一定哦. 这和程序以及调度设定有关联的.

2 只有3个HDD, 都说了其中一个拿来做热数据备份了; 另外两个是放热数据呀. 自己有技能, 就摆弄LVM, 搞不定就单盘吧.

3 那么为何使用RAID呢? RAID5是为了扩充空间, 但是并不保证可靠性. 无论是RAID1, RAID10, RAID5, RAID6, 单盘容量越大, 恢复数据, 死的越快. 既然单盘容量都能满足需求了, 搞RAID岂不是闲的蛋疼?  为了保证数据安全, 热数据会自动备份, 长时间的数据, 都要求用户拿走, 丢了概不负责. 我这里, 热数据自动备份, 是通过自己编写的工具/脚本实现, 可以做到deduplication compress backup. 实际就是rsync, 自己完全可以捣鼓.
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

9

帖子

0

威望

39

eV
积分
48

Level 2 能力者

11#
 楼主 Author| 发表于 Post on 2022-11-22 12:00:05 | 只看该作者 Only view this author
abin 发表于 2022-11-22 11:54
给你的链接也不看呀.

现在的学生也基本这样的, 资料不看.

不好意思,我看了,就是怕自己没理解到位,确认下哈哈。谢谢

81

帖子

0

威望

1369

eV
积分
1450

Level 4 (黑子)

12#
发表于 Post on 2022-11-22 12:42:32 | 只看该作者 Only view this author
IO不多的话做个raid,但是记住raid并不代表数据可靠。
IO多一点的话加点钱上个便宜的盘阵,不值得投太多的钱。
IO很高的话,上lustre,需要用心谈价格和做配置。

如果IO对性能要求特别高,但是容量不是太大的话,上个ssd的存储。

9

帖子

0

威望

39

eV
积分
48

Level 2 能力者

13#
 楼主 Author| 发表于 Post on 2022-11-23 10:42:49 | 只看该作者 Only view this author
beowulf 发表于 2022-11-22 12:42
IO不多的话做个raid,但是记住raid并不代表数据可靠。
IO多一点的话加点钱上个便宜的盘阵,不值得投太多的 ...

好的 谢谢

81

帖子

0

威望

1369

eV
积分
1450

Level 4 (黑子)

14#
发表于 Post on 2022-11-23 10:48:01 | 只看该作者 Only view this author

盘阵和存储记得多砍点价格,
打个夸张的比喻,如果按照论坛里普遍的报价来看,服务器需要从腰部砍价,
存储可能得从小腿那里砍价格。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 11:24 , Processed in 0.191594 second(s), 21 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list