计算化学公社

 找回密码 Forget password
 注册 Register
Views: 1818|回复 Reply: 7
打印 Print 上一主题 Last thread 下一主题 Next thread

[配置讨论] 集群配置讨论

[复制链接 Copy URL]

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

先上硬件配置清单, 某网友提供.


网友描述, 应用场景涉及分子动力学和药物设计模拟等计算.

从硬件规格来看:
  • 8375C一颗, 配置4条16GB内存, 240GB SATA固态做系统+软件, 2TB NVMe固态应该做读写缓存, 8个8TB机械组RAID5, 也许是2TB固态用来做RAID阵列的缓存.  这台机器做管理+存储节点.
  • 8375C两颗, 配置16个内存条, 240GB SATA固态做系统, 应该是CPU计算节点.
  • 8375C两颗, 配置12个内存条, 240GB SATA固态做系统, 3个 3080Ti, 应该是CPU+GPU计算节点.
  • 配备56G IB网卡.


说明一下, 这个IB网卡和交换机, 应该是咸鱼产品, 现在基本没有新品的.
该网卡, 工作在IB模式, 可以达到56Gbps带宽, 理论上限就是7GB/s, 延时是在微秒级别.  需要搭配PCIe 4.0接口的NVMe做读写, 才不会有读写短板.
如果工作在以太网模式, 就是普通的网络, 带宽是40Gbps, 延时是毫秒级别, 如果是频繁的MPI数据交换, 实际上可能会慢5~6倍, 甚至更多.

这个配置存在什么问题呢?

首先分析硬件层面的读写瓶颈.
RAID阵列会是短板. 推测RAID卡应该是是PCIe 3.0接口. 理由如下:
假定采用的RAID卡是顶级的, 8个HDD做RAID0, 这是速度最快的, 8x200MB/s=1600MB/s; 如果是RAID0并且使用Intel P4500做缓存, 那顶天是3GB/s. (整个读写带宽由最慢的决定).
简单讲, 就是网络很快, 但是硬盘读写相对很慢.
如果计算涉及到频繁写硬盘, 当前的配置很糟糕的.

至于GFS, CLVM等等, 就不要纠结了.
硬件不具备的情形下, 弄高级的配置, 都是空中楼阁.

RHEL内置的LVM, CLVM也挺好用的, 本身就可以搭配各种RAID模式的, 如有兴趣, RHEL手册有, 自己看哦.

其次, 要发挥8375C的设计性能, 一颗处理器需要配置8个内存条. 这个不在多讲.

第三, 登录节点性能太抢尽, 浪费钱财.  
如果当前单路8375C仅仅用来做登录管理和存储, 是十分浪费的. 完全可以替换为其他支持同样指令集的弱鸡处理器.
比如8156或者41XX之类, 用一颗处理器, 配4~6个内存条.
挂载硬盘存数据, 绰绰由于.  
只要指令集相同, 在主控节点编译后的软件, 在其他机器完全可以高效率运行.
建议当前登录节点, 也兼任计算节点, 空余出来4~8个核心以及部分内存, 用来负责读写缓存.

第四, IB网络恐浪费.
如果计算都控制在单节点运行,
那么当前配置中, IB网络没啥实际意义. 理由如上, 网络很快, 磁盘很慢, 和10Gb万兆也没啥太大差异.
如果计算读写频繁, 本集群就是在节点内运行, 效率也不高, 主要是读写太慢.
如果计算设计本地读写较多, 可以在计算节点加装廉价的NVMe固态做读写. 效果好很多的.


一般建议
集群的登录管理存储节点, 在小型集群中, 可以合并为一台机器.
不用台豪华的配置, 根据指令集选择处理器. 一般4~8核心, 配置64GB内存, 足以负载10~20台计算节点.

IB网络是好东西, 要留意配置调试到IB模式; 如果计算还涉及到磁盘读写, 务必留意磁盘读写规格.

如果不做多节点并行, 可以每台机器配置NVMe固态, 在本地读写. 此时, 使用普通千兆网络就足够了.

更多讯息
关于集群配置的更多讯息, 可以查阅 hpc4you.github.io 或者 gitee.com/hpc4you/hpc 页面中的PDF文档.


如有其他集群配置, 可以跟帖 贴图, 我可以献丑帮您分析硬件配置是否符合应用场景.
如果我讲错了, 欢迎大侠指点.

另, 我不评论物品售价, 我只评估你提供的配置, 是否适合你当前的应用场景.


High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

21

帖子

0

威望

438

eV
积分
459

Level 3 能力者

2#
发表于 Post on 2022-9-16 08:40:26 | 只看该作者 Only view this author
lz,咨询一下,主用QE和vasp,一个人用,预算10左右,怎么配比较好。

下面是我之前咨询别人给的两个方案,您看一下是否符合我的应用场景。
1. 两台工作站,每台配置64核心的Intel第三代铂金CPU,256GB内存,1张ib网卡。用ib网线连接起来,组成一个双节点的小型集群。费用大概8万左右。
2. 三台工作站,每台配置与上述相同,但是需要增加一台ib交换机。可以选择56Gb带宽的二手ib交换机。组成一个三节点的小型集群,总费用可能会略超12万

一般都不跨节点跑,ib网卡是否是必要的,还有我看您在别的帖子说有双机迷你集群方案不知道是不是类似于这里的第一个方案。

1236

帖子

1

威望

3495

eV
积分
4751

Level 6 (一方通行)

3#
发表于 Post on 2022-9-16 09:55:10 | 只看该作者 Only view this author
本帖最后由 biogon 于 2022-9-16 09:57 编辑
wwjie 发表于 2022-9-16 08:40
lz,咨询一下,主用QE和vasp,一个人用,预算10左右,怎么配比较好。

下面是我之前咨询别人给的两个方案 ...

三台机器三角形拓扑就完了,不需要交换机,交换机现在都是N手的机器了,出故障没有厂家保修

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

4#
 楼主 Author| 发表于 Post on 2022-9-16 09:58:08 | 只看该作者 Only view this author
本帖最后由 abin 于 2022-9-16 10:06 编辑
wwjie 发表于 2022-9-16 08:40
lz,咨询一下,主用QE和vasp,一个人用,预算10左右,怎么配比较好。

下面是我之前咨询别人给的两个方案 ...

多于两台机器, 就需要交换机, 无论是采用以太网还是IB网络.

IB的交换机比较贵, 二手的价格可能比较实惠, 需要自己去咸鱼购买.

双机迷你集群, 这是我提出来的架构方案. 更多描述可以看 hpc4you.github.io 页面.

如果所有的计算任务都在单一节点运行的话, 不必使用IB网络.

VASP和QE, 对硬盘I/O没啥明显要求,
所有, 你完全可以采用普通千兆或者万兆网络来实现小型集群配置.

我也有调优方案, 可以让VASP通过普通的万兆光纤, 双机并行效率保持在80%左右,
但是调试成本, 可能比购买咸鱼IB网卡略贵呢. 建议通过硬件方案解决.

恰好, 这几天, 刚刚协助“不知名”网友调试过具有IB设备的小型集群, 也是跑VASP.
(注意, 这里的不知名, 是指对方未告知姓名, 所以我不晓得是谁)

咸鱼货的确很便宜, 但是卖的人和买的人, 都不晓得, 这个东西能不能用...
这不就碰到, 对方买的IB卡有问题....无法启用IB模式....第二次, 其中一个端口不稳定...第三次, 才成功.
还有另一个网友, 买家给的线缆是错误, 还得我给卖家和买家一起普及线缆知识....真是无奈.

再说一次, 不需要多节点并行的话, 不必使用IB网络, 普通以太网就行了.
如有频繁读写操作, 使用local-I/O配置.

祝好.

另, 听闻最近8375C涨价很厉害, 可以替换为同系列其他的处理器呀.
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

21

帖子

0

威望

438

eV
积分
459

Level 3 能力者

5#
发表于 Post on 2022-9-16 11:33:33 | 只看该作者 Only view this author
abin 发表于 2022-9-16 09:58
多于两台机器, 就需要交换机, 无论是采用以太网还是IB网络.

IB的交换机比较贵, 二手的价格可能比较实 ...

谢了,很详细的建议。问一下,AMD的128核机器怎么样啊?128核的机器可不可以分开两个64核,同时算两个任务啊。我想就我一个人用,一台机器能搞定的话就不要弄多台了。

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

6#
 楼主 Author| 发表于 Post on 2022-9-16 12:05:33 | 只看该作者 Only view this author
wwjie 发表于 2022-9-16 11:33
谢了,很详细的建议。问一下,AMD的128核机器怎么样啊?128核的机器可不可以分开两个64核, ...

没用过AMD, 不清楚.

可以参考
https://gitee.com/hpc4you/linux
提到的讲座视频.
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

21

帖子

0

威望

438

eV
积分
459

Level 3 能力者

7#
发表于 Post on 2022-9-16 13:50:22 | 只看该作者 Only view this author
abin 发表于 2022-9-16 09:58
多于两台机器, 就需要交换机, 无论是采用以太网还是IB网络.

IB的交换机比较贵, 二手的价格可能比较实 ...

8375c确实涨价厉害。所以卖家推荐8369b,不知道您有没有了解这个型号的cpu,性价比怎么样。

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

8#
 楼主 Author| 发表于 Post on 2022-9-16 15:24:05 | 只看该作者 Only view this author
wwjie 发表于 2022-9-16 13:50
8375c确实涨价厉害。所以卖家推荐8369b,不知道您有没有了解这个型号的cpu,性价比怎么样。:ha ...

没用过, 没测试过, 不敢妄加评论.

如有兴致, 自己看参数猜测吧.

https://en.wikipedia.org/wiki/List_of_Intel_Xeon_processors_(Ice_Lake-based)

从历史经验来开, 过分追求性价比, 可能会更加糟糕的.
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 15:37 , Processed in 0.202573 second(s), 24 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list