计算化学公社

 找回密码 Forget password
 注册 Register

一种高性能小型集群方案

查看数: 9380 | 评论数: 17 | 收藏 Add to favorites 27
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2020-1-7 19:03

正文摘要:

本帖最后由 abin 于 2021-4-13 10:46 编辑 更新: 如果预算允许, 推荐升级为IB网络方案。 两台机器,IB网络可以直通,而不用采用交换机。 咸鱼找旧货,成本价格大概是3000左右; 买新品,56Gb,大约4000~ ...

回复 Reply

abin 发表于 Post on 2024-9-9 15:19:04
wakakasa 发表于 2024-9-9 10:04
我有2~3台i5-8500台式机,现在组群,还需要买些啥硬件?谢谢

其中一台机器, 需要两个网卡/网口,

然后用一个普通的交换机, 将这些机器连接起来,
需要几根网线.

完毕.
wakakasa 发表于 Post on 2024-9-9 10:04:13
我有2~3台i5-8500台式机,现在组群,还需要买些啥硬件?谢谢
biogon 发表于 Post on 2024-9-9 10:01:49
angervlf 发表于 2024-9-5 21:16
因为学生所以预算有限,想问一下,双路2696v3和后面8173m这些相比,性能差距会有多大呢?

现在还买这些干啥
angervlf 发表于 Post on 2024-9-5 21:16:16
biogon 发表于 2020-1-8 09:00
效率还行,没有具体测过,36核不算多,2696v3到现在6254单节点都是36核,核心更多的8173M 8280 9242都试 ...

因为学生所以预算有限,想问一下,双路2696v3和后面8173m这些相比,性能差距会有多大呢?
monk1077 发表于 Post on 2020-11-17 09:33:27
感谢分享。
abin 发表于 Post on 2020-11-16 15:00:39
补充更新。
硬件
E5-2686v4,16GB x 12, HDD RAID0 Disk, 10Gbps网络,也就是普通的万兆光纤网络。
采用slurm调度。
读写均通过万兆网络共享到RAID0阵列上。

软件,VASP,intel编译器。

算例链接:
链接: https://pan.baidu.com/s/1qRVzhsKZ6s7wS_Olyg-xGQ 提取码: se94

说明,我的研究不涉及VASP,所以我不晓得这个算例是计算啥的。
只是找跑VASP计算的同事,要了一个能跑几分钟的算例而已。

测试结果。
8173M双路服务器,使用28核心,耗时 780s。

E5-2686v4双路服务器,18核心计算,717s,720s,跑了两次,采用节点独占,仅用18个核心。
E5-2686v4双路服务器,36核心计算,543s,采用节点独占。单节点并行
E5-2686v4双路服务器,72核心计算,最快330s,最慢454s,双节点并行
网络不仅仅负载这几台机器哦。所以耗时有差异。
其中,计算最快的时候,万兆网络仅仅负载这干活的两台机器,
观测到,存在间歇性网络流量,峰值高达800Mbps。

未测试3节点或者4节点并行,
也许是测试体系太小,NBANDS数量不大,不适合采用太多的核心来计算。
(这句是猜测,我不懂NBANDS数目到底啥意思)。


结论:
对于小型的计算需求,并且需要属于自己的计算设备,
可以考虑两台或者高达8台的集群规模,
VASP采用双节点并行计算,效率应该还可以。
合理调控参数,VASP在多机器并行的时候,网络流量不是很大的。

以上测试,
部分结论,源自于以下的视频内容:
https://www.bilibili.com/video/BV1zk4y117yW

https://www.bilibili.com/video/BV1h64y1F74A

https://www.bilibili.com/video/BV12J411V7op

https://www.bilibili.com/video/BV1UZ4y1H793

https://www.bilibili.com/video/BV1eg4y1v7HM




abin 发表于 Post on 2020-4-18 17:56:11
特别声明,以上集群方案,
并非我原创。
我仅仅是在别人的基础上做了修改。

最初的设计理念来自于这里, https://www.calvin.edu/~adams/research/microwulf/
我在12年前用了30天时间,用两台P4 3.0做了一个双机,可以跑高斯,挺快。
我当时动手的时候,都不晓得如何check you kernel with uname -a。

我也依据此方案,做过5节点的PC集群,无盘启动。
在实践过程中,如果意外停电,重启会遇到问题。
考虑到维护成本,手里又有多个旧硬盘,所以修改为每个机器都有系统盘。

现在用的机器,为了提升读写性能,针对性的搭配了万兆网络和RAID0磁盘。

这东西是高度可定制的,要针对实际需求,做相应调整。

另,我认为,现在CPU, 内存,都很快了。做计算,如果计算中不能做到全内存读写,那么最大的瓶颈在磁盘读写。
合理改善磁盘读写,才是提速计算的最有效手段。
abin 发表于 Post on 2020-4-18 15:19:16
以上技术方案,可以看成一种高性价的高性能计算集群实现方案。

如果自己能实现,可以买了硬件自己搞。

如果搞不定呢,技术层面,我没问题。
这这边认识的售卖硬件的商家,可以按照我的技术方案定制机器。
如有需求,可以联系我。
签名中有联系方式哦。
abin 发表于 Post on 2020-4-18 14:33:26
考虑到大家不喜欢看很长的东西。
我把更新内容最为回复,贴在下面。

Sat Apr 18 13:23:23 CST 2020 更新
修正一下方案。
1 加装万兆网卡,推荐光纤口(因为便宜),两台机器,采用DAC线缆直连,获得10G带宽。
2 入门级读写配置,4 x 1TB --> RAID0, 读写实测高达660MB/s,开启72个进程并行读写小文件时,顺序读写大文件依旧高达620MB/s;
   进阶版,NVME SSD x 2 ---> RAID0, 提升并发读写。注意给NVME SSD散热哦,这东西热了后,掉速很厉害。
3 应用场景。对于高斯DFT计算,读写要求不高的,读写随便配置;做动力学之类,要频发读写,或者同事计算好多轨迹,有较高的并发读写,推荐至少4x1TB HDD RAID0.
4 不建议固态硬盘单盘用于并发读写,读写线程上去了,性能堪忧。

以上结论基于如下的测试:
双机,千兆互联,RAID0读写缓存,72线程读写(其中一般相当于本地读写,另外36个读写是通过千兆进行),
两台机器满载情况下,I/O wait偏高,分析发现,瓶颈在网络层面。
升级为万兆光纤互联,机器满载时候,I/O wait不足0.1%,机器运转正常。
因为我的计算,涉及72个读写进程,不停写数据,通过nmon分析发现,每秒平均有570多次写操作。

升级费用,咸鱼万兆光纤网卡,大概200元,DAC互联线缆,京东约80元,合计升级成本不到500元。
关机,安装网卡,开机,约10分钟。 ifconfig -a 找到网卡,配置网卡IP,约3分钟。
加上开机等待时间,合计耗时不足20分钟。
等有功夫,再整理一个详细的机器升级前后的读写压力分析文档,分析数据基于sar汇报。

推理一下,如果算VASP多核心并行(我不晓得112核心并行效率如何),
可以买两台8173M,采用万兆互联,或者升级到40G光纤口互联,配合4个NVME 2TB磁盘RAID0读写,速度应该飞快的。
同时,理论推测,这套方案,也适用于WRF-CHEM(一种天气预报计算模拟程序,采用NetCDF读写,目测读写很频繁)。

40G光纤网卡,新的2000左右,不过你可以找万能的淘宝咸鱼啊。

我升级用的卡,就是咸鱼找的。便宜。

关于光纤网卡的性能介绍,交换机介绍等,
请移步:
https://zhuanlan.zhihu.com/p/76400103
https://zhuanlan.zhihu.com/p/74082377
abin 发表于 Post on 2020-3-3 11:31:53
本帖最后由 abin 于 2020-3-3 18:01 编辑

更新,
录制了一个实现原理的讲解视频,
有兴趣自己搭建集群的,对实现原理不理解,搞不清楚部署方案的,
建议先看看这个视频,约30分钟。
请移步查看以下链接:
https://www.youtube.com/watch?v=iDMu7Rx7D7w

B站审核太慢,估计过一段时间,B站搜索abbottcn也可以找到这个视频。
B站终于审核完毕了。 视频连接如下:
https://www.bilibili.com/video/av93244589

不晓得回复信息怎么搞出两条来。
烦请管理员删除另一条不重要的回帖吧。
abin 发表于 Post on 2020-3-3 11:28:31
更新:
时常在微信上被问到双节点集群的部署策略以及实现原理,有点懒,不想打字。
特别录制了一个讲解视频,希望自己DIY的,请看视频并结合google自行搭建。

由于B站审核太慢,视频链接请先通过U2B访问,链接如下:
https://www.youtube.com/watch?v=iDMu7Rx7D7w

abin 发表于 Post on 2020-1-8 23:27:49
biogon 发表于 2020-1-8 09:00
效率还行,没有具体测过,36核不算多,2696v3到现在6254单节点都是36核,核心更多的8173M 8280 9242都试 ...

我有遇到过一个奇怪的算例.

测试服务器是浪潮的双路 E5 2697 v2服务器. 单节点两颗处理器 24 核心(关闭超线程).
网络是普通千兆.
测试软件是 VASP 和 ADF.

单节点独占两个处理器, 24 核心计算, 速度没有, 每个机器使用一个处理器, 采用两个节点的方式快.
具体原因不明.

biogon 发表于 Post on 2020-1-8 09:00:50
abin 发表于 2020-1-7 22:51
具体没测过。
不过ORCA使用那么多的CPU核心, 并行效率如何?
也许小点CPU核心好些呢。

效率还行,没有具体测过,36核不算多,2696v3到现在6254单节点都是36核,核心更多的8173M 8280 9242都试过,还是高频的效率更高

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-27 04:58 , Processed in 0.191505 second(s), 27 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list