wakakasa 发表于 2024-9-9 10:04 其中一台机器, 需要两个网卡/网口, 然后用一个普通的交换机, 将这些机器连接起来, 需要几根网线. 完毕. |
我有2~3台i5-8500台式机,现在组群,还需要买些啥硬件?谢谢 |
angervlf 发表于 2024-9-5 21:16 现在还买这些干啥 |
biogon 发表于 2020-1-8 09:00 因为学生所以预算有限,想问一下,双路2696v3和后面8173m这些相比,性能差距会有多大呢? |
感谢分享。 |
补充更新。 硬件 E5-2686v4,16GB x 12, HDD RAID0 Disk, 10Gbps网络,也就是普通的万兆光纤网络。 采用slurm调度。 读写均通过万兆网络共享到RAID0阵列上。 软件,VASP,intel编译器。 算例链接: 链接: https://pan.baidu.com/s/1qRVzhsKZ6s7wS_Olyg-xGQ 提取码: se94 说明,我的研究不涉及VASP,所以我不晓得这个算例是计算啥的。 只是找跑VASP计算的同事,要了一个能跑几分钟的算例而已。 测试结果。 8173M双路服务器,使用28核心,耗时 780s。 E5-2686v4双路服务器,18核心计算,717s,720s,跑了两次,采用节点独占,仅用18个核心。 E5-2686v4双路服务器,36核心计算,543s,采用节点独占。单节点并行。 E5-2686v4双路服务器,72核心计算,最快330s,最慢454s,双节点并行。 网络不仅仅负载这几台机器哦。所以耗时有差异。 其中,计算最快的时候,万兆网络仅仅负载这干活的两台机器, 观测到,存在间歇性网络流量,峰值高达800Mbps。 未测试3节点或者4节点并行, 也许是测试体系太小,NBANDS数量不大,不适合采用太多的核心来计算。 (这句是猜测,我不懂NBANDS数目到底啥意思)。 结论: 对于小型的计算需求,并且需要属于自己的计算设备, 可以考虑两台或者高达8台的集群规模, VASP采用双节点并行计算,效率应该还可以。 合理调控参数,VASP在多机器并行的时候,网络流量不是很大的。 以上测试, 部分结论,源自于以下的视频内容: https://www.bilibili.com/video/BV1zk4y117yW https://www.bilibili.com/video/BV1h64y1F74A https://www.bilibili.com/video/BV12J411V7op https://www.bilibili.com/video/BV1UZ4y1H793 https://www.bilibili.com/video/BV1eg4y1v7HM |
特别声明,以上集群方案, 并非我原创。 我仅仅是在别人的基础上做了修改。 最初的设计理念来自于这里, https://www.calvin.edu/~adams/research/microwulf/ 我在12年前用了30天时间,用两台P4 3.0做了一个双机,可以跑高斯,挺快。 我当时动手的时候,都不晓得如何check you kernel with uname -a。 我也依据此方案,做过5节点的PC集群,无盘启动。 在实践过程中,如果意外停电,重启会遇到问题。 考虑到维护成本,手里又有多个旧硬盘,所以修改为每个机器都有系统盘。 现在用的机器,为了提升读写性能,针对性的搭配了万兆网络和RAID0磁盘。 这东西是高度可定制的,要针对实际需求,做相应调整。 另,我认为,现在CPU, 内存,都很快了。做计算,如果计算中不能做到全内存读写,那么最大的瓶颈在磁盘读写。 合理改善磁盘读写,才是提速计算的最有效手段。 |
以上技术方案,可以看成一种高性价的高性能计算集群实现方案。 如果自己能实现,可以买了硬件自己搞。 如果搞不定呢,技术层面,我没问题。 这这边认识的售卖硬件的商家,可以按照我的技术方案定制机器。 如有需求,可以联系我。 签名中有联系方式哦。 |
考虑到大家不喜欢看很长的东西。 我把更新内容最为回复,贴在下面。 Sat Apr 18 13:23:23 CST 2020 更新 修正一下方案。 1 加装万兆网卡,推荐光纤口(因为便宜),两台机器,采用DAC线缆直连,获得10G带宽。 2 入门级读写配置,4 x 1TB --> RAID0, 读写实测高达660MB/s,开启72个进程并行读写小文件时,顺序读写大文件依旧高达620MB/s; 进阶版,NVME SSD x 2 ---> RAID0, 提升并发读写。注意给NVME SSD散热哦,这东西热了后,掉速很厉害。 3 应用场景。对于高斯DFT计算,读写要求不高的,读写随便配置;做动力学之类,要频发读写,或者同事计算好多轨迹,有较高的并发读写,推荐至少4x1TB HDD RAID0. 4 不建议固态硬盘单盘用于并发读写,读写线程上去了,性能堪忧。 以上结论基于如下的测试: 双机,千兆互联,RAID0读写缓存,72线程读写(其中一般相当于本地读写,另外36个读写是通过千兆进行), 两台机器满载情况下,I/O wait偏高,分析发现,瓶颈在网络层面。 升级为万兆光纤互联,机器满载时候,I/O wait不足0.1%,机器运转正常。 因为我的计算,涉及72个读写进程,不停写数据,通过nmon分析发现,每秒平均有570多次写操作。 升级费用,咸鱼万兆光纤网卡,大概200元,DAC互联线缆,京东约80元,合计升级成本不到500元。 关机,安装网卡,开机,约10分钟。 ifconfig -a 找到网卡,配置网卡IP,约3分钟。 加上开机等待时间,合计耗时不足20分钟。 等有功夫,再整理一个详细的机器升级前后的读写压力分析文档,分析数据基于sar汇报。 推理一下,如果算VASP多核心并行(我不晓得112核心并行效率如何), 可以买两台8173M,采用万兆互联,或者升级到40G光纤口互联,配合4个NVME 2TB磁盘RAID0读写,速度应该飞快的。 同时,理论推测,这套方案,也适用于WRF-CHEM(一种天气预报计算模拟程序,采用NetCDF读写,目测读写很频繁)。 40G光纤网卡,新的2000左右,不过你可以找万能的淘宝咸鱼啊。 我升级用的卡,就是咸鱼找的。便宜。 关于光纤网卡的性能介绍,交换机介绍等, 请移步: https://zhuanlan.zhihu.com/p/76400103 https://zhuanlan.zhihu.com/p/74082377 |
本帖最后由 abin 于 2020-3-3 18:01 编辑 更新, 录制了一个实现原理的讲解视频, 有兴趣自己搭建集群的,对实现原理不理解,搞不清楚部署方案的, 建议先看看这个视频,约30分钟。 请移步查看以下链接: https://www.youtube.com/watch?v=iDMu7Rx7D7w B站审核太慢,估计过一段时间,B站搜索abbottcn也可以找到这个视频。 B站终于审核完毕了。 视频连接如下: https://www.bilibili.com/video/av93244589 不晓得回复信息怎么搞出两条来。 烦请管理员删除另一条不重要的回帖吧。 |
更新: 时常在微信上被问到双节点集群的部署策略以及实现原理,有点懒,不想打字。 特别录制了一个讲解视频,希望自己DIY的,请看视频并结合google自行搭建。 由于B站审核太慢,视频链接请先通过U2B访问,链接如下: https://www.youtube.com/watch?v=iDMu7Rx7D7w |
biogon 发表于 2020-1-8 09:00 我有遇到过一个奇怪的算例. 测试服务器是浪潮的双路 E5 2697 v2服务器. 单节点两颗处理器 24 核心(关闭超线程). 网络是普通千兆. 测试软件是 VASP 和 ADF. 单节点独占两个处理器, 24 核心计算, 速度没有, 每个机器使用一个处理器, 采用两个节点的方式快. 具体原因不明. |
abin 发表于 2020-1-7 22:51 效率还行,没有具体测过,36核不算多,2696v3到现在6254单节点都是36核,核心更多的8173M 8280 9242都试过,还是高频的效率更高 |
手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图
GMT+8, 2024-11-27 04:58 , Processed in 0.191505 second(s), 27 queries , Gzip On.