abin 发表于 2025-6-30 07:05 感谢! |
李毅成 发表于 2025-6-29 18:16 跨节点,你的硬件条件不具备,无法发挥机器性能。 |
abin 发表于 2025-6-29 17:27 感谢您的回答!感觉我这种情况如果搭建集群的话对作业管理和机器的利用率意义更大些,对跨节点并行来说就·不太合适了对吧 |
李毅成 发表于 2025-6-29 14:18 对于多核心单机任务类型而言,集群模式具有以下优势: 用户层面:集群提供了统一的数据访问视图。虽然实际计算任务会被调度系统分配到不同节点执行,但用户始终能在同一路径下访问数据,无需关心底层资源分布。这种体验类似于使用"单台超级计算机"或私有云服务。 管理层面:当集群节点采用相同指令集的处理器时,管理10台或100台机器的复杂度仅相当于管理1.5台独立机器,显著降低了运维压力。 对于需要跨节点并行的高性能计算任务(如多节点作业),建议满足以下条件: 计算节点采用统一规格的CPU 配置InfiniBand高速网络 配备适当的I/O存储设备 (注:虽然理论上可以使用不同规格的机器,但并行效率会受到"木桶效应"制约,由性能最差的节点决定整体表现) 实测案例: 使用两台E5服务器通过万兆以太网连接时,VASP软件的并行效率可达80-86%。但测试数据表明,在没有InfiniBand网络的情况下,不建议超过两台机器并行运行VASP计算。 |
abin 发表于 2024-9-9 15:19 老师您好,现在实验室有五台单独运行的服务器,但是配置还不一样,既有Intel Xeon Gold 6139 也有6148这样的,主要用于vasp的计算,如果是为了加快单个任务的计算速度,请问有组成集群的必要吗(就是跨节点运行有没有正向的收益呢)。另外近期大概还有十万元左右的预算购买服务器,请问是全部预算都投到一个单机上面好还是购买多个节点组成集群好呢?在这种情况下前面那五台机器还有折腾的必要吗,毕竟还要重新购买网卡和交换机之类的,而且每台机器上都有大量文件,组成集群后好像难以保留这些文件。 希望您不吝赐教! |
wakakasa 发表于 2024-9-9 10:04 其中一台机器, 需要两个网卡/网口, 然后用一个普通的交换机, 将这些机器连接起来, 需要几根网线. 完毕. |
我有2~3台i5-8500台式机,现在组群,还需要买些啥硬件?谢谢 |
angervlf 发表于 2024-9-5 21:16 现在还买这些干啥 |
biogon 发表于 2020-1-8 09:00 因为学生所以预算有限,想问一下,双路2696v3和后面8173m这些相比,性能差距会有多大呢? |
感谢分享。 |
补充更新。 硬件 E5-2686v4,16GB x 12, HDD RAID0 Disk, 10Gbps网络,也就是普通的万兆光纤网络。 采用slurm调度。 读写均通过万兆网络共享到RAID0阵列上。 软件,VASP,intel编译器。 算例链接: 链接: https://pan.baidu.com/s/1qRVzhsKZ6s7wS_Olyg-xGQ 提取码: se94 说明,我的研究不涉及VASP,所以我不晓得这个算例是计算啥的。 只是找跑VASP计算的同事,要了一个能跑几分钟的算例而已。 测试结果。 8173M双路服务器,使用28核心,耗时 780s。 E5-2686v4双路服务器,18核心计算,717s,720s,跑了两次,采用节点独占,仅用18个核心。 E5-2686v4双路服务器,36核心计算,543s,采用节点独占。单节点并行。 E5-2686v4双路服务器,72核心计算,最快330s,最慢454s,双节点并行。 网络不仅仅负载这几台机器哦。所以耗时有差异。 其中,计算最快的时候,万兆网络仅仅负载这干活的两台机器, 观测到,存在间歇性网络流量,峰值高达800Mbps。 未测试3节点或者4节点并行, 也许是测试体系太小,NBANDS数量不大,不适合采用太多的核心来计算。 (这句是猜测,我不懂NBANDS数目到底啥意思)。 结论: 对于小型的计算需求,并且需要属于自己的计算设备, 可以考虑两台或者高达8台的集群规模, VASP采用双节点并行计算,效率应该还可以。 合理调控参数,VASP在多机器并行的时候,网络流量不是很大的。 以上测试, 部分结论,源自于以下的视频内容: https://www.bilibili.com/video/BV1zk4y117yW https://www.bilibili.com/video/BV1h64y1F74A https://www.bilibili.com/video/BV12J411V7op https://www.bilibili.com/video/BV1UZ4y1H793 https://www.bilibili.com/video/BV1eg4y1v7HM |
特别声明,以上集群方案, 并非我原创。 我仅仅是在别人的基础上做了修改。 最初的设计理念来自于这里, https://www.calvin.edu/~adams/research/microwulf/ 我在12年前用了30天时间,用两台P4 3.0做了一个双机,可以跑高斯,挺快。 我当时动手的时候,都不晓得如何check you kernel with uname -a。 我也依据此方案,做过5节点的PC集群,无盘启动。 在实践过程中,如果意外停电,重启会遇到问题。 考虑到维护成本,手里又有多个旧硬盘,所以修改为每个机器都有系统盘。 现在用的机器,为了提升读写性能,针对性的搭配了万兆网络和RAID0磁盘。 这东西是高度可定制的,要针对实际需求,做相应调整。 另,我认为,现在CPU, 内存,都很快了。做计算,如果计算中不能做到全内存读写,那么最大的瓶颈在磁盘读写。 合理改善磁盘读写,才是提速计算的最有效手段。 |
以上技术方案,可以看成一种高性价的高性能计算集群实现方案。 如果自己能实现,可以买了硬件自己搞。 如果搞不定呢,技术层面,我没问题。 这这边认识的售卖硬件的商家,可以按照我的技术方案定制机器。 如有需求,可以联系我。 签名中有联系方式哦。 |
手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图
GMT+8, 2025-8-13 03:12 , Processed in 0.206935 second(s), 26 queries , Gzip On.