abin 发表于 2020-10-13 09:51 发私信还得需要等级 |
yaohaozhe 发表于 2022-1-26 14:11 【CentOS7平台Slurm调度并行计算集群搭建 真--实况录像-哔哩哔哩】 https://b23.tv/ggEB5gY 可以自己动手。 如果技术不行,让卖家配置好,测试符合符合要求再发货。 |
abin 发表于 2022-1-26 14:08 十分感谢您的意见!大佬辛苦! |
本帖最后由 abin 于 2022-1-26 14:09 编辑 yaohaozhe 发表于 2022-1-26 13:51 建议独立系统盘, SATA固态120G或者240GB 普通千兆交换机即可, 不必2.5G千兆, 没有任何实际意义. node5, 请确认能否充分发挥GPU性能. node5, 主板和处理器不支持PCIe 4.0接口, 可以降低固态硬盘规格. 控制节点, 建议使用SATA 3.5寸硬盘, 便宜. SAS接口的, 相对贵. 2.5寸盘, 更坑爹. 要确保读写顺畅, 56Gbps IB, 峰值可以达到7GB/s. 目测你的机械硬盘做的阵列是读写短板. 如果读取小数据, RDMA可以解决, 但是需要控制节点内存足, 通道多. 一般而言, 机器学习之类的应用, 需要高速I/O支撑, 以及较大的空间. 其他事宜, 可以电话联系我. 联系方式看签名. 我实在懒得打字. |
本帖最后由 yaohaozhe 于 2022-1-26 13:56 编辑 abin 发表于 2022-1-26 13:38 初步拟定了差不多这样的配置,能烦劳您看合理不?您的意见真的很受用,太感谢您了。 控制节点是利用现有的一套2686v4,实验室还有20余个各类型硬盘,所以就没计划采购。就是做些虚筛和动力学,老板有意下一步搞搞深度学习。让我刚入学的小白搞这个,懵逼了 |
202201261346164459..png (57.48 KB, 下载次数 Times of downloads: 119)
本帖最后由 abin 于 2022-1-26 13:42 编辑 yaohaozhe 发表于 2022-1-26 13:32 谁卖给你的,你问谁。 不好用,可以退货呀。 |
abin 发表于 2021-6-28 13:27 小白向您请教啊,这一款ib交换机商家说不要授权呢? |
本帖最后由 abin 于 2021-6-28 19:19 编辑 最近出了一堆8端口的40Gbps IB交换机, 购物网站有售。 型号是 IS5022 8-port Non-blocking Unmanaged 40Gb/s InfiniBand Switch System 大概1000元左右。 但是二手的网卡可能不好找。 网络延时,大概是0.1微秒左右。 比起同规格的40Gbps的以太网,那就快多了。 另,现在有一堆56Gbps的IB网卡, 当然是拆机货了。 用来跑计算,效果应该不错的。 |
djjj148 发表于 2021-6-25 17:43 我也懒得打字了,我所知道的实施方案,我已经提及了。 如果你不理解,可以找到我的即时联系方式, 打电话或者语音电话给我。 难道,通过电邮获取联系方式,会很麻烦吗? 我提及的方案都是免费公开共享的。 第三方能否实施我提及的方案,和我也没啥关系。 如需我动手部署调试,需支付茶水费,这没毛病吧。 |
djjj148 发表于 2021-6-25 17:43 实现方案我已经提了, 脚本中进行cp mv处理即可。 需要我动手,当然需付酬劳了。 你自己动手即可。 |
abin 发表于 2021-6-25 14:11 猜测倒是不用,不懂就问是我学习的方式,否则也不用一直回帖请教了。而且,我发现你回了那么多,我还是无法从其中知道你的部署方案是”当前目录提交,当前目录即时输出“还是”当前目录提交,其他目录即时输出“,可能我问到了收费内容,需要“电邮”,那不好意思了。我猜测是后者,如果是后者,我倒是觉得用你描述的方法很容易实现,我相信有个几年Linux使用经验的人都不难做到。只是因为个人习惯,我更喜欢前者,感觉更方便,所以愿意花时间琢磨。这应该也是大多数超算用户的习惯。 另,我也不知道其中两个超算的管理员是不是真外行,就我目前所见,无论是超算所用的XX目录提交-XX目录查看结果,还是XX目录提交-YY目录查看结果,仁者见仁,存在即合理,自己用的开心就好。或许,这些管理员真没您那么专业,有机会向您学习。 |
灰飞的旋律 发表于 2021-6-25 15:52 自己排查呗…… 有时候,一下子就搞定了, 有时候,需要排查很久。 能凑合用,就对付着用吧…… 如有闲功夫,可以去多方排查…… 祝好。 |
abin 发表于 2021-6-25 14:51 我这的集群现在不知道为啥从普通用户切换到root账号时特别慢,执行完su root后至少要等十几秒才会出来密码输入行,看了CPU负载也很低,swap也没有用到 |
我顺路补充一个,很多同学可能认为习以为常的现象: 机器全负荷做运算的时候,ssh登录就会卡,会比较慢。这简直是扯蛋。 我讲一个真实的故事。 有位朋友,说技术挺好,调试了一套集群。20台机器规模。万兆光纤+千兆双网络。 然后发现工作不符合预期。来找的我。 我看了下,那套集群是属于“半瘫痪"状态的: 无法让一个并行计算在多个节点运算, 这叫哪门子并行计算集群呀? 用户去任何一个节点,都要输入密码,你见过哪一个超算是这个玩法的? 还说这是为了安全。我认为对方的说法完全是文不对题。 另一个十分诡异的问题就是,一旦计算节点有任务在运行, 无论是否满负荷,ssh登录都十分卡;就算登录了,操作也很卡,卡的怀疑人生那种。 这位高人居然说,CPU有负载了, 当然会卡。 又说,交换机质量一般,网线不行之类。 我不认同。 CPU是有负载,就算负载200%,都不见得卡,况且,SWAP也没有明显使用痕迹。 ssh登录慢, 操作卡,我也见过。 就是CPU 100%负载,而且SWAP也基本耗尽的时候。 我的处理方案是,没有动任何交换机,也没有修改网络。 仅仅按照手册描述,调整了SSH配置。 立即实现了ssh登录即时响应。 就算是CPU100%负载情形下,只要物理内存还有剩余,也是即时响应的。 登录后,操作无任何卡顿。 某些片面的、固有的、基于微软桌面平台的使用经验和优化方案, 多数时候,不会给Linux平台上的并行计算,带来有价值的系统调优借鉴。 我的工作机器是Ubuntu台式机,经常满负荷跑小一些的计算。 同时,浏览器,PT下载啥的,都开着,没啥明显的卡顿呀。 以上言论,仅供参考。 |
手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图
GMT+8, 2024-11-27 08:56 , Processed in 2.258864 second(s), 27 queries , Gzip On.