计算化学公社

 找回密码 Forget password
 注册 Register

我用的集群以及经验分享

查看数: 53141 | 评论数: 46 | 收藏 Add to favorites 24
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2020-9-30 10:38

正文摘要:

回复 Reply

feng_lei2000 发表于 Post on 2022-2-21 11:39:03
abin 发表于 2020-10-13 09:51
或者你买一套自己试试?

和我合作的商家,可以提供“开箱即用”体验,收到机器,打开包装,开机,按 ...

发私信还得需要等级
abin 发表于 Post on 2022-1-26 14:36:21
yaohaozhe 发表于 2022-1-26 14:11
十分感谢您的意见!大佬辛苦!

【CentOS7平台Slurm调度并行计算集群搭建 真--实况录像-哔哩哔哩】 https://b23.tv/ggEB5gY

可以自己动手。

如果技术不行,让卖家配置好,测试符合符合要求再发货。
yaohaozhe 发表于 Post on 2022-1-26 14:11:51
abin 发表于 2022-1-26 14:08
建议独立系统盘,
SATA固态120G或者240GB

十分感谢您的意见!大佬辛苦!
abin 发表于 Post on 2022-1-26 14:08:56
本帖最后由 abin 于 2022-1-26 14:09 编辑
yaohaozhe 发表于 2022-1-26 13:51
初步拟定了差不多这样的配置,能烦劳您看合理不?您的意见真的很受用,太感谢您了。
控制节点是利用现 ...

建议独立系统盘,
SATA固态120G或者240GB

普通千兆交换机即可, 不必2.5G千兆, 没有任何实际意义.

node5, 请确认能否充分发挥GPU性能.
node5, 主板和处理器不支持PCIe 4.0接口, 可以降低固态硬盘规格.

控制节点, 建议使用SATA 3.5寸硬盘, 便宜. SAS接口的, 相对贵. 2.5寸盘, 更坑爹.

要确保读写顺畅, 56Gbps IB, 峰值可以达到7GB/s.
目测你的机械硬盘做的阵列是读写短板.
如果读取小数据, RDMA可以解决, 但是需要控制节点内存足, 通道多.

一般而言, 机器学习之类的应用, 需要高速I/O支撑, 以及较大的空间.

其他事宜, 可以电话联系我.
联系方式看签名.
我实在懒得打字.


yaohaozhe 发表于 Post on 2022-1-26 13:51:03
本帖最后由 yaohaozhe 于 2022-1-26 13:56 编辑
abin 发表于 2022-1-26 13:38
谁卖给你的,你问谁。
不好用,可以退货呀。


初步拟定了差不多这样的配置,能烦劳您看合理不?您的意见真的很受用,太感谢您了。
控制节点是利用现有的一套2686v4,实验室还有20余个各类型硬盘,所以就没计划采购。就是做些虚筛和动力学,老板有意下一步搞搞深度学习。让我刚入学的小白搞这个,懵逼了

202201261346164459..png (57.48 KB, 下载次数 Times of downloads: 119)

202201261346164459..png
abin 发表于 Post on 2022-1-26 13:38:44
本帖最后由 abin 于 2022-1-26 13:42 编辑
yaohaozhe 发表于 2022-1-26 13:32
小白向您请教啊,这一款ib交换机商家说不要授权呢?

谁卖给你的,你问谁。
不好用,可以退货呀。
yaohaozhe 发表于 Post on 2022-1-26 13:32:21
abin 发表于 2021-6-28 13:27
最近出了一堆8端口的40Gbps IB交换机,
购物网站有售。
型号是 IS5022

小白向您请教啊,这一款ib交换机商家说不要授权呢?
abin 发表于 Post on 2021-6-28 13:27:36
本帖最后由 abin 于 2021-6-28 19:19 编辑

最近出了一堆8端口的40Gbps IB交换机,
购物网站有售。
型号是 IS5022
8-port Non-blocking Unmanaged 40Gb/s InfiniBand Switch System
大概1000元左右。

但是二手的网卡可能不好找。

网络延时,大概是0.1微秒左右。
比起同规格的40Gbps的以太网,那就快多了。
另,现在有一堆56Gbps的IB网卡,
当然是拆机货了。
用来跑计算,效果应该不错的。


abin 发表于 Post on 2021-6-25 19:06:47
djjj148 发表于 2021-6-25 17:43
猜测倒是不用,不懂就问是我学习的方式,否则也不用一直回帖请教了。而且,我发现你回了那么多,我还是无 ...

我也懒得打字了,我所知道的实施方案,我已经提及了。

如果你不理解,可以找到我的即时联系方式,
打电话或者语音电话给我。

难道,通过电邮获取联系方式,会很麻烦吗?

我提及的方案都是免费公开共享的。

第三方能否实施我提及的方案,和我也没啥关系。

如需我动手部署调试,需支付茶水费,这没毛病吧。


abin 发表于 Post on 2021-6-25 18:02:57
djjj148 发表于 2021-6-25 17:43
猜测倒是不用,不懂就问是我学习的方式,否则也不用一直回帖请教了。而且,我发现你回了那么多,我还是无 ...

实现方案我已经提了,
脚本中进行cp mv处理即可。

需要我动手,当然需付酬劳了。

你自己动手即可。
djjj148 发表于 Post on 2021-6-25 17:43:28
abin 发表于 2021-6-25 14:11
你说的超算, 我用过其中两个。
管理员给的示例脚本,十分外行。
客户算的慢,机器负载高,两头都不 ...

猜测倒是不用,不懂就问是我学习的方式,否则也不用一直回帖请教了。而且,我发现你回了那么多,我还是无法从其中知道你的部署方案是”当前目录提交,当前目录即时输出“还是”当前目录提交,其他目录即时输出“,可能我问到了收费内容,需要“电邮”,那不好意思了。我猜测是后者,如果是后者,我倒是觉得用你描述的方法很容易实现,我相信有个几年Linux使用经验的人都不难做到。只是因为个人习惯,我更喜欢前者,感觉更方便,所以愿意花时间琢磨。这应该也是大多数超算用户的习惯。

另,我也不知道其中两个超算的管理员是不是真外行,就我目前所见,无论是超算所用的XX目录提交-XX目录查看结果,还是XX目录提交-YY目录查看结果,仁者见仁,存在即合理,自己用的开心就好。或许,这些管理员真没您那么专业,有机会向您学习。
abin 发表于 Post on 2021-6-25 16:01:46
灰飞的旋律 发表于 2021-6-25 15:52
我这的集群现在不知道为啥从普通用户切换到root账号时特别慢,执行完su root后至少要等十几秒才会出来密 ...

自己排查呗……

有时候,一下子就搞定了,
有时候,需要排查很久。

能凑合用,就对付着用吧……
如有闲功夫,可以去多方排查……

祝好。
灰飞的旋律 发表于 Post on 2021-6-25 15:52:17
abin 发表于 2021-6-25 14:51
我顺路补充一个,很多同学可能认为习以为常的现象: 机器全负荷做运算的时候,ssh登录就会卡,会比较慢。这 ...

我这的集群现在不知道为啥从普通用户切换到root账号时特别慢,执行完su root后至少要等十几秒才会出来密码输入行,看了CPU负载也很低,swap也没有用到
abin 发表于 Post on 2021-6-25 14:51:34
我顺路补充一个,很多同学可能认为习以为常的现象: 机器全负荷做运算的时候,ssh登录就会卡,会比较慢。这简直是扯蛋。

我讲一个真实的故事。

有位朋友,说技术挺好,调试了一套集群。20台机器规模。万兆光纤+千兆双网络。
然后发现工作不符合预期。来找的我。

我看了下,那套集群是属于“半瘫痪"状态的:
无法让一个并行计算在多个节点运算,
这叫哪门子并行计算集群呀?
用户去任何一个节点,都要输入密码,你见过哪一个超算是这个玩法的?
还说这是为了安全。我认为对方的说法完全是文不对题。

另一个十分诡异的问题就是,一旦计算节点有任务在运行,
无论是否满负荷,ssh登录都十分卡;就算登录了,操作也很卡,卡的怀疑人生那种。
这位高人居然说,CPU有负载了, 当然会卡。
又说,交换机质量一般,网线不行之类。
我不认同。

CPU是有负载,就算负载200%,都不见得卡,况且,SWAP也没有明显使用痕迹。

ssh登录慢, 操作卡,我也见过。
就是CPU 100%负载,而且SWAP也基本耗尽的时候。

我的处理方案是,没有动任何交换机,也没有修改网络。
仅仅按照手册描述,调整了SSH配置。
立即实现了ssh登录即时响应。
就算是CPU100%负载情形下,只要物理内存还有剩余,也是即时响应的。
登录后,操作无任何卡顿。

某些片面的、固有的、基于微软桌面平台的使用经验和优化方案,
多数时候,不会给Linux平台上的并行计算,带来有价值的系统调优借鉴。

我的工作机器是Ubuntu台式机,经常满负荷跑小一些的计算。
同时,浏览器,PT下载啥的,都开着,没啥明显的卡顿呀。

以上言论,仅供参考。




手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-27 08:56 , Processed in 2.258864 second(s), 27 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list