计算化学公社

 找回密码 Forget password
 注册 Register
楼主 Author: abin
打印 Print 上一主题 Last thread 下一主题 Next thread

[并行运算] 我用的集群以及经验分享

[复制链接 Copy URL]

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

31#
 楼主 Author| 发表于 Post on 2021-6-24 18:01:20 | 只看该作者 Only view this author
本帖最后由 abin 于 2021-6-25 14:21 编辑
djjj148 发表于 2021-6-24 16:52
是的,我不太理解。
假设只有一个人,tom用万兆网络的集群,按照您说的"两块NVME安装到一个机器,做RAID ...

我记得你有讲过,自己做了一个集群。

你可以做个测试。
就测试高斯吧。 标准TD-DFT计算频率,应该会涉及写硬盘。

不要弄多机器并行了。
就单独提10个计算,每一个计算都占用一整个节点。
你看看机器卡不卡?
就是在所谓管理节点上, 登录啥的, 编辑文件啥的,有没有稍微卡顿的迹象?

我实际使用的一个机器,
计算节点24台,千兆网络。
管理节点挂的RAID5阵列。
管理节点,仅有8核心处理器,32GB内存,常年负载1.0以下,从来不卡。

单位另有套集群,差不多规模,万兆光纤。
存储是浪潮的专业设备,接了好几个光纤。
管理节点,双路,48核心,96GB内存,经常爆卡。

浪潮说,是因为内存太小了,让加内存。

我只能呵呵呵。

让他们卡着去吧。 反正我不用那套机器,我也不是管理员。


补充几个图片。
以免被怀疑“张口就来”。
如下是我调试和管理的一套集群,master node过去一年的负载情形。
这套集群,具有24台计算节点,千兆互联。
头节点master node,同时负载用户登录,PBS调度,存储。
头节点处理器是 CPU E5-2609 v2 @ 2.50GHz。 系统是 CentOS release 6.5 (Final)。
已经运行快满六年了。







High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

251

帖子

4

威望

4400

eV
积分
4731

Level 6 (一方通行)

32#
发表于 Post on 2021-6-24 19:08:27 | 只看该作者 Only view this author
abin 发表于 2021-6-24 17:50
"人家都是在哪个目录提交的目录,数据就会在哪里产生"
谁说的?
难道你不在脚本中,

“难道你不在脚本中,
搞一搞cp之类的指令吗?”

也不清楚您说的“cp之类的指令"指的是备份还是留着继续其他计算。在我用过超算里,都是在哪个目录提交的输入文件,数据就会在哪里产生。如果是常规提交单独的一个任务,提交脚本里是不会有cp之类的指令的。除非有其他需要,比如想要VASP算完结构优化再算个单点做波函数分析啥的,会把之前的CONTCAR之类复制到新目录里再mpirun。。。。

当然,也可能我用的超算不多,大概有4:长沙超算,并行接下的广州超算,并行的AMD单节点64核新超算,**的单节点52核新超算。

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

33#
 楼主 Author| 发表于 Post on 2021-6-25 14:11:51 | 只看该作者 Only view this author
djjj148 发表于 2021-6-24 19:08
“难道你不在脚本中,
搞一搞cp之类的指令吗?”

你说的超算, 我用过其中两个。
管理员给的示例脚本,十分外行。
客户算的慢,机器负载高,两头都不讨好。

猜测,你似乎没有掌握控制读写的技能。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

34#
 楼主 Author| 发表于 Post on 2021-6-25 14:51:34 | 只看该作者 Only view this author
我顺路补充一个,很多同学可能认为习以为常的现象: 机器全负荷做运算的时候,ssh登录就会卡,会比较慢。这简直是扯蛋。

我讲一个真实的故事。

有位朋友,说技术挺好,调试了一套集群。20台机器规模。万兆光纤+千兆双网络。
然后发现工作不符合预期。来找的我。

我看了下,那套集群是属于“半瘫痪"状态的:
无法让一个并行计算在多个节点运算,
这叫哪门子并行计算集群呀?
用户去任何一个节点,都要输入密码,你见过哪一个超算是这个玩法的?
还说这是为了安全。我认为对方的说法完全是文不对题。

另一个十分诡异的问题就是,一旦计算节点有任务在运行,
无论是否满负荷,ssh登录都十分卡;就算登录了,操作也很卡,卡的怀疑人生那种。
这位高人居然说,CPU有负载了, 当然会卡。
又说,交换机质量一般,网线不行之类。
我不认同。

CPU是有负载,就算负载200%,都不见得卡,况且,SWAP也没有明显使用痕迹。

ssh登录慢, 操作卡,我也见过。
就是CPU 100%负载,而且SWAP也基本耗尽的时候。

我的处理方案是,没有动任何交换机,也没有修改网络。
仅仅按照手册描述,调整了SSH配置。
立即实现了ssh登录即时响应。
就算是CPU100%负载情形下,只要物理内存还有剩余,也是即时响应的。
登录后,操作无任何卡顿。

某些片面的、固有的、基于微软桌面平台的使用经验和优化方案,
多数时候,不会给Linux平台上的并行计算,带来有价值的系统调优借鉴。

我的工作机器是Ubuntu台式机,经常满负荷跑小一些的计算。
同时,浏览器,PT下载啥的,都开着,没啥明显的卡顿呀。

以上言论,仅供参考。




High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

200

帖子

0

威望

1501

eV
积分
1701

Level 5 (御坂)

35#
发表于 Post on 2021-6-25 15:52:17 | 只看该作者 Only view this author
abin 发表于 2021-6-25 14:51
我顺路补充一个,很多同学可能认为习以为常的现象: 机器全负荷做运算的时候,ssh登录就会卡,会比较慢。这 ...

我这的集群现在不知道为啥从普通用户切换到root账号时特别慢,执行完su root后至少要等十几秒才会出来密码输入行,看了CPU负载也很低,swap也没有用到

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

36#
 楼主 Author| 发表于 Post on 2021-6-25 16:01:46 | 只看该作者 Only view this author
灰飞的旋律 发表于 2021-6-25 15:52
我这的集群现在不知道为啥从普通用户切换到root账号时特别慢,执行完su root后至少要等十几秒才会出来密 ...

自己排查呗……

有时候,一下子就搞定了,
有时候,需要排查很久。

能凑合用,就对付着用吧……
如有闲功夫,可以去多方排查……

祝好。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

251

帖子

4

威望

4400

eV
积分
4731

Level 6 (一方通行)

37#
发表于 Post on 2021-6-25 17:43:28 | 只看该作者 Only view this author
abin 发表于 2021-6-25 14:11
你说的超算, 我用过其中两个。
管理员给的示例脚本,十分外行。
客户算的慢,机器负载高,两头都不 ...

猜测倒是不用,不懂就问是我学习的方式,否则也不用一直回帖请教了。而且,我发现你回了那么多,我还是无法从其中知道你的部署方案是”当前目录提交,当前目录即时输出“还是”当前目录提交,其他目录即时输出“,可能我问到了收费内容,需要“电邮”,那不好意思了。我猜测是后者,如果是后者,我倒是觉得用你描述的方法很容易实现,我相信有个几年Linux使用经验的人都不难做到。只是因为个人习惯,我更喜欢前者,感觉更方便,所以愿意花时间琢磨。这应该也是大多数超算用户的习惯。

另,我也不知道其中两个超算的管理员是不是真外行,就我目前所见,无论是超算所用的XX目录提交-XX目录查看结果,还是XX目录提交-YY目录查看结果,仁者见仁,存在即合理,自己用的开心就好。或许,这些管理员真没您那么专业,有机会向您学习。

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

38#
 楼主 Author| 发表于 Post on 2021-6-25 18:02:57 | 只看该作者 Only view this author
djjj148 发表于 2021-6-25 17:43
猜测倒是不用,不懂就问是我学习的方式,否则也不用一直回帖请教了。而且,我发现你回了那么多,我还是无 ...

实现方案我已经提了,
脚本中进行cp mv处理即可。

需要我动手,当然需付酬劳了。

你自己动手即可。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

39#
 楼主 Author| 发表于 Post on 2021-6-25 19:06:47 | 只看该作者 Only view this author
djjj148 发表于 2021-6-25 17:43
猜测倒是不用,不懂就问是我学习的方式,否则也不用一直回帖请教了。而且,我发现你回了那么多,我还是无 ...

我也懒得打字了,我所知道的实施方案,我已经提及了。

如果你不理解,可以找到我的即时联系方式,
打电话或者语音电话给我。

难道,通过电邮获取联系方式,会很麻烦吗?

我提及的方案都是免费公开共享的。

第三方能否实施我提及的方案,和我也没啥关系。

如需我动手部署调试,需支付茶水费,这没毛病吧。


High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

40#
 楼主 Author| 发表于 Post on 2021-6-28 13:27:36 | 只看该作者 Only view this author
本帖最后由 abin 于 2021-6-28 19:19 编辑

最近出了一堆8端口的40Gbps IB交换机,
购物网站有售。
型号是 IS5022
8-port Non-blocking Unmanaged 40Gb/s InfiniBand Switch System
大概1000元左右。

但是二手的网卡可能不好找。

网络延时,大概是0.1微秒左右。
比起同规格的40Gbps的以太网,那就快多了。
另,现在有一堆56Gbps的IB网卡,
当然是拆机货了。
用来跑计算,效果应该不错的。


High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

15

帖子

0

威望

47

eV
积分
62

Level 2 能力者

41#
发表于 Post on 2022-1-26 13:32:21 | 只看该作者 Only view this author
abin 发表于 2021-6-28 13:27
最近出了一堆8端口的40Gbps IB交换机,
购物网站有售。
型号是 IS5022

小白向您请教啊,这一款ib交换机商家说不要授权呢?

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

42#
 楼主 Author| 发表于 Post on 2022-1-26 13:38:44 | 只看该作者 Only view this author
本帖最后由 abin 于 2022-1-26 13:42 编辑
yaohaozhe 发表于 2022-1-26 13:32
小白向您请教啊,这一款ib交换机商家说不要授权呢?

谁卖给你的,你问谁。
不好用,可以退货呀。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

15

帖子

0

威望

47

eV
积分
62

Level 2 能力者

43#
发表于 Post on 2022-1-26 13:51:03 | 只看该作者 Only view this author
本帖最后由 yaohaozhe 于 2022-1-26 13:56 编辑
abin 发表于 2022-1-26 13:38
谁卖给你的,你问谁。
不好用,可以退货呀。


初步拟定了差不多这样的配置,能烦劳您看合理不?您的意见真的很受用,太感谢您了。
控制节点是利用现有的一套2686v4,实验室还有20余个各类型硬盘,所以就没计划采购。就是做些虚筛和动力学,老板有意下一步搞搞深度学习。让我刚入学的小白搞这个,懵逼了

202201261346164459..png (57.48 KB, 下载次数 Times of downloads: 118)

202201261346164459..png

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

44#
 楼主 Author| 发表于 Post on 2022-1-26 14:08:56 | 只看该作者 Only view this author
本帖最后由 abin 于 2022-1-26 14:09 编辑
yaohaozhe 发表于 2022-1-26 13:51
初步拟定了差不多这样的配置,能烦劳您看合理不?您的意见真的很受用,太感谢您了。
控制节点是利用现 ...

建议独立系统盘,
SATA固态120G或者240GB

普通千兆交换机即可, 不必2.5G千兆, 没有任何实际意义.

node5, 请确认能否充分发挥GPU性能.
node5, 主板和处理器不支持PCIe 4.0接口, 可以降低固态硬盘规格.

控制节点, 建议使用SATA 3.5寸硬盘, 便宜. SAS接口的, 相对贵. 2.5寸盘, 更坑爹.

要确保读写顺畅, 56Gbps IB, 峰值可以达到7GB/s.
目测你的机械硬盘做的阵列是读写短板.
如果读取小数据, RDMA可以解决, 但是需要控制节点内存足, 通道多.

一般而言, 机器学习之类的应用, 需要高速I/O支撑, 以及较大的空间.

其他事宜, 可以电话联系我.
联系方式看签名.
我实在懒得打字.


High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

15

帖子

0

威望

47

eV
积分
62

Level 2 能力者

45#
发表于 Post on 2022-1-26 14:11:51 | 只看该作者 Only view this author
abin 发表于 2022-1-26 14:08
建议独立系统盘,
SATA固态120G或者240GB

十分感谢您的意见!大佬辛苦!

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 12:13 , Processed in 0.183176 second(s), 23 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list