计算化学公社

 找回密码 Forget password
 注册 Register
Views: 3082|回复 Reply: 7
打印 Print 上一主题 Last thread 下一主题 Next thread

[集群维护] 千兆网集群无法满足Gaussian 16单节点并行?

[复制链接 Copy URL]

251

帖子

4

威望

4404

eV
积分
4735

Level 6 (一方通行)

跳转到指定楼层 Go to specific reply
楼主
自搭的小集群,登录节点24核E5-2678 v3 * 1,计算节点56核Platinum 8173M *1(暂时只弄一个),NIS + NFS + PBS调度。其中登录节点用的硬盘是1个500G和1个4T的SATA
  1. [root@master ~]# lsblk
  2. NAME            MAJ:MIN RM   SIZE RO TYPE MOUNTPOINT
  3. sda               8:0    0 465.8G  0 disk
  4. ├─sda1            8:1    0     1G  0 part /boot
  5. └─sda2            8:2    0 464.8G  0 part
  6.   ├─centos-root 253:0    0    50G  0 lvm  /
  7.   ├─centos-swap 253:1    0     4G  0 lvm  [SWAP]
  8.   └─centos-home 253:2    0 410.8G  0 lvm  
  9. sdb               8:16   0   3.7T  0 disk /home
复制代码
计算节点的系统盘用的是PM981 1TB固态(之前买这机子还没想装集群,装集群时忘记换到登录节点上了)

开始时用百兆网,测试Gaussian 16普通DFT单点(70原子有机体系),56核机子单机跑3min,用PBS调度却耗时高达44min。
更换到千兆网后(通过scp测试确实传输速率达到了110M/s左右),原本44min降低到了4min,但还是比单机慢了不少。于是使用190原子的体系并提高基组,方法,单机算单点需要240min,换用PBS单节点并行后竟然需要440min才能跑完,而且在使用集群测试190原子的单点期间,在登录节点上使用vi, mkdir等基本命令都明显感到卡顿。另外,还测试了VASP和CP2K,发现它们在百兆网下的单节点并行的计算速度和单机差不太大,只有Gaussian换了千兆网还差那么多,而且这还只是一台计算节点,如果多台计算节点一起在单节点内跑Gaussian,千兆网的传输速率就那么多,平分后应该更慢吧。这和我之前看到的经验贴不太一样,引用一下论坛内大神的原话:


单节点多核心并行计算,磁盘读写不敏感,比如Gaussian16 DFT计算。千兆网络+每台机器普通机械硬盘。这种计算,主要写内存。
当然,我这绝不是质疑大神的话的正确性,只是我作为一个集群新手,用了千兆网络+普通机械硬盘后发现效率没达到预期,觉得自己的配置出现了问题,故来求助下各位:我这种情况是哪个地方出现了问题?


补充一下:登录节点的网口1和计算节点通过千兆交换机连接局域网。登录节点的网口2通过百兆交换机连接互联网,登录节点的BMC也是连接这个百兆交换机。


真诚求助,谢谢各位!

251

帖子

4

威望

4404

eV
积分
4735

Level 6 (一方通行)

8#
 楼主 Author| 发表于 Post on 2021-8-19 16:46:25 | 只看该作者 Only view this author
谢谢各位的解答,我照着这思路去修改一下。

1236

帖子

1

威望

3495

eV
积分
4751

Level 6 (一方通行)

7#
发表于 Post on 2021-8-19 10:21:58 | 只看该作者 Only view this author
djjj148 发表于 2021-8-19 09:23
应该是的。
Gaussian的临时文件目录被设置为$HOME/opt/g16/scratch,而登陆节点的/home是NIS的共享目录。 ...

频繁读写的数据当然要放在本机上

361

帖子

0

威望

4226

eV
积分
4587

Level 6 (一方通行)

6#
发表于 Post on 2021-8-19 09:26:46 | 只看该作者 Only view this author
单节点并行原则上和网络速率无关,除非你把Gaussian的临时文件和输出文件都写在了通过NFS共享的主节点的硬盘上了,尤其是临时文件。

251

帖子

4

威望

4404

eV
积分
4735

Level 6 (一方通行)

5#
 楼主 Author| 发表于 Post on 2021-8-19 09:23:23 | 只看该作者 Only view this author
biogon 发表于 2021-8-19 08:37
你这是计算的临时文件都在登录节点上放着?

应该是的。
Gaussian的临时文件目录被设置为$HOME/opt/g16/scratch,而登陆节点的/home是NIS的共享目录。或许是因为这样才导致了单节点计算使用网络了吧。可能把Gaussian的临时文件目录改成计算节点的本地目录就可以?

1236

帖子

1

威望

3495

eV
积分
4751

Level 6 (一方通行)

4#
发表于 Post on 2021-8-19 08:37:20 | 只看该作者 Only view this author
你这是计算的临时文件都在登录节点上放着?

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

3#
发表于 Post on 2021-8-18 20:56:55 | 只看该作者 Only view this author
单节点多核心并行计算,磁盘读写不敏感,比如Gaussian16 DFT计算。千兆网络+每台机器普通机械硬盘。这种计算,主要写内存。
这应该是我本人讲的.

你集群配置不当.
看书、看教程自己捣鼓吧.
鄙人的一些在其他科研平台的讲座视频也可以仔细做一下听读理解.

楼上说的对, 单节点做高斯多核心并行计算, 和网络没有关系.

如果并行计算用到网络了, 那么只要是以太网, 无论是千兆, 万兆, 都不行.
推荐用IB, 否则就别太期望有理想的并行效率了.

High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

831

帖子

1

威望

7183

eV
积分
8034

Level 6 (一方通行)

2#
发表于 Post on 2021-8-18 20:25:04 | 只看该作者 Only view this author
Gaussian的单节点并行并不需要用到网络

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 18:50 , Processed in 0.178023 second(s), 22 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list