计算化学公社

标题: 千兆网集群无法满足Gaussian 16单节点并行? [打印本页]

作者
Author:
djjj148    时间: 2021-8-18 19:50
标题: 千兆网集群无法满足Gaussian 16单节点并行?
自搭的小集群,登录节点24核E5-2678 v3 * 1,计算节点56核Platinum 8173M *1(暂时只弄一个),NIS + NFS + PBS调度。其中登录节点用的硬盘是1个500G和1个4T的SATA
  1. [root@master ~]# lsblk
  2. NAME            MAJ:MIN RM   SIZE RO TYPE MOUNTPOINT
  3. sda               8:0    0 465.8G  0 disk
  4. ├─sda1            8:1    0     1G  0 part /boot
  5. └─sda2            8:2    0 464.8G  0 part
  6.   ├─centos-root 253:0    0    50G  0 lvm  /
  7.   ├─centos-swap 253:1    0     4G  0 lvm  [SWAP]
  8.   └─centos-home 253:2    0 410.8G  0 lvm  
  9. sdb               8:16   0   3.7T  0 disk /home
复制代码
计算节点的系统盘用的是PM981 1TB固态(之前买这机子还没想装集群,装集群时忘记换到登录节点上了)

开始时用百兆网,测试Gaussian 16普通DFT单点(70原子有机体系),56核机子单机跑3min,用PBS调度却耗时高达44min。
更换到千兆网后(通过scp测试确实传输速率达到了110M/s左右),原本44min降低到了4min,但还是比单机慢了不少。于是使用190原子的体系并提高基组,方法,单机算单点需要240min,换用PBS单节点并行后竟然需要440min才能跑完,而且在使用集群测试190原子的单点期间,在登录节点上使用vi, mkdir等基本命令都明显感到卡顿。另外,还测试了VASP和CP2K,发现它们在百兆网下的单节点并行的计算速度和单机差不太大,只有Gaussian换了千兆网还差那么多,而且这还只是一台计算节点,如果多台计算节点一起在单节点内跑Gaussian,千兆网的传输速率就那么多,平分后应该更慢吧。这和我之前看到的经验贴不太一样,引用一下论坛内大神的原话:


单节点多核心并行计算,磁盘读写不敏感,比如Gaussian16 DFT计算。千兆网络+每台机器普通机械硬盘。这种计算,主要写内存。
当然,我这绝不是质疑大神的话的正确性,只是我作为一个集群新手,用了千兆网络+普通机械硬盘后发现效率没达到预期,觉得自己的配置出现了问题,故来求助下各位:我这种情况是哪个地方出现了问题?


补充一下:登录节点的网口1和计算节点通过千兆交换机连接局域网。登录节点的网口2通过百兆交换机连接互联网,登录节点的BMC也是连接这个百兆交换机。


真诚求助,谢谢各位!

作者
Author:
hebrewsnabla    时间: 2021-8-18 20:25
Gaussian的单节点并行并不需要用到网络
作者
Author:
abin    时间: 2021-8-18 20:56
单节点多核心并行计算,磁盘读写不敏感,比如Gaussian16 DFT计算。千兆网络+每台机器普通机械硬盘。这种计算,主要写内存。
这应该是我本人讲的.

你集群配置不当.
看书、看教程自己捣鼓吧.
鄙人的一些在其他科研平台的讲座视频也可以仔细做一下听读理解.

楼上说的对, 单节点做高斯多核心并行计算, 和网络没有关系.

如果并行计算用到网络了, 那么只要是以太网, 无论是千兆, 万兆, 都不行.
推荐用IB, 否则就别太期望有理想的并行效率了.


作者
Author:
biogon    时间: 2021-8-19 08:37
你这是计算的临时文件都在登录节点上放着?
作者
Author:
djjj148    时间: 2021-8-19 09:23
biogon 发表于 2021-8-19 08:37
你这是计算的临时文件都在登录节点上放着?

应该是的。
Gaussian的临时文件目录被设置为$HOME/opt/g16/scratch,而登陆节点的/home是NIS的共享目录。或许是因为这样才导致了单节点计算使用网络了吧。可能把Gaussian的临时文件目录改成计算节点的本地目录就可以?
作者
Author:
pwzhou    时间: 2021-8-19 09:26
单节点并行原则上和网络速率无关,除非你把Gaussian的临时文件和输出文件都写在了通过NFS共享的主节点的硬盘上了,尤其是临时文件。
作者
Author:
biogon    时间: 2021-8-19 10:21
djjj148 发表于 2021-8-19 09:23
应该是的。
Gaussian的临时文件目录被设置为$HOME/opt/g16/scratch,而登陆节点的/home是NIS的共享目录。 ...

频繁读写的数据当然要放在本机上

作者
Author:
djjj148    时间: 2021-8-19 16:46
谢谢各位的解答,我照着这思路去修改一下。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3