计算化学公社

标题: cp2k双机并行编译和运行问题 [打印本页]

作者
Author:
wolfli369    时间: 2022-9-16 01:17
标题: cp2k双机并行编译和运行问题
你好,本人两台双路8375C使用ib卡(56G)连接,系统为rockylinux 8.6  gcc8.5  slurm队列系统。采用toolchain编译,参数如下:
./install_cp2k_toolchain.sh --with-sirius=no --with-plumed=install --with-pexsi=install --with-superlu=install --with-ptscotch=install --with-quip=install --with-mpich=install
全部算例都能通过。
但是双机并行时发现数据交换走千兆网络,不是走IB.
请问:(1)如何编译才能使数据交换走IB?
       (2)或者如何修改提交脚本使数据交换走IB?脚本如下:

#!/bin/bash
#SBATCH --time=720:00:00   # walltime, 720 hours, namely 30 days.
#SBATCH --ntasks-per-node=64 # request 12 cpu cores from one node.
#SBATCH --nodes=2   # number of nodes,
#SBATCH -J "2nodes_test"   # job name


source /opt/app/cp2k-9.1/tools/toolchain/install/setup
export PATH=$PATH:/opt/app/cp2k-9.1/exe/local


mpirun -np $SLURM_NTASKS  cp2k.popt -i cp2k.inp 1>cp2k.out 2>cp2k.err





作者
Author:
ball2006    时间: 2022-9-16 09:27
安装的并行程序是openmpi还是mpich,如果是openmpi编译是要增加对IB支持,还要看你的IB网卡的型号。我的计算命令是要增加--mca btl self,openib --mca btl_openib_allow_ib 1 -x OMP_NUM_THREADS=1 --host i0-0:核数,i0-1:核数。
作者
Author:
wolfli369    时间: 2022-9-16 10:01
本帖最后由 wolfli369 于 2022-9-16 10:15 编辑
ball2006 发表于 2022-9-16 09:27
安装的并行程序是openmpi还是mpich,如果是openmpi编译是要增加对IB支持,还要看你的IB网卡的型号。我的计 ...

mpich.怎么确定IB支持mpich,需要怎么编译和设置?请问有相关的教程吗?
作者
Author:
highlight    时间: 2022-9-16 11:51
有一个简单办法,intelmpi 是 mpich 的分支,而 intelmpi 可以默认走 IB
所以你装一个 intelmpi,加载它的环境变量运行就可以了

但是我发现,9.1 版本以后,使用 intelmpi 的单节点内的运行效率比 mpich 低
难以理解。。。
作者
Author:
ball2006    时间: 2022-9-16 12:00
wolfli369 发表于 2022-9-16 10:01
mpich.怎么确定IB支持mpich,需要怎么编译和设置?请问有相关的教程吗?

没关注MPICH,你可以去https://enterprise-support.nvidi ... rt-Portal-Migration找找
作者
Author:
abin    时间: 2022-9-16 12:17
https://groups.google.com/g/cp2k/c/VW5sbChUoWw?pli=1

作者
Author:
wolfli369    时间: 2022-9-16 14:16
abin 发表于 2022-9-16 12:17
https://groups.google.com/g/cp2k/c/VW5sbChUoWw?pli=1

收到,谢谢
作者
Author:
wolfli369    时间: 2022-9-16 14:21
highlight 发表于 2022-9-16 11:51
有一个简单办法,intelmpi 是 mpich 的分支,而 intelmpi 可以默认走 IB
所以你装一个 intelmpi,加载它的 ...

cp2k-9.1和2022.1使用intelmpi节点内并行效率都低,并且还容易出现兼容问题,过渡态优化会出现很多虚频。mpich就没这种问题。
作者
Author:
wolfli369    时间: 2022-9-16 14:21
ball2006 发表于 2022-9-16 12:00
没关注MPICH,你可以去https://enterprise-support.nvidia.com/s/article/FAQ-Networking-Support-Portal ...

谢谢你的指导,我会好好研究一下
作者
Author:
leeru    时间: 2022-11-3 18:29
我想问一下,现在infiniband的驱动有给rockylinux配吗?
作者
Author:
wolfli369    时间: 2022-11-3 20:21
leeru 发表于 2022-11-3 18:29
我想问一下,现在infiniband的驱动有给rockylinux配吗?

找人搞得这些驱动,应该是有




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3