|
|
本帖最后由 Ying_Zhang 于 2026-3-5 17:49 编辑
1.首先采用sob老师的方法,编译了cp2k-2026.1版本,在集群加载了该compllier,- module load compilers/gnu/13.2
复制代码 然后继续编译,一切都很顺利,但是最后输入该命令查看cp2k编译后的相关版本,出现如下信息如图1,尝试提交任务出现图2报错。
查了chatGPT以后,采用如下命令可以正常运行
- mpirun --mca mtl ^ofi --mca pml ob1 --mca btl self,vader,tcp -np $SLURM_NTASKS cp2k.psmp -i $INPUT_FILE -o $OUTPUT_FILE
复制代码 所以一直拿这个命令提及任务,但是查了发现该命令只能采用传统TCP运行,会降低计算速度。查了该报错原因是因为Toolchain的OpenMPI 5.0.9,而集群的libfabric version (1.7) 过低,所以不能采用OFI。联系管理员,他说这个不容易升级,要和别的管理员讨论。然后重新编译--with-openmpi=install改成--with-openmpi=system,降低OpenMPI的版本到4.x,去匹配集群的低版本libfabric。结果报错更多,还不能运行计算。所以想问一下,除了升级libfabric,还有别的解决方法吗,主要是想使用高速的CP2K计算,目前使用的TCP,估计会降低计算速率。
2. 基于上述问题,我又重新编译一版自身低OpenMPI版本的CP2K,cp2k-2024.1。加载- module load compilers/gnu/11.1
复制代码 然后编译,最后也输入
但是出现该报错,也如图3。By default, for Open MPI 4.0 and later, infiniband ports on a device are not used by default. The intent is to use UCX for these devices. You can override this policy by setting the btl_openib_allow_ib MCA parameter to true. Local host: strand-fe2 Local adapter: hfi1_0 Local port: 1
WARNING: There was an error initializing an OpenFabrics device. Local host: strand-fe2 Local device: hfi1_0
想请问一下,上述两个问题如何其中一个,感谢。
|
|