计算化学公社

标题: 求助orca跨节点并行问题 [打印本页]

作者
Author:
498746012    时间: 2021-3-12 19:30
标题: 求助orca跨节点并行问题
各位老师打扰了,下边的slurm脚本orca计算单个节点可以运行,但是跨节点的时候总是一个节点在算,其他节点top都没有计算进程,如何简单的修改下边的slurm脚本可以跨节点运行呀?

#!/bin/bash
#
#SBATCH --nodes=3               # allocate 1 nodes for the job
#SBATCH --ntasks-per-node=3     # allocate 20 cores for the job
#SBATCH --time=72:00:00
#SBATCH -o output.%J.out # the file to write stdout for job
#SBATCH -e output.%J.err # the file to write stderr for job
#SBATCH --job-name=a.inp

input=a.inp

jobname=$(echo "${input%.*}")

# start
export PATH=$PATH:/home/guojd/openmpi313/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/home/guojd/openmpi313/lib
export PATH=$PATH:/home/guojd/orca421
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/home/guojd/orca421
export RSH_COMMAND="ssh -x"

scratch="/tmp/$USER/$SLURM_JOB_ID"

if [ ! -d $scratch ]; then
    mkdir -p $scratch
fi

export GAUSS_SCRDIR=$scratch

# run Gaussian 09
time /home/guojd/orca421/orca $input 2>&1 | tee $jobname.out

if [ -f $scratch/*.chk ]; then
    cp $scratch/*.chk $SLURM_SUBMIT_DIR
fi

rm -rf $scratch



作者
Author:
ms860309    时间: 2021-3-15 01:16
可以參考看看
https://orcaforum.kofo.mpg.de/viewtopic.php?f=9&t=7094

另外orca user manual page 7
作者
Author:
498746012    时间: 2021-3-15 09:01
ms860309 发表于 2021-3-15 01:16
可以參考看看
https://orcaforum.kofo.mpg.de/viewtopic.php?f=9&t=7094

谢谢老师
作者
Author:
498746012    时间: 2021-4-6 21:28
ms860309 发表于 2021-3-15 01:16
可以參考看看
https://orcaforum.kofo.mpg.de/viewtopic.php?f=9&t=7094

老师您好,学生没有编程基础,能不能麻烦您多说几句,如何才能实现orca的跨节点并行呀
作者
Author:
abin    时间: 2021-4-6 22:00
498746012 发表于 2021-4-6 21:28
老师您好,学生没有编程基础,能不能麻烦您多说几句,如何才能实现orca的跨节点并行呀

另一个很相似的帖子,
应该也是你发的。

如果你测试其他的可以多节点并行没有问题,
那么
可以测试:
#SBATCH --nodes=2               # allocate 1 nodes for the job
#SBATCH --ntasks-per-node=2     # allocate 20 cores for the job

从偶数开始测试。 一上来就搞3,有时候,就莫名其妙了。
作者
Author:
498746012    时间: 2021-4-6 22:47
abin 发表于 2021-4-6 22:00
另一个很相似的帖子,
应该也是你发的。

谢谢老师,这个试过了,还是不能跨节点并行
作者
Author:
abin    时间: 2021-4-6 23:06
498746012 发表于 2021-4-6 22:47
谢谢老师,这个试过了,还是不能跨节点并行

我给你图片展示了,
这种设定没有问题呀。
我的集群上,能跑呀。

集群设置问题,我推测。
这玩意又不是一两句能量明白的。
如果集群是你做的,建议看记录,从头翻一遍。

如果不是你做的,
去看看slurm日志,里面会讲原因的。
作者
Author:
498746012    时间: 2021-4-6 23:11
abin 发表于 2021-4-6 23:06
我给你图片展示了,
这种设定没有问题呀。
我的集群上,能跑呀。

谢谢老师
作者
Author:
ms860309    时间: 2021-4-29 10:36
498746012 发表于 2021-4-6 21:28
老师您好,学生没有编程基础,能不能麻烦您多说几句,如何才能实现orca的跨节点并行呀

不好意思  沒看見tag的提醒

具體來說  你的cluster還需要有 hwloc  (yum install numactl-devel)
之後再重新compile openmpi就可以了

這需要root權限

如果裝上了 理論上就可以了,這和pbs或者slurm job設定檔沒多大關係,job file只要有設定node數量就可以了
作者
Author:
498746012    时间: 2021-4-29 11:52
ms860309 发表于 2021-4-29 10:36
不好意思  沒看見tag的提醒

具體來說  你的cluster還需要有 hwloc  (yum install numactl-devel)

谢谢老师
作者
Author:
是aweia    时间: 2022-4-2 22:21
题主你好  我最近也遇到了同样的问题 非常头疼 有幸在论坛上看到了你的贴子 请问您具体做了哪些修改呢  
作者
Author:
abin    时间: 2022-4-2 23:30
如果多节点操作
由于ORCA要频繁写硬盘,
要保证多个进程数据高度同步,
所以,不支持多机器写NFS .

然后,修改为本地读写即可。

如果你看了如上描述不晓得
我在讲啥,那你自己搞不定。

你应该找你的IT技术支持来处理。
作者
Author:
498746012    时间: 2022-4-6 16:32
abin 发表于 2022-4-2 23:30
如果多节点操作
由于ORCA要频繁写硬盘,
要保证多个进程数据高度同步,

谢谢老师




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3