计算化学公社

标题: 关于orca如何在集群上并行,求帮忙 [打印本页]

作者
Author:
wasd269358    时间: 2021-2-25 14:02
标题: 关于orca如何在集群上并行,求帮忙
我在集群上提交orca脚本后,计算到某个固定的数值,out输出就卡住,但是机器还在计算。


这个是论坛,坛友发的pbs脚本
#!/bin/bash
#PBS -N orca
#PBS -j oe
#PBS -l nodes=node03:ppn=96+node04:ppn=96+node05:ppn=96

cd $PBS_O_WORKDIR
echo Time is `date`
echo Directory is $PWD
echo This job runs on the following nodes:
cat $PBS_NODEFILE
NCPUS=`wc -l<$PBS_NODEFILE`
echo This job has allocated $NCPUS nodes

export OMP_NUM_THREADS=1
#ulimit -d unlimited
#ulimit -m unlimited
ulimit -s unlimited
ulimit -n 10000
#ulimit -t unlimited
#ulimit -v unlimited
export PATH=/home/xxx/Downloads/openmpi3/bin:$PATH
export LD_LIBRARY_PATH=/home/xxx/Downloads/openmpi3/lib:$LD_LIBRARY_PATH
/home/xxx/Downloads/orca/orca/orca_4_2_1_linux_x86-64_openmpi314/orca  orca_big_test.inp > big.out



作者
Author:
abin    时间: 2021-2-25 14:28
不要那么贪心呀。
先来一个苯环, 算个结构优化+频率,保证30分钟可以搞定的。

然后修改如上脚本,先要一个节点,12个核心试试。

作者
Author:
wasd269358    时间: 2021-2-25 14:32
abin 发表于 2021-2-25 14:28
不要那么贪心呀。
先来一个苯环, 算个结构优化+频率,保证30分钟可以搞定的。

单节点是可以正常计算的,我现在需要在集群上计算,但是不知道该怎么设置了
作者
Author:
abin    时间: 2021-2-25 14:43
wasd269358 发表于 2021-2-25 14:32
单节点是可以正常计算的,我现在需要在集群上计算,但是不知道该怎么设置了

请修改以上脚本,要一个节点看看可否运行?
作者
Author:
wasd269358    时间: 2021-2-25 14:44
abin 发表于 2021-2-25 14:43
请修改以上脚本,要一个节点看看可否运行?

单节点是可以计算完成的,加了节点后就不行了
作者
Author:
alwens    时间: 2021-2-25 14:46
这种跨节点的没跑过。
作者
Author:
pwzhou    时间: 2021-2-25 14:53
这个脚本没有什么太大问题,按照你的描述,你也提交上去了,只是算到某一部分卡住了,输出文件不更新了,但是计算节点的进程都还在,这说明脚本正常提交了,任务也正常算了,你要做的应该是找到卡住的原因。你可以找个不那么大的作业,先申请在两个节点上跑,每个节点申请少一点的cpu数目,比如4或者8,看看是否可以正常运算,如果可以,那就说明跨节点没啥问题。如果也不正常卡住,那说明跨节点出了问题。一步一步找出问题在分析。

另外,orca之前的并行效率不高,说明书里明确说了不要超过16个cpu核心。现在的说明书虽然已经去除了这个限制,但是我估计整体的并行效率应该也不是那么高,所以申请288个核可能太多了。当并行效率不高的时候,越多的cpu会越慢,这个也可能是卡顿的原因之一。
作者
Author:
abin    时间: 2021-2-25 15:05
wasd269358 发表于 2021-2-25 14:44
单节点是可以计算完成的,加了节点后就不行了

原因可能如下:
核心太多,
计算通讯网络太差。
要那么多核心做什么?

盲猜, 如果确认单个节点可以运行,
那么就是要的核心太多了。

是否网络瓶颈导致卡机,
要看具体算什么东西?
如果是激发态计算,Sob套件得到的“计算最快”的那一个输入配置方案,
需要I/O支撑。

如果使用288个处理器核心,
你要考虑,你的读写磁盘,是否支持同时写288个进程,
每一个进程还能保证1Gb/s左右。

作者
Author:
sobereva    时间: 2021-2-25 20:05
一方面ORCA并行效率不算高,另一方面官方都明确说没有在跨节点的效率方面做任何考虑(和CP2K、NWChem等看重大规模并行的程序情况完全不同),用更多节点大概率耗时不降反升。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3