计算化学公社

 找回密码 Forget password
 注册 Register
Views: 10431|回复 Reply: 8
打印 Print 上一主题 Last thread 下一主题 Next thread

[新手求助] 关于orca如何在集群上并行,求帮忙

[复制链接 Copy URL]

5

帖子

0

威望

299

eV
积分
304

Level 3 能力者

跳转到指定楼层 Go to specific reply
楼主
我在集群上提交orca脚本后,计算到某个固定的数值,out输出就卡住,但是机器还在计算。


这个是论坛,坛友发的pbs脚本
#!/bin/bash
#PBS -N orca
#PBS -j oe
#PBS -l nodes=node03:ppn=96+node04:ppn=96+node05:ppn=96

cd $PBS_O_WORKDIR
echo Time is `date`
echo Directory is $PWD
echo This job runs on the following nodes:
cat $PBS_NODEFILE
NCPUS=`wc -l<$PBS_NODEFILE`
echo This job has allocated $NCPUS nodes

export OMP_NUM_THREADS=1
#ulimit -d unlimited
#ulimit -m unlimited
ulimit -s unlimited
ulimit -n 10000
#ulimit -t unlimited
#ulimit -v unlimited
export PATH=/home/xxx/Downloads/openmpi3/bin:$PATH
export LD_LIBRARY_PATH=/home/xxx/Downloads/openmpi3/lib:$LD_LIBRARY_PATH
/home/xxx/Downloads/orca/orca/orca_4_2_1_linux_x86-64_openmpi314/orca  orca_big_test.inp > big.out


评分 Rate

参与人数
Participants 1
eV +4 收起 理由
Reason
yaoyuan0711 + 4 谢谢分享

查看全部评分 View all ratings

2422

帖子

1

威望

6155

eV
积分
8597

Level 6 (一方通行)

2#
发表于 Post on 2021-2-25 14:28:05 | 只看该作者 Only view this author
不要那么贪心呀。
先来一个苯环, 算个结构优化+频率,保证30分钟可以搞定的。

然后修改如上脚本,先要一个节点,12个核心试试。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

5

帖子

0

威望

299

eV
积分
304

Level 3 能力者

3#
 楼主 Author| 发表于 Post on 2021-2-25 14:32:44 | 只看该作者 Only view this author
abin 发表于 2021-2-25 14:28
不要那么贪心呀。
先来一个苯环, 算个结构优化+频率,保证30分钟可以搞定的。

单节点是可以正常计算的,我现在需要在集群上计算,但是不知道该怎么设置了

2422

帖子

1

威望

6155

eV
积分
8597

Level 6 (一方通行)

4#
发表于 Post on 2021-2-25 14:43:08 | 只看该作者 Only view this author
wasd269358 发表于 2021-2-25 14:32
单节点是可以正常计算的,我现在需要在集群上计算,但是不知道该怎么设置了

请修改以上脚本,要一个节点看看可否运行?
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

5

帖子

0

威望

299

eV
积分
304

Level 3 能力者

5#
 楼主 Author| 发表于 Post on 2021-2-25 14:44:33 | 只看该作者 Only view this author
abin 发表于 2021-2-25 14:43
请修改以上脚本,要一个节点看看可否运行?

单节点是可以计算完成的,加了节点后就不行了

166

帖子

0

威望

3005

eV
积分
3171

Level 5 (御坂)

6#
发表于 Post on 2021-2-25 14:46:48 | 只看该作者 Only view this author
这种跨节点的没跑过。

368

帖子

0

威望

4677

eV
积分
5045

Level 6 (一方通行)

7#
发表于 Post on 2021-2-25 14:53:30 | 只看该作者 Only view this author
这个脚本没有什么太大问题,按照你的描述,你也提交上去了,只是算到某一部分卡住了,输出文件不更新了,但是计算节点的进程都还在,这说明脚本正常提交了,任务也正常算了,你要做的应该是找到卡住的原因。你可以找个不那么大的作业,先申请在两个节点上跑,每个节点申请少一点的cpu数目,比如4或者8,看看是否可以正常运算,如果可以,那就说明跨节点没啥问题。如果也不正常卡住,那说明跨节点出了问题。一步一步找出问题在分析。

另外,orca之前的并行效率不高,说明书里明确说了不要超过16个cpu核心。现在的说明书虽然已经去除了这个限制,但是我估计整体的并行效率应该也不是那么高,所以申请288个核可能太多了。当并行效率不高的时候,越多的cpu会越慢,这个也可能是卡顿的原因之一。

2422

帖子

1

威望

6155

eV
积分
8597

Level 6 (一方通行)

8#
发表于 Post on 2021-2-25 15:05:29 | 只看该作者 Only view this author
wasd269358 发表于 2021-2-25 14:44
单节点是可以计算完成的,加了节点后就不行了

原因可能如下:
核心太多,
计算通讯网络太差。
要那么多核心做什么?

盲猜, 如果确认单个节点可以运行,
那么就是要的核心太多了。

是否网络瓶颈导致卡机,
要看具体算什么东西?
如果是激发态计算,Sob套件得到的“计算最快”的那一个输入配置方案,
需要I/O支撑。

如果使用288个处理器核心,
你要考虑,你的读写磁盘,是否支持同时写288个进程,
每一个进程还能保证1Gb/s左右。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

6万

帖子

99

威望

5万

eV
积分
124671

管理员

公社社长

9#
发表于 Post on 2021-2-25 20:05:49 | 只看该作者 Only view this author
一方面ORCA并行效率不算高,另一方面官方都明确说没有在跨节点的效率方面做任何考虑(和CP2K、NWChem等看重大规模并行的程序情况完全不同),用更多节点大概率耗时不降反升。
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办极高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入北京科音微信公众号获取北京科音培训的最新消息,并避免错过网上有价值的计算化学文章!
欢迎加入人气极高、专业性特别强的理论与计算化学综合交流群思想家公社QQ群(群号见此链接),合计达一万多人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大、极为流行的量子化学波函数分析程序)
Google Scholar:https://scholar.google.com/citations?user=tiKE0qkAAAAJ
ResearchGate:https://www.researchgate.net/profile/Tian_Lu

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2026-1-24 06:09 , Processed in 0.169876 second(s), 23 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list