计算化学公社

 找回密码 Forget password
 注册 Register
Views: 14835|回复 Reply: 30
打印 Print 上一主题 Last thread 下一主题 Next thread

[CASTEP/Dmol3/MS] MS for Linux CASTEP模块怎样实现两个节点并行计算呢?是需要修改安装路径下的吗?

[复制链接 Copy URL]

38

帖子

0

威望

308

eV
积分
346

Level 3 能力者

本帖最后由 如遇古剑 于 2021-12-20 14:50 编辑

大家好!我想请教大家一个问题,还请大家指点一下,不胜感激!
是这样的:我向服务器上面安装的MS提交一个计算任务,一个节点计算不了,想用两个节点计算,我在PBS脚本里面写的代码是:#PBS -l nodes=2:ppn=48或者是#PBS -l nodes=node5:ppn=48+node6:ppn=48。这样写代码不会报错,出现的问题是节点5可以load 48个核,而node 6一直都是load 0,这是为什么呢?需要怎样设置才可以实现CASTEP的并行计算呢?是不是需要修改安装路径下的某个文件呢?


2301

帖子

1

威望

5477

eV
积分
7798

Level 6 (一方通行)

2#
发表于 Post on 2020-8-9 14:56:49 | 只看该作者 Only view this author
路过问一下, 这个软件的授权限定CPU数目吗?
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

38

帖子

0

威望

308

eV
积分
346

Level 3 能力者

3#
 楼主 Author| 发表于 Post on 2020-8-9 15:00:48 | 只看该作者 Only view this author
abin 发表于 2020-8-9 14:56
路过问一下, 这个软件的授权限定CPU数目吗?

你好,我觉得应该是不限定CPU数的,老师可以指点一下吗?万分感激。

361

帖子

0

威望

4232

eV
积分
4593

Level 6 (一方通行)

4#
发表于 Post on 2020-8-9 15:02:31 | 只看该作者 Only view this author
需要修改Gateway的相应设置,具体是什么我忘了。

38

帖子

0

威望

308

eV
积分
346

Level 3 能力者

5#
 楼主 Author| 发表于 Post on 2020-8-9 15:18:11 | 只看该作者 Only view this author
pwzhou 发表于 2020-8-9 15:02
需要修改Gateway的相应设置,具体是什么我忘了。

请问一下应该修改哪个文件呢?我搜了小*虫和计算化学公社论坛也没有找到解决方案,可以帮我回想一下吗?万分感谢!

120

帖子

0

威望

2562

eV
积分
2682

Level 5 (御坂)

6#
发表于 Post on 2020-8-9 18:21:37 | 只看该作者 Only view this author
在MS自带的帮助文件里查看Installation and Administration > Installing Materials Studio及其相关章节可以设置作业队列相关选项,但是我没找到相关章节直接用RunCASTEP.sh指定结点进行计算。应该可以直接在PBS里用RunCASTEP.sh指定用96个核吧。

361

帖子

0

威望

4232

eV
积分
4593

Level 6 (一方通行)

7#
发表于 Post on 2020-8-9 19:59:36 | 只看该作者 Only view this author
本帖最后由 pwzhou 于 2020-8-9 20:01 编辑
如遇古剑 发表于 2020-8-9 15:18
请问一下应该修改哪个文件呢?我搜了小*虫和计算化学公社论坛也没有找到解决方案,可以帮我回想一下吗? ...

试试下面这个脚本,跨节点是没问题的。如果还有问题,那就是集群并行环境有问题。
  1. #!/bin/sh
  2. #PBS -q parallel
  3. #PBS -l nodes=2:ppn=16
  4. #PBS -j oe

  5. cd $PBS_O_WORKDIR

  6. export MS_INSTALL_ROOT=/home/ms/accelrys/MaterialsStudio7.0
  7. export MPIRUN=$MS_INSTALL_ROOT/bin/mpirun
  8. export CASTEP=$MS_INSTALL_ROOT/bin/castepexe.exe
  9. export I_MPI_ROOT=$MS_INSTALL_ROOT
  10. export PATH=$MS_INSTALL_ROOT/bin:$PATH
  11. export LD_LIBRARY_PATH=$MS_INSTALL_ROOT/lib:$LD_LIBRARY_PATH
  12. export MSI_LIC_PACK_DIR=/home/ms/accelrys/LicensePack
  13. export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$MSI_LIC_PACK_DIR/linux/lib
  14. export PSPOT_DIR=$MS_INSTALL_ROOT/share/Resources/Quantum/Castep/Potentials


  15. NODES=`cat $PBS_NODEFILE | uniq`
  16. echo "--------------------------------------------------------"
  17. echo "  JOBID: $PBS_JOBID"
  18. echo "  The job was started at `date`"
  19. echo "  The job was running at $NODES."

  20. # Run CASTP Job
  21. NP=`cat $PBS_NODEFILE | wc -l`
  22. $MPIRUN -machinefile $PBS_NODEFILE -np $NP $CASTEP Mn4CaO5-w4

  23. echo "  The job was finished at `date`"
  24. echo "--------------------------------------------------------"
复制代码

38

帖子

0

威望

308

eV
积分
346

Level 3 能力者

8#
 楼主 Author| 发表于 Post on 2020-8-9 23:41:10 | 只看该作者 Only view this author
本帖最后由 如遇古剑 于 2021-12-20 14:52 编辑
pwzhou 发表于 2020-8-9 19:59
试试下面这个脚本,跨节点是没问题的。如果还有问题,那就是集群并行环境有问题。

非常感谢你的回复,我安装的是MS2017R2版本,用单节点计算的代码是这样写的:

38

帖子

0

威望

308

eV
积分
346

Level 3 能力者

9#
 楼主 Author| 发表于 Post on 2020-8-9 23:45:15 | 只看该作者 Only view this author
hxd_yi 发表于 2020-8-9 18:21
在MS自带的帮助文件里查看Installation and Administration > Installing Materials Studio及其相关章节可 ...

非常感谢你的回复!好的,我马上查看一下。

361

帖子

0

威望

4232

eV
积分
4593

Level 6 (一方通行)

10#
发表于 Post on 2020-8-10 09:56:16 | 只看该作者 Only view this author
如遇古剑 发表于 2020-8-9 23:41
非常感谢你的回复,我安装的是MS2017R2版本,用单节点计算的代码是这样写的:

RunCASTEP.sh是MS自带的脚本,会调用很多东西,我给你的脚本就是直接绕过这个脚本,用mpirun运行,使用machinefile指定机器,其实脚本没有多复杂,除了环境变量以外,也就mpirun那一行的命令,剩下的echo就是输出一些信息,可有可无的东西,对运行任务没有任何影响。

MS自带的脚本比较复杂,涉及的东西太多,改起来太复杂。索性全部扔掉,直接用mpirun运行即可。

361

帖子

0

威望

4232

eV
积分
4593

Level 6 (一方通行)

11#
发表于 Post on 2020-8-10 10:00:11 | 只看该作者 Only view this author
如遇古剑 发表于 2020-8-9 23:41
非常感谢你的回复,我安装的是MS2017R2版本,用单节点计算的代码是这样写的:

环境变量大同小异,这个是18.1版本的环境变量,根据实际情况改一下即可。

  1. export MS_INSTALL_ROOT=/apps/BIOVIA/MaterialsStudio18.1
  2. export MPIRUN=$MS_INSTALL_ROOT/bin/mpirun
  3. export CASTEP=$MS_INSTALL_ROOT/bin/castepexe.exe
  4. export I_MPI_ROOT=$MS_INSTALL_ROOT
  5. export PATH=$MS_INSTALL_ROOT/bin:$PATH
  6. export LD_LIBRARY_PATH=$MS_INSTALL_ROOT/lib:$LD_LIBRARY_PATH
  7. export MSI_LIC_PACK_DIR=/apps/BIOVIA/BIOVIA_LicensePack
  8. export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$MSI_LIC_PACK_DIR/linux/lib
  9. export PSPOT_DIR=$MS_INSTALL_ROOT/share/Resources/Quantum/Castep/Potentials
复制代码

38

帖子

0

威望

308

eV
积分
346

Level 3 能力者

12#
 楼主 Author| 发表于 Post on 2020-8-10 15:54:36 | 只看该作者 Only view this author
pwzhou 发表于 2020-8-10 10:00
环境变量大同小异,这个是18.1版本的环境变量,根据实际情况改一下即可。

感谢感谢!我去试一下。

103

帖子

0

威望

1200

eV
积分
1303

Level 4 (黑子)

13#
发表于 Post on 2020-8-20 21:20:13 | 只看该作者 Only view this author
pwzhou 发表于 2020-8-10 10:00
环境变量大同小异,这个是18.1版本的环境变量,根据实际情况改一下即可。

这个是怎么用的啊?我复制进提交脚本提交显示不对,有没有简单的条用Castepexe.exe的方法啊?

38

帖子

0

威望

308

eV
积分
346

Level 3 能力者

14#
 楼主 Author| 发表于 Post on 2020-8-20 23:36:22 | 只看该作者 Only view this author
本帖最后由 如遇古剑 于 2020-8-23 19:07 编辑
1138711019 发表于 2020-8-20 21:20
这个是怎么用的啊?我复制进提交脚本提交显示不对,有没有简单的条用Castepexe.exe的方法啊?


38

帖子

0

威望

308

eV
积分
346

Level 3 能力者

15#
 楼主 Author| 发表于 Post on 2020-9-14 19:08:03 | 只看该作者 Only view this author
pwzhou 发表于 2020-8-9 19:59
试试下面这个脚本,跨节点是没问题的。如果还有问题,那就是集群并行环境有问题。

老师,您好!请问一下MS跨节点运行出现以下报错怎么解决啊?用的脚本是老师您给的,我修改了一下路径。望老师能够指点一下,不胜感激!
  1. node11:SCM:14bc4:3095a000: 305 us(305 us):  open_hca: device mlx4_0 not found
  2. node11:SCM:14bc5:cc54d000: 437 us(437 us):  open_hca: device mlx4_0 not found
  3. node11:SCM:14bbf:94284000: 681 us(681 us):  open_hca: device mlx4_0 not found
  4. node11:SCM:14bc2:7b7ce000: 747 us(747 us):  open_hca: device mlx4_0 not found
  5. node11:SCM:14bbe:4158b000: 568 us(568 us):  open_hca: device mlx4_0 not found
  6. node11:SCM:14bc4:3095a000: 377 us(377 us):  open_hca: device mlx4_0 not found
  7. node11:SCM:14bc5:cc54d000: 352 us(352 us):  open_hca: device mlx4_0 not found
  8. node11:SCM:14bc1:e11f3000: 246 us(246 us):  open_hca: device mlx4_0 not found
  9. node11:SCM:14bc0:cffce000: 103 us(103 us):  open_hca: device mlx4_0 not found
  10. node11:SCM:14bbf:94284000: 95 us(95 us):  open_hca: device mlx4_0 not found
  11. node11:SCM:14bc2:7b7ce000: 104 us(104 us):  open_hca: device mlx4_0 not found
  12. node11:SCM:14bbe:4158b000: 96 us(96 us):  open_hca: device mlx4_0 not found
  13. node11:CMA:14bc4:3095a000: 37 us(37 us):  open_hca: getaddr_netdev ERROR:No such device. Is ib0 configured?
  14. node11:SCM:14bc3:f57f3000: 103 us(103 us):  open_hca: device mlx4_0 not found
  15. node11:CMA:14bc5:cc54d000: 36 us(36 us):  open_hca: getaddr_netdev ERROR:No such device. Is ib0 configured?
  16. node11:SCM:14bc1:e11f3000: 96 us(96 us):  open_hca: device mlx4_0 not found
  17. node11:SCM:14bc0:cffce000: 85 us(85 us):  open_hca: device mlx4_0 not found
  18. node11:CMA:14bbf:94284000: 36 us(36 us):  open_hca: getaddr_netdev ERROR:No such device. Is ib0 configured?
  19. node11:CMA:14bc2:7b7ce000: 37 us(37 us):  open_hca: getaddr_netdev ERROR:No such device. Is ib0 configured?
  20. node11:CMA:14bbe:4158b000: 37 us(37 us):  open_hca: getaddr_netdev ERROR:No such device. Is ib0 configured?
  21. node11:CMA:14bc4:3095a000: 38 us(38 us):  open_hca: getaddr_netdev ERROR:No such device. Is ib1 configured?
  22. node11:SCM:14bc3:f57f3000: 92 us(92 us):  open_hca: device mlx4_0 not found
  23. node11:CMA:14bc5:cc54d000: 31 us(31 us):  open_hca: getaddr_netdev ERROR:No such device. Is ib1 configured?
  24. node11:CMA:14bc1:e11f3000: 38 us(38 us):  open_hca: getaddr_netdev ERROR:No such device. Is ib0 configured?
  25. node11:CMA:14bc0:cffce000: 36 us(36 us):  open_hca: getaddr_netdev ERROR:No such device. Is ib0 configured?
  26. node11:CMA:14bbf:94284000: 33 us(33 us):  open_hca: getaddr_netdev ERROR:No such device. Is ib1 configured?
复制代码

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-26 03:30 , Processed in 0.170614 second(s), 20 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list