计算化学公社

 找回密码 Forget password
 注册 Register
Views: 2522|回复 Reply: 5
打印 Print 上一主题 Last thread 下一主题 Next thread

[集群维护] 求助: slrum集群用sbatch提交速度慢一倍

[复制链接 Copy URL]

251

帖子

4

威望

4404

eV
积分
4735

Level 6 (一方通行)

本帖最后由 djjj148 于 2022-5-31 19:08 编辑

自建的slurm集群,偶然发现用sbatch后台提交cp2k计算,耗时相比于直接sh提交脚本多了整整一倍,不知哪里出了问题,向大家求助。具体情况如下:为了控制变量,所有的情况都是用一个脚本cp2k.sh提交任务的:
  1. #!/bin/sh
  2. #SBATCH -J cp2k_m
  3. #SBATCH -n 20
  4. #SBATCH -p c20
  5. #SBATCH --nodes=1

  6. let TotalCore=20

  7. export EXE="singularity exec /opt/cp2k91_avx2.sif"

  8. source /opt/intel2018/parallel_studio_xe_2018/psxevars.sh

  9. time mpirun -np ${TotalCore} ${EXE} cp2k.popt cp2k.inp 1>cp2k.out 2>cp2k.err
复制代码


情况1:sbatch cp2k.sh
情况2:nohup sh cp2k.sh &
情况3:先salloc -n 20,通过slurm得到对应节点资源,再ssh到对应节点,最后nohup sh cp2k.sh &
发现情况2和3的运行速度都是1的两倍,但是top查看到的cpu负载都是一样的。



12

帖子

0

威望

885

eV
积分
897

Level 4 (黑子)

6#
发表于 Post on 2023-11-23 19:43:36 | 只看该作者 Only view this author
djjj148 发表于 2022-6-9 20:52
三种情况都是一个脚本运行的,用的核数自然都一样。

您好,我最近也在自建的slurm集群上遇到了同样的问题,请问一下具体修改哪些配置可以解决这个问题呢?

70

帖子

0

威望

2185

eV
积分
2255

Level 5 (御坂)

5#
发表于 Post on 2022-9-26 10:35:29 | 只看该作者 Only view this author
您好,我尝试用第三种方式在集群中后台提交任务,我发现scancel取消Job ID后,CP2K还在跑,所以在此向您请教,您是如何停止运行任务的。

251

帖子

4

威望

4404

eV
积分
4735

Level 6 (一方通行)

4#
 楼主 Author| 发表于 Post on 2022-6-9 20:52:04 | 只看该作者 Only view this author
三种情况都是一个脚本运行的,用的核数自然都一样。


问题已解决,是slurm的配置出了问题

4

帖子

0

威望

9

eV
积分
13

Level 1 能力者

3#
发表于 Post on 2022-6-8 12:57:06 | 只看该作者 Only view this author
你只使用20个线程跑么?? 情况1使用了多少个

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

2#
发表于 Post on 2022-5-31 19:51:48 | 只看该作者 Only view this author
显然是有搞错的地方了…
和脚本有啥关系…
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 19:15 , Processed in 0.225566 second(s), 31 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list