计算化学公社

标题: 求助: slrum集群用sbatch提交速度慢一倍 [打印本页]

作者
Author:
djjj148    时间: 2022-5-31 19:08
标题: 求助: slrum集群用sbatch提交速度慢一倍
本帖最后由 djjj148 于 2022-5-31 19:08 编辑

自建的slurm集群,偶然发现用sbatch后台提交cp2k计算,耗时相比于直接sh提交脚本多了整整一倍,不知哪里出了问题,向大家求助。具体情况如下:为了控制变量,所有的情况都是用一个脚本cp2k.sh提交任务的:
  1. #!/bin/sh
  2. #SBATCH -J cp2k_m
  3. #SBATCH -n 20
  4. #SBATCH -p c20
  5. #SBATCH --nodes=1

  6. let TotalCore=20

  7. export EXE="singularity exec /opt/cp2k91_avx2.sif"

  8. source /opt/intel2018/parallel_studio_xe_2018/psxevars.sh

  9. time mpirun -np ${TotalCore} ${EXE} cp2k.popt cp2k.inp 1>cp2k.out 2>cp2k.err
复制代码


情况1:sbatch cp2k.sh
情况2:nohup sh cp2k.sh &
情况3:先salloc -n 20,通过slurm得到对应节点资源,再ssh到对应节点,最后nohup sh cp2k.sh &
发现情况2和3的运行速度都是1的两倍,但是top查看到的cpu负载都是一样的。
(, 下载次数 Times of downloads: 137)



作者
Author:
abin    时间: 2022-5-31 19:51
显然是有搞错的地方了…
和脚本有啥关系…
作者
Author:
独孤天血    时间: 2022-6-8 12:57
你只使用20个线程跑么?? 情况1使用了多少个
作者
Author:
djjj148    时间: 2022-6-9 20:52
三种情况都是一个脚本运行的,用的核数自然都一样。


问题已解决,是slurm的配置出了问题
作者
Author:
dongdong    时间: 2022-9-26 10:35
您好,我尝试用第三种方式在集群中后台提交任务,我发现scancel取消Job ID后,CP2K还在跑,所以在此向您请教,您是如何停止运行任务的。
作者
Author:
921927965    时间: 2023-11-23 19:43
djjj148 发表于 2022-6-9 20:52
三种情况都是一个脚本运行的,用的核数自然都一样。

您好,我最近也在自建的slurm集群上遇到了同样的问题,请问一下具体修改哪些配置可以解决这个问题呢?




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3