计算化学公社

标题: Ubuntu单机提交多个vasp作业效率骤降,如何解决? [打印本页]

作者
Author:
九月九    时间: 2022-11-16 09:06
标题: Ubuntu单机提交多个vasp作业效率骤降,如何解决?
各位老师好,我在Ubuntu单机(72核,144线程)下提交vasp作业,用的slurm调度系统。首先测试了单个作业多少核的并行效率最高,测试结果如图
可以看出14核的效率最高,单个作业耗时约106s。随后我同时提交3个一样的vasp作业,发现每个作业耗时大幅度增加,为190s。可以看出多任务提交会严重影响效率。请问是否有办法解决这个问题呢,多谢!

作者
Author:
sobereva    时间: 2022-11-16 20:44
建议看此文http://bbs.keinsci.com/thread-19773-1-1.html
作者
Author:
九月九    时间: 2022-11-17 08:59
sobereva 发表于 2022-11-16 20:44
建议看此文http://bbs.keinsci.com/thread-19773-1-1.html

谢谢社长!
作者
Author:
abin    时间: 2022-11-17 09:26
slurm可以自动处理绑定事宜。
除非是配置错了。

作者
Author:
九月九    时间: 2022-11-17 15:33
本帖最后由 九月九 于 2022-11-17 16:29 编辑
abin 发表于 2022-11-17 09:26
slurm可以自动处理绑定事宜。
除非是配置错了。


我是这么配置的,请您看看是否有问题。
1.安装slurm,按照http://bbs.keinsci.com/thread-32750-1-1.html配置,最终输入sinfo,显示:
  1. star-X12DPi-N-T-6    up   infinite      1   idle star-X12DPi-N-T-6
复制代码

看起来应该没问题。
2.设置允许单节点提交多个任务,修改配置文件vi /etc/slurm-llnl/slurm.conf中的SchedulerType和SelectType为
  1. #SchedulerType=sched/backfill
  2. #SelectType=select/linear
  3. SelectType=select/cons_res
  4. SelectTypeParameters=CR_CPU
复制代码

之后重启slurm,经测试,可以提交多个作业。
脚本内容为:
  1. #!/bin/bash
  2. #SBATCH -J vasp
  3. #SBATCH -p star-X12DPi-N-T-6
  4. #SBATCH -N 1
  5. #SBATCH -n 14
  6. #SBATCH -e ee
  7. #SBATCH -o oo

  8. source /opt/intel/oneapi/setvars.sh intel64

  9. ulimit -d unlimited
  10. ulimit -m unlimited
  11. ulimit -s unlimited
  12. ulimit -t unlimited
  13. ulimit -v unlimited
  14. ulimit -l unlimited

  15. mpirun vasp_std > vasp.out 2>vasp.err
复制代码

提交作业之后显示:
  1.              JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
  2.                 89 star-X12D Gaussian     star  R       0:10      1 star-X12DPi-N-T-6
  3.                 90 star-X12D Gaussian     star  R       0:04      1 star-X12DPi-N-T-6
复制代码

请您看看是否哪里有问题,多谢!
作者
Author:
abin    时间: 2022-11-17 18:24
九月九 发表于 2022-11-17 15:33
我是这么配置的,请您看看是否有问题。
1.安装slurm,按照http://bbs.keinsci.com/thread-32750-1-1.h ...

slurm配置很灵活,
涉及多个层面。

鄙人技能有限,根据你提供的资料,无法提供有价值的信息。

建议,看手册,关键词,cgroup 。

调试到,达到预期要求就是配置对了。


作者
Author:
九月九    时间: 2022-11-18 08:50
abin 发表于 2022-11-17 18:24
slurm配置很灵活,
涉及多个层面。

嗯,谢谢!
作者
Author:
scprosper    时间: 2025-1-24 21:15
请问单机多任务效率低下的问题解决了吗?我这边双路9654测试,4个任务同时计算,每个计算速度大概变为原来的1/4,没有找到解决办法。
作者
Author:
abin    时间: 2025-1-25 12:27
双路9654,每一颗处理器用一半的物理核心……
两颗处理器当作一颗用,速度最快……


另外一个真理是,物美和价廉,不能同时成立。
这些芯片公司,又不存在跨世代的差异……

作为商家,当然愿意出单价更高的产品了……
作为推荐者,拿到的分红也会更多……
大概如此……




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3