计算化学公社

标题: 求助:cluster上slurm script怎么写跑的最快 [打印本页]

作者
Author:
FrancisLi    时间: 2022-7-2 02:46
标题: 求助:cluster上slurm script怎么写跑的最快
本帖最后由 FrancisLi 于 2022-7-2 03:38 编辑

各位老师好!目前组里的cluster上有一个GPU node,和两个NVIDIA Titan V graphics cards,组里目前只有我跑gmx用GPU,所以想问下各位老师,script要怎么写才能最大程度物尽其用,跑到最快呀,以及一次跑多少个任务最合适?感谢老师们!

这个是我目前用的script:
  1. #! /bin/bash -l
  2. #SBATCH -p gpu
  3. #SBATCH --job-name=try
  4. #SBATCH --ntasks 1 #Number of cores
  5. #SBATCH -t 133:30:00
  6. #SBATCH --mem=15g

  7. module load gromacs
  8. module load cuda/10.2
  9. module load gcc

  10. gmx grompp -f mini.mdp -c min.gro -p sys.top -o em -po miniout.mdp

  11. gmx mdrun -s em.tpr -deffnm em

  12. gmx grompp -f eql.mdp -c em.gro -p sys.top -o eql -po eqlout.mdp

  13. gmx mdrun -s eql.tpr -deffnm eql -nt 10 -pin on -pinoffset 0 -pinstride 1 -gpu_id 0 -update gpu
复制代码
  1. gmx mdrun -s eql.tpr -deffnm eql -nt 10 -pin on -pinoffset 10 -pinstride 1 -gpu_id 1 -update gpu # use another gpu
复制代码

这是gmx检测到的电脑配置:
  1. Running on 1 node with total 20 cores, 40 logical cores, 2 compatible GPUs
  2. Hardware detected:
  3.   CPU info:
  4.     Vendor: Intel
  5.     Brand:  Intel(R) Xeon(R) Silver 4210 CPU @ 2.20GHz
  6.     Family: 6   Model: 85   Stepping: 7
  7.     Features: aes apic avx avx2 avx512f avx512cd avx512bw avx512vl clfsh cmov cx8 cx16 f16c fma hle htt intel lahf mmx msr nonstop_tsc pcid pclmuldq pdcm pdpe1gb popcnt pse rdrnd rdtscp rtm sse2 sse3 sse4.1 sse4.2 ssse3 tdt x2apic
  8.     Number of AVX-512 FMA units: 1 (AVX2 is faster w/o 2 AVX-512 FMA units)
  9.   Hardware topology: Basic
  10.     Sockets, cores, and logical processors:
  11.       Socket  0: [   0  20] [   1  21] [   2  22] [   3  23] [   4  24] [   5  25] [   6  26] [   7  27] [   8  28] [   9  29]
  12.       Socket  1: [  10  30] [  11  31] [  12  32] [  13  33] [  14  34] [  15  35] [  16  36] [  17  37] [  18  38] [  19  39]
  13.   GPU info:
  14.     Number of GPUs detected: 2
  15.     #0: NVIDIA TITAN V, compute cap.: 7.0, ECC:  no, stat: compatible
  16.     #1: NVIDIA TITAN V, compute cap.: 7.0, ECC:  no, stat: compatible
复制代码

恳请老师们指教!感谢!
作者
Author:
abin    时间: 2022-7-2 13:08
本帖最后由 abin 于 2022-7-2 13:11 编辑

这玩意就你用,
sallocate 整个机器都给你了,
你随便折腾。

看样子,又不会按照时间收钱的。

另,调度器的工作或者职责,这仅仅是把给你一个授权,
让你去相应的硬件资源上去。
之后,只要你所有的操作都在这些指定的硬件上,
那调度器就和你的实际操作没有任何关系了。



作者
Author:
FrancisLi    时间: 2022-7-3 01:02
abin 发表于 2022-7-2 13:08
这玩意就你用,
sallocate 整个机器都给你了,
你随便折腾。

原来如此,感谢解答!还想问一下,在cluster上跑,我mdrun里写-gpu_id 0能起作用吗,还是说slurm会自动帮我分配用哪个GPU,我自己不能选?




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3