计算化学公社
标题:
求助:cluster上slurm script怎么写跑的最快
[打印本页]
作者Author:
FrancisLi
时间:
2022-7-2 02:46
标题:
求助:cluster上slurm script怎么写跑的最快
本帖最后由 FrancisLi 于 2022-7-2 03:38 编辑
各位老师好!目前组里的cluster上有一个GPU node,和两个NVIDIA Titan V graphics cards,组里目前只有我跑gmx用GPU,所以想问下各位老师,script要怎么写才能最大程度物尽其用,跑到最快呀,以及一次跑多少个任务最合适?感谢老师们!
这个是我目前用的script:
#! /bin/bash -l
#SBATCH -p gpu
#SBATCH --job-name=try
#SBATCH --ntasks 1 #Number of cores
#SBATCH -t 133:30:00
#SBATCH --mem=15g
module load gromacs
module load cuda/10.2
module load gcc
gmx grompp -f mini.mdp -c min.gro -p sys.top -o em -po miniout.mdp
gmx mdrun -s em.tpr -deffnm em
gmx grompp -f eql.mdp -c em.gro -p sys.top -o eql -po eqlout.mdp
gmx mdrun -s eql.tpr -deffnm eql -nt 10 -pin on -pinoffset 0 -pinstride 1 -gpu_id 0 -update gpu
复制代码
gmx mdrun -s eql.tpr -deffnm eql -nt 10 -pin on -pinoffset 10 -pinstride 1 -gpu_id 1 -update gpu # use another gpu
复制代码
这是gmx检测到的电脑配置:
Running on 1 node with total 20 cores, 40 logical cores, 2 compatible GPUs
Hardware detected:
CPU info:
Vendor: Intel
Brand: Intel(R) Xeon(R) Silver 4210 CPU @ 2.20GHz
Family: 6 Model: 85 Stepping: 7
Features: aes apic avx avx2 avx512f avx512cd avx512bw avx512vl clfsh cmov cx8 cx16 f16c fma hle htt intel lahf mmx msr nonstop_tsc pcid pclmuldq pdcm pdpe1gb popcnt pse rdrnd rdtscp rtm sse2 sse3 sse4.1 sse4.2 ssse3 tdt x2apic
Number of AVX-512 FMA units: 1 (AVX2 is faster w/o 2 AVX-512 FMA units)
Hardware topology: Basic
Sockets, cores, and logical processors:
Socket 0: [ 0 20] [ 1 21] [ 2 22] [ 3 23] [ 4 24] [ 5 25] [ 6 26] [ 7 27] [ 8 28] [ 9 29]
Socket 1: [ 10 30] [ 11 31] [ 12 32] [ 13 33] [ 14 34] [ 15 35] [ 16 36] [ 17 37] [ 18 38] [ 19 39]
GPU info:
Number of GPUs detected: 2
#0: NVIDIA TITAN V, compute cap.: 7.0, ECC: no, stat: compatible
#1: NVIDIA TITAN V, compute cap.: 7.0, ECC: no, stat: compatible
复制代码
恳请老师们指教!感谢!
作者Author:
abin
时间:
2022-7-2 13:08
本帖最后由 abin 于 2022-7-2 13:11 编辑
这玩意就你用,
sallocate 整个机器都给你了,
你随便折腾。
看样子,又不会按照时间收钱的。
另,调度器的工作或者职责,这仅仅是把给你一个授权,
让你去相应的硬件资源上去。
之后,只要你所有的操作都在这些指定的硬件上,
那调度器就和你的实际操作没有任何关系了。
作者Author:
FrancisLi
时间:
2022-7-3 01:02
abin 发表于 2022-7-2 13:08
这玩意就你用,
sallocate 整个机器都给你了,
你随便折腾。
原来如此,感谢解答!还想问一下,在cluster上跑,我mdrun里写-gpu_id 0能起作用吗,还是说slurm会自动帮我分配用哪个GPU,我自己不能选?
欢迎光临 计算化学公社 (http://bbs.keinsci.com/)
Powered by Discuz! X3.3