计算化学公社

标题: 求助：cluster上slurm script怎么写跑的最快 [打印本页]

作者
Author: FrancisLi 时间: 2022-7-2 02:46
标题: 求助：cluster上slurm script怎么写跑的最快
本帖最后由 FrancisLi 于 2022-7-2 03:38 编辑

各位老师好！目前组里的cluster上有一个GPU node，和两个NVIDIA Titan V graphics cards，组里目前只有我跑gmx用GPU，所以想问下各位老师，script要怎么写才能最大程度物尽其用，跑到最快呀，以及一次跑多少个任务最合适？感谢老师们！

这个是我目前用的script：

#! /bin/bash -l
#SBATCH -p gpu
#SBATCH --job-name=try
#SBATCH --ntasks 1 #Number of cores
#SBATCH -t 133:30:00
#SBATCH --mem=15g
module load gromacs
module load cuda/10.2
module load gcc
gmx grompp -f mini.mdp -c min.gro -p sys.top -o em -po miniout.mdp
gmx mdrun -s em.tpr -deffnm em
gmx grompp -f eql.mdp -c em.gro -p sys.top -o eql -po eqlout.mdp
gmx mdrun -s eql.tpr -deffnm eql -nt 10 -pin on -pinoffset 0 -pinstride 1 -gpu_id 0 -update gpu

复制代码

gmx mdrun -s eql.tpr -deffnm eql -nt 10 -pin on -pinoffset 10 -pinstride 1 -gpu_id 1 -update gpu # use another gpu

复制代码

这是gmx检测到的电脑配置：

Running on 1 node with total 20 cores, 40 logical cores, 2 compatible GPUs
Hardware detected:
CPU info:
Vendor: Intel
Brand: Intel(R) Xeon(R) Silver 4210 CPU @ 2.20GHz
Family: 6 Model: 85 Stepping: 7
Features: aes apic avx avx2 avx512f avx512cd avx512bw avx512vl clfsh cmov cx8 cx16 f16c fma hle htt intel lahf mmx msr nonstop_tsc pcid pclmuldq pdcm pdpe1gb popcnt pse rdrnd rdtscp rtm sse2 sse3 sse4.1 sse4.2 ssse3 tdt x2apic
Number of AVX-512 FMA units: 1 (AVX2 is faster w/o 2 AVX-512 FMA units)
Hardware topology: Basic
Sockets, cores, and logical processors:
Socket 0: [ 0 20] [ 1 21] [ 2 22] [ 3 23] [ 4 24] [ 5 25] [ 6 26] [ 7 27] [ 8 28] [ 9 29]
Socket 1: [ 10 30] [ 11 31] [ 12 32] [ 13 33] [ 14 34] [ 15 35] [ 16 36] [ 17 37] [ 18 38] [ 19 39]
GPU info:
Number of GPUs detected: 2
#0: NVIDIA TITAN V, compute cap.: 7.0, ECC: no, stat: compatible
#1: NVIDIA TITAN V, compute cap.: 7.0, ECC: no, stat: compatible

复制代码

恳请老师们指教！感谢！

作者
Author: abin 时间: 2022-7-2 13:08
本帖最后由 abin 于 2022-7-2 13:11 编辑

这玩意就你用，
sallocate 整个机器都给你了，
你随便折腾。

看样子，又不会按照时间收钱的。

另，调度器的工作或者职责，这仅仅是把给你一个授权，
让你去相应的硬件资源上去。
之后，只要你所有的操作都在这些指定的硬件上，
那调度器就和你的实际操作没有任何关系了。

作者
Author: FrancisLi 时间: 2022-7-3 01:02

abin 发表于 2022-7-2 13:08
这玩意就你用，
sallocate 整个机器都给你了，
你随便折腾。

原来如此，感谢解答！还想问一下，在cluster上跑，我mdrun里写-gpu_id 0能起作用吗，还是说slurm会自动帮我分配用哪个GPU，我自己不能选？

欢迎光临计算化学公社 (http://bbs.keinsci.com/)