计算化学公社

标题: slurm24测试多点节点计算的脚本和slurm配置 [打印本页]

作者
Author:
naxiangzi    时间: 2024-11-7 22:45
标题: slurm24测试多点节点计算的脚本和slurm配置
本帖最后由 naxiangzi 于 2024-11-7 22:49 编辑

目前测试 sbatch test.sh 发现所在节点可以运行, 但其它节点没有运行。
配置2台,主控+计算节点,计算节点1台

cpu:
  1. 架构:           x86_64
  2. CPU 运行模式:   32-bit, 64-bit
  3. 字节序:         Little Endian
  4. CPU:             152
  5. 在线 CPU 列表:  0-151
  6. 每个核的线程数: 2
  7. 每个座的核数:   38
  8. 座:             2
  9. NUMA 节点:      2
  10. 厂商 ID:        GenuineIntel
  11. BIOS Vendor ID:  Intel(R) Corporation
  12. CPU 系列:       6
  13. 型号:           106
  14. 型号名称:       Intel(R) Xeon(R) Platinum 8378C CPU @ 2.80GHz
复制代码
内存:
  1. total        used        free      shared  buff/cache   available
  2. Mem:          251Gi       5.3Gi       238Gi       4.0Gi       7.0Gi       239Gi
  3. Low:          251Gi        12Gi       238Gi
复制代码



slurm.conf配置如下
  1. ################################################
  2. #                    NODES                     #
  3. ################################################

  4. NodeName=master NodeAddr=192.168.0.100 CPUs=152 CoresPerSocket=38 ThreadsPerCore=2 RealMemory=2450 Procs=1 State=UNKNOWN
  5. NodeName=node01 NodeAddr=192.168.0.101 CPUs=152 CoresPerSocket=38 ThreadsPerCore=2 RealMemory=2450 Procs=1 State=UNKNOWN

  6. ################################################
  7. #                  PARTITIONS                  #
  8. ################################################
  9. PartitionName=compute Nodes=All Default=YES MaxTime=INFINITE State=UP
复制代码
脚本:网上抄的,不知有没有对

  1. #!/bin/bash

  2. #SBATCH -J h5_group

  3. #SBATCH -p normal

  4. #SBATCH -N 2

  5. #SBATCH -n 1

  6. #SBATCH --mem=1G

  7. #SBATCH -D /public/home/xxx/xxx/HDF5/h5_test

  8. #SBATCH --gres=dcu:1

  9. #SBATCH -o h5_group.o%j

  10. #SBATCH -e h5_group.e%j

  11. echo "Start time: `date` "

  12. echo "SLURM_JOB_ID:$SLURM_JOB_ID"

  13. echo "SLURM_NNODES:$SLURM_NNODES"

  14. echo "SLURM_TASKS_PER_NODE:$SLURM_TASKS_PER_NODE"

  15. echo "SLURM_NTASK:$SLURM_NTASK"

  16. echo "SLURM_JOB_PARTITION:$SLURM_JOB_PARTITION"

  17. srun ./h5_group

  18. # (mpirun ./test)

  19. echo "End time: `date`"
复制代码

squeue: 有看到节点,一会儿,再次运行,就没内容了
  1. [hermit@master public]$ squeue
  2.              JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
  3.                 66   compute simple_m    sutai  R       1:06      2 master,node01
复制代码
master: htop 有看到在跑cpu,node01节点没有看到
[hermit@master ~]$ slurmd -C
NodeName=master CPUs=152 Boards=1 SocketsPerBoard=2 CoresPerSocket=38 ThreadsPerCore=2 RealMemory=257268
UpTime=2-02:35:36








欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3