计算化学公社

 找回密码 Forget password
 注册 Register
Views: 68|回复 Reply: 0
打印 Print 上一主题 Last thread 下一主题 Next thread

[shell脚本] slurm24测试多点节点计算的脚本和slurm配置

[复制链接 Copy URL]

2

帖子

0

威望

15

eV
积分
17

Level 1 能力者

跳转到指定楼层 Go to specific reply
楼主
本帖最后由 naxiangzi 于 2024-11-7 22:49 编辑

目前测试 sbatch test.sh 发现所在节点可以运行, 但其它节点没有运行。
配置2台,主控+计算节点,计算节点1台

cpu:
  1. 架构:           x86_64
  2. CPU 运行模式:   32-bit, 64-bit
  3. 字节序:         Little Endian
  4. CPU:             152
  5. 在线 CPU 列表:  0-151
  6. 每个核的线程数: 2
  7. 每个座的核数:   38
  8. 座:             2
  9. NUMA 节点:      2
  10. 厂商 ID:        GenuineIntel
  11. BIOS Vendor ID:  Intel(R) Corporation
  12. CPU 系列:       6
  13. 型号:           106
  14. 型号名称:       Intel(R) Xeon(R) Platinum 8378C CPU @ 2.80GHz
复制代码
内存:
  1. total        used        free      shared  buff/cache   available
  2. Mem:          251Gi       5.3Gi       238Gi       4.0Gi       7.0Gi       239Gi
  3. Low:          251Gi        12Gi       238Gi
复制代码



slurm.conf配置如下
  1. ################################################
  2. #                    NODES                     #
  3. ################################################

  4. NodeName=master NodeAddr=192.168.0.100 CPUs=152 CoresPerSocket=38 ThreadsPerCore=2 RealMemory=2450 Procs=1 State=UNKNOWN
  5. NodeName=node01 NodeAddr=192.168.0.101 CPUs=152 CoresPerSocket=38 ThreadsPerCore=2 RealMemory=2450 Procs=1 State=UNKNOWN

  6. ################################################
  7. #                  PARTITIONS                  #
  8. ################################################
  9. PartitionName=compute Nodes=All Default=YES MaxTime=INFINITE State=UP
复制代码
脚本:网上抄的,不知有没有对

  1. #!/bin/bash

  2. #SBATCH -J h5_group

  3. #SBATCH -p normal

  4. #SBATCH -N 2

  5. #SBATCH -n 1

  6. #SBATCH --mem=1G

  7. #SBATCH -D /public/home/xxx/xxx/HDF5/h5_test

  8. #SBATCH --gres=dcu:1

  9. #SBATCH -o h5_group.o%j

  10. #SBATCH -e h5_group.e%j

  11. echo "Start time: `date` "

  12. echo "SLURM_JOB_ID:$SLURM_JOB_ID"

  13. echo "SLURM_NNODES:$SLURM_NNODES"

  14. echo "SLURM_TASKS_PER_NODE:$SLURM_TASKS_PER_NODE"

  15. echo "SLURM_NTASK:$SLURM_NTASK"

  16. echo "SLURM_JOB_PARTITION:$SLURM_JOB_PARTITION"

  17. srun ./h5_group

  18. # (mpirun ./test)

  19. echo "End time: `date`"
复制代码

squeue: 有看到节点,一会儿,再次运行,就没内容了
  1. [hermit@master public]$ squeue
  2.              JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
  3.                 66   compute simple_m    sutai  R       1:06      2 master,node01
复制代码
master: htop 有看到在跑cpu,node01节点没有看到
[hermit@master ~]$ slurmd -C
NodeName=master CPUs=152 Boards=1 SocketsPerBoard=2 CoresPerSocket=38 ThreadsPerCore=2 RealMemory=257268
UpTime=2-02:35:36



本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 09:05 , Processed in 0.178850 second(s), 21 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list