计算化学公社

 找回密码 Forget password
 注册 Register
楼主 Author: wxyhgk
打印 Print 上一主题 Last thread 下一主题 Next thread

[集群维护] Ubuntu20.04 安装单机slurm教程

  [复制链接 Copy URL]

1

帖子

0

威望

11

eV
积分
12

Level 1 能力者

16#
发表于 Post on 2022-11-9 19:20:10 | 只看该作者 Only view this author
楼主好,可以问一下在输入sinfo之后出现下面这种报错应该如何解决呢?


sinfo: error: If munged is up, restart with --num-threads=10
sinfo: error: Munge encode failed: Failed to access "/run/munge/munge.socket.2": No such file or directory
sinfo: error: authentication: Socket communication error
slurm_load_partitions: Protocol authentication error

196

帖子

5

威望

1211

eV
积分
1507

Level 5 (御坂)

17#
 楼主 Author| 发表于 Post on 2022-11-9 21:30:09 | 只看该作者 Only view this author
shenzekai 发表于 2022-11-9 19:20
楼主好,可以问一下在输入sinfo之后出现下面这种报错应该如何解决呢?

首先停止掉上面的slurm两个服务,卸载两个包,然后重新安装

320

帖子

1

威望

5357

eV
积分
5697

Level 6 (一方通行)

18#
发表于 Post on 2022-11-10 19:52:36 | 只看该作者 Only view this author
本帖最后由 paramecium86 于 2022-11-10 19:55 编辑

您好。我看着这个链接依然没有找到如何让单一node同时队列里运行多个任务的方法。都是提交上去一个在run 剩下的都在priority或者resource。
大概就是这个帖子里的情形 http://bbs.keinsci.com/forum.php ... 774&highlight=slurm

我想加入这个帖子里提到的几个slurm.config 里的控制选项 ,不过都提示错误。

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

19#
发表于 Post on 2022-11-10 20:14:54 | 只看该作者 Only view this author
paramecium86 发表于 2022-11-10 19:52
您好。我看着这个链接依然没有找到如何让单一node同时队列里运行多个任务的方法。都是提交上去一个在run  ...

楼上提到的科大李会民先生写的手册,就很详细了。
如果你看了后,还是不知所云,那么问问你们的IT支持吧。

或者查阅 https://gitee.com/hpc4you/hpc 里面doc目录下的PDF文档,
里面有一部分 Slurm的自我修养,
这部分我罗列了我认为写得通俗易懂而且有很多示例的讲解类的参考资料。
自己看看吧。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

196

帖子

5

威望

1211

eV
积分
1507

Level 5 (御坂)

20#
 楼主 Author| 发表于 Post on 2022-11-10 23:04:45 | 只看该作者 Only view this author
paramecium86 发表于 2022-11-10 19:52
您好。我看着这个链接依然没有找到如何让单一node同时队列里运行多个任务的方法。都是提交上去一个在run  ...

举 g16 来说,我自己写一个配置吧

  1. #!/bin/bash
  2. ##===任务名字====
  3. #SBATCH -J 5950x-g16

  4. #===计算节点===
  5. #SBATCH -p Ubuntu-5950x

  6. #===总核数和数量设定 ===
  7. #SBATCH -N 1
  8. #SBATCH -n 1

  9. #===输入和输出文件===
  10. #SBATCH --output=g16Job%j.out
  11. #SBATCH --error=g16Job%j.err

  12. #===邮件通知===
  13. #SBATCH --mail-user=wxyhgk@qq.com
  14. #SBATCH --mail-type=ALL

  15. #=============== 加载 g16 环境变量 ===========

  16. export g16root=/home/wxyhgk
  17. export GAUSS_SCRDIR=/home/wxyhgk/g16/scratch
  18. source /home/wxyhgk/g16/bsd/g16.profile
  19. export PGI_FASTMATH_CPU=sandybridge
  20. #---------------------分割线-----------------
  21. #---------------------分割线-----------------
  22. #====运行命令====
  23. rm -f $HOME/g16/scratch/* #每次计算清空缓存文件

  24. # 运行任务1
  25. g16 $1

  26. # 运行任务2
  27. g16 $2
复制代码
上面的计算节点中的 Ubuntu-5950x 修改成你的计算节点

运行 sbatch g16.slurm name1.gjf name2.gjf 修改name1和name2名字即可

320

帖子

1

威望

5357

eV
积分
5697

Level 6 (一方通行)

21#
发表于 Post on 2022-11-11 09:46:42 | 只看该作者 Only view this author
wxyhgk 发表于 2022-11-10 23:04
举 g16 来说,我自己写一个配置吧

上面的计算节点中的 Ubuntu-5950x 修改成你的计算节点

谢谢您的回复。我用了这种写法,不过是我没形容好问题。这样写脚本,这样两个任务还是排在同一个slurm的job里, 这俩高斯任务是先算完第一个然后再算第二个。而我问题想要问的是 我可不可以 比如在队列里提交多个任务到同一个节点。让它们同时算。 比如如图 我现在提交多个任务就是一个job在算其它的在等。能不能通过设置slurm,当我只有一个节点的时候也让多个任务都在算呢 而不是一个任务算 其它的PD

QQ截图20221111094326.png (24.66 KB, 下载次数 Times of downloads: 72)

QQ截图20221111094326.png

1236

帖子

1

威望

3495

eV
积分
4751

Level 6 (一方通行)

22#
发表于 Post on 2022-11-11 09:57:13 | 只看该作者 Only view this author
paramecium86 发表于 2022-11-11 09:46
谢谢您的回复。我用了这种写法,不过是我没形容好问题。这样写脚本,这样两个任务还是排在同一个slurm的j ...

发你的slurm.conf上来看看,还有你这个任务用了多少核

320

帖子

1

威望

5357

eV
积分
5697

Level 6 (一方通行)

23#
发表于 Post on 2022-11-11 10:10:59 | 只看该作者 Only view this author
biogon 发表于 2022-11-11 09:57
发你的slurm.conf上来看看,还有你这个任务用了多少核

谢谢您,这是我的 slurm.conf  这几个任务我就是测试用,脚本里设置是调用2个核心。

slurm.conf

2.32 KB, 下载次数 Times of downloads: 8

196

帖子

5

威望

1211

eV
积分
1507

Level 5 (御坂)

24#
 楼主 Author| 发表于 Post on 2022-11-11 16:32:23 | 只看该作者 Only view this author
paramecium86 发表于 2022-11-11 09:46
谢谢您的回复。我用了这种写法,不过是我没形容好问题。这样写脚本,这样两个任务还是排在同一个slurm的j ...

我查过了似乎是不行的这样的,slrum 一个节点只能运行一个脚本

1236

帖子

1

威望

3495

eV
积分
4751

Level 6 (一方通行)

25#
发表于 Post on 2022-11-11 22:30:22 | 只看该作者 Only view this author
paramecium86 发表于 2022-11-11 10:10
谢谢您,这是我的 slurm.conf  这几个任务我就是测试用,脚本里设置是调用2个核心。

不要注释掉SelectTypeParameters=CR_Core

320

帖子

1

威望

5357

eV
积分
5697

Level 6 (一方通行)

26#
发表于 Post on 2022-11-13 10:40:51 | 只看该作者 Only view this author
wxyhgk 发表于 2022-11-11 16:32
我查过了似乎是不行的这样的,slrum 一个节点只能运行一个脚本

好的好的 感谢

320

帖子

1

威望

5357

eV
积分
5697

Level 6 (一方通行)

27#
发表于 Post on 2022-11-13 10:41:35 | 只看该作者 Only view this author
biogon 发表于 2022-11-11 22:30
不要注释掉SelectTypeParameters=CR_Core

我试过这个 一提交到队列马上就结束了 跑不上任务。

14

帖子

0

威望

345

eV
积分
359

Level 3 能力者

28#
发表于 Post on 2022-11-16 16:00:22 | 只看该作者 Only view this author
老师,您好。使用测试命令:echo "邮件内容" | s-nail -s "邮件主题" 你的qq邮箱地址,我可以收到qq邮箱的消息。但使用排队系统收不到邮件提醒,脚本如图所示。是否有其他的额外设置我没注意到,请老师赐教。

QQ图片20221116155702.png (26.62 KB, 下载次数 Times of downloads: 67)

QQ图片20221116155702.png

196

帖子

5

威望

1211

eV
积分
1507

Level 5 (御坂)

29#
 楼主 Author| 发表于 Post on 2022-11-17 00:33:37 | 只看该作者 Only view this author
mxh 发表于 2022-11-16 16:00
老师,您好。使用测试命令:echo "邮件内容" | s-nail -s "邮件主题" 你的qq邮箱地址,我可以收到qq邮箱的 ...

不应该啊,你是不是提交错了还是什么?使用
  1. squeue
复制代码

看看是不是在运行

14

帖子

0

威望

345

eV
积分
359

Level 3 能力者

30#
发表于 Post on 2022-11-17 09:37:02 | 只看该作者 Only view this author
本帖最后由 mxh 于 2022-11-17 09:38 编辑
wxyhgk 发表于 2022-11-17 00:33
不应该啊,你是不是提交错了还是什么?使用

看看是不是在运行

老师,运行成功了,我之前一直用slurm,看到您的配置邮件的帖子,觉得非常有用进行了尝试,但没有收到邮件。所以,我现在用了一个笨拙的方法,我把这个写到提交脚本了,echo "邮件内容" | s-nail -s "邮件主题" 你的qq邮箱地址,也能收到提示邮件,勉强作为一个提醒,也很有帮助,再次感谢老师写帖子付出的工作和解答。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 08:11 , Processed in 0.205852 second(s), 29 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list