计算化学公社

 找回密码 Forget password
 注册 Register
Views: 617|回复 Reply: 5
打印 Print 上一主题 Last thread 下一主题 Next thread

[集群维护] 请教slurm各种常用功能汇总

[复制链接 Copy URL]

24

帖子

0

威望

75

eV
积分
99

Level 2 能力者

跳转到指定楼层 Go to specific reply
楼主
slrum有怎么多功能, 大佬可以解释一下,要在哪里可以学习到这些应用

  1. 1、含集群管理增值组件、
  2. 2、作业调度增值组件;
  3. 3、支持互动作业,
  4. 4、作业故障自动切换重启,
  5. 5、文件传输,
  6. 6、查看修改文件等操作;
  7. 6、实现一键配置跨节点无密码访问、
  8. 7、局域网连通检测、
  9. 8、所有节点并行执行命令等功能;
  10. 9、提供常用MPI、
  11. 10、数学函数库、
  12. 11、GPU开发环境、
  13. 12、高性能计算基准测试程序、
  14. 13、常用开源高性能计算应用软件的一键部署功能
  15. 14、集群状态展示
复制代码



158

帖子

2

威望

3543

eV
积分
3741

Level 5 (御坂)

2#
发表于 Post on 2024-12-4 16:54:02 | 只看该作者 Only view this author
事实上你列举了应该只有 2 3 4 算是slurm 的;5 一般的文件传输,与 slurm 无关;6 命令行或者浏览器下,与 Linux 的基本文件编辑逻辑一样;6 免密访问也与 slurm 无关,slurm 有个pam_slurm_adopt插件可能会涉及,严格来说不关 slurm 的事儿;7 脚本解决,可以自定义多种类型的网络,比如 IB、Eth、IPMI;8 clush/pdsh,免密之后脚本也可以  9 10 11 12 与 slurm 无关;13 一键部署指的是什么?事实上为了方便安装可以用 Spack,要求网络,另外搭配一个 Singularity/Apptainer ;14 grafana + prometheus + xdmod

2407

帖子

1

威望

5948

eV
积分
8375

Level 6 (一方通行)

3#
发表于 Post on 2024-12-4 18:41:47 | 只看该作者 Only view this author
鄙人做的工具,就是傻瓜式的一键部署,不过工具需要付费……

OpenHPC,开源的,做的很专业,可以参考。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

2407

帖子

1

威望

5948

eV
积分
8375

Level 6 (一方通行)

4#
发表于 Post on 2024-12-4 22:47:08 | 只看该作者 Only view this author
另,文件传输,可经由slurm控制……
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

22

帖子

0

威望

286

eV
积分
308

Level 3 能力者

5#
发表于 Post on 2024-12-5 10:05:38 | 只看该作者 Only view this author
1-2: slurm本身就是集群作业调度管理软件,不知道如何理解增值
3: 互动作业是指在命令行中交互式作业吗?如果是这样,slurm中有srun这个命令可以实现这一点
4:一般来讲都是通过脚本实现,因为作业故障不好定义,根据自己实际情况来搞
5-6: 集群通常搭配网络硬盘实现节点文件漫游,类似NAS;关于用户节点无密漫游,通常与slurm搭配的是LDAP方案
7:写脚本直接ping
8:看slurm的文档,或者问AI,可以实现这一点
9:MPI有开源的OpenMPI和MPICH以及intel独有的Intel MPI实现,与slurm无关,请查阅软件相关文档
10:这个是软件环境问题,如果你配好了NFS之类的网络共享文件协议,直接把相关库安装到网络共享位置,让节点使用这些位置的库就行了
11:GPU开发环境是指CUDA开发环境吧,到NVIDIA官网查阅cuda toolkit安装
12:benchmark方面有 https://www.spec.org/ 可做参考,Nvidia官网 hpc-application-performance ,这两个里面都有lammps、gromacs的标准测试
13:spack,或者你自己编译到网络位置然后脚本指定
14:GitHub上有很多实现,slurm也有SLURM Web Tools作为可视化监控

24

帖子

0

威望

75

eV
积分
99

Level 2 能力者

6#
 楼主 Author| 发表于 Post on 2024-12-5 16:24:34 | 只看该作者 Only view this author
BangbooCat 发表于 2024-12-5 10:05
1-2: slurm本身就是集群作业调度管理软件,不知道如何理解增值
3: 互动作业是指在命令行中交互式作业吗 ...

非常感恩,热心解答,长了不少知识

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-12 21:58 , Processed in 0.170059 second(s), 20 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list