计算化学公社

标题: 请教slurm各种常用功能汇总 [打印本页]

作者
Author:
naxiangzi    时间: 2024-12-4 16:35
标题: 请教slurm各种常用功能汇总
slrum有怎么多功能, 大佬可以解释一下,要在哪里可以学习到这些应用

  1. 1、含集群管理增值组件、
  2. 2、作业调度增值组件;
  3. 3、支持互动作业,
  4. 4、作业故障自动切换重启,
  5. 5、文件传输,
  6. 6、查看修改文件等操作;
  7. 6、实现一键配置跨节点无密码访问、
  8. 7、局域网连通检测、
  9. 8、所有节点并行执行命令等功能;
  10. 9、提供常用MPI、
  11. 10、数学函数库、
  12. 11、GPU开发环境、
  13. 12、高性能计算基准测试程序、
  14. 13、常用开源高性能计算应用软件的一键部署功能
  15. 14、集群状态展示
复制代码




作者
Author:
Santz    时间: 2024-12-4 16:54
事实上你列举了应该只有 2 3 4 算是slurm 的;5 一般的文件传输,与 slurm 无关;6 命令行或者浏览器下,与 Linux 的基本文件编辑逻辑一样;6 免密访问也与 slurm 无关,slurm 有个pam_slurm_adopt插件可能会涉及,严格来说不关 slurm 的事儿;7 脚本解决,可以自定义多种类型的网络,比如 IB、Eth、IPMI;8 clush/pdsh,免密之后脚本也可以  9 10 11 12 与 slurm 无关;13 一键部署指的是什么?事实上为了方便安装可以用 Spack,要求网络,另外搭配一个 Singularity/Apptainer ;14 grafana + prometheus + xdmod
作者
Author:
abin    时间: 2024-12-4 18:41
鄙人做的工具,就是傻瓜式的一键部署,不过工具需要付费……

OpenHPC,开源的,做的很专业,可以参考。
作者
Author:
abin    时间: 2024-12-4 22:47
另,文件传输,可经由slurm控制……
作者
Author:
BangbooCat    时间: 2024-12-5 10:05
1-2: slurm本身就是集群作业调度管理软件,不知道如何理解增值
3: 互动作业是指在命令行中交互式作业吗?如果是这样,slurm中有srun这个命令可以实现这一点
4:一般来讲都是通过脚本实现,因为作业故障不好定义,根据自己实际情况来搞
5-6: 集群通常搭配网络硬盘实现节点文件漫游,类似NAS;关于用户节点无密漫游,通常与slurm搭配的是LDAP方案
7:写脚本直接ping
8:看slurm的文档,或者问AI,可以实现这一点
9:MPI有开源的OpenMPI和MPICH以及intel独有的Intel MPI实现,与slurm无关,请查阅软件相关文档
10:这个是软件环境问题,如果你配好了NFS之类的网络共享文件协议,直接把相关库安装到网络共享位置,让节点使用这些位置的库就行了
11:GPU开发环境是指CUDA开发环境吧,到NVIDIA官网查阅cuda toolkit安装
12:benchmark方面有 https://www.spec.org/ 可做参考,Nvidia官网 hpc-application-performance ,这两个里面都有lammps、gromacs的标准测试
13:spack,或者你自己编译到网络位置然后脚本指定
14:GitHub上有很多实现,slurm也有SLURM Web Tools作为可视化监控
作者
Author:
naxiangzi    时间: 2024-12-5 16:24
BangbooCat 发表于 2024-12-5 10:05
1-2: slurm本身就是集群作业调度管理软件,不知道如何理解增值
3: 互动作业是指在命令行中交互式作业吗 ...

非常感恩,热心解答,长了不少知识




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3