计算化学公社
标题:
请教slurm各种常用功能汇总
[打印本页]
作者Author:
naxiangzi
时间:
2024-12-4 16:35
标题:
请教slurm各种常用功能汇总
slrum有怎么多功能, 大佬可以解释一下,要在哪里可以学习到这些应用
1、含集群管理增值组件、
2、作业调度增值组件;
3、支持互动作业,
4、作业故障自动切换重启,
5、文件传输,
6、查看修改文件等操作;
6、实现一键配置跨节点无密码访问、
7、局域网连通检测、
8、所有节点并行执行命令等功能;
9、提供常用MPI、
10、数学函数库、
11、GPU开发环境、
12、高性能计算基准测试程序、
13、常用开源高性能计算应用软件的一键部署功能
14、集群状态展示
复制代码
作者Author:
Santz
时间:
2024-12-4 16:54
事实上你列举了应该只有 2 3 4 算是slurm 的;5 一般的文件传输,与 slurm 无关;6 命令行或者浏览器下,与 Linux 的基本文件编辑逻辑一样;6 免密访问也与 slurm 无关,slurm 有个pam_slurm_adopt插件可能会涉及,严格来说不关 slurm 的事儿;7 脚本解决,可以自定义多种类型的网络,比如 IB、Eth、IPMI;8 clush/pdsh,免密之后脚本也可以 9 10 11 12 与 slurm 无关;13 一键部署指的是什么?事实上为了方便安装可以用 Spack,要求网络,另外搭配一个 Singularity/Apptainer ;14 grafana + prometheus + xdmod
作者Author:
abin
时间:
2024-12-4 18:41
鄙人做的工具,就是傻瓜式的一键部署,不过工具需要付费……
OpenHPC,开源的,做的很专业,可以参考。
作者Author:
abin
时间:
2024-12-4 22:47
另,文件传输,可经由slurm控制……
作者Author:
BangbooCat
时间:
2024-12-5 10:05
1-2: slurm本身就是集群作业调度管理软件,不知道如何理解增值
3: 互动作业是指在命令行中交互式作业吗?如果是这样,slurm中有srun这个命令可以实现这一点
4:一般来讲都是通过脚本实现,因为作业故障不好定义,根据自己实际情况来搞
5-6: 集群通常搭配网络硬盘实现节点文件漫游,类似NAS;关于用户节点无密漫游,通常与slurm搭配的是LDAP方案
7:写脚本直接ping
8:看slurm的文档,或者问AI,可以实现这一点
9:MPI有开源的OpenMPI和MPICH以及intel独有的Intel MPI实现,与slurm无关,请查阅软件相关文档
10:这个是软件环境问题,如果你配好了NFS之类的网络共享文件协议,直接把相关库安装到网络共享位置,让节点使用这些位置的库就行了
11:GPU开发环境是指CUDA开发环境吧,到NVIDIA官网查阅cuda toolkit安装
12:benchmark方面有
https://www.spec.org/
可做参考,Nvidia官网
hpc-application-performance
,这两个里面都有lammps、gromacs的标准测试
13:spack,或者你自己编译到网络位置然后脚本指定
14:GitHub上有很多实现,slurm也有SLURM Web Tools作为可视化监控
作者Author:
naxiangzi
时间:
2024-12-5 16:24
BangbooCat 发表于 2024-12-5 10:05
1-2: slurm本身就是集群作业调度管理软件,不知道如何理解增值
3: 互动作业是指在命令行中交互式作业吗 ...
非常感恩,热心解答,长了不少知识
欢迎光临 计算化学公社 (http://bbs.keinsci.com/)
Powered by Discuz! X3.3