|
本帖最后由 南北多歧路 于 2025-7-8 17:25 编辑
本人琢磨过个人单机服务器的slurm安装一段时间,该脚本多次测试成功安装运行,由于是单机脚本故不涉及slurmdbd服务,安装更为简洁方便~
- 本脚本修改自 github的多Linux发行版的slurm安装脚本 多机多节点的slurm编译务必参考slurm官方文档
- 脚本的slurm.conf文件和cgroup文件最好参考 slurm.conf文件配置 和 cgroup.conf配置 自己去配置适合自己本机的slurm.conf和cgroup文件
- 如果懒得去修改注意脚本的ClusterName=fate SlurmctldHost=Avalon 前者ClusterName填写自己喜欢的名字即可,后者由于管理节点计算节点一体,需要修改成
自己机器的hostname 同时修改NodeName=Avalon CPUs=192 RealMemory=500000 Sockets=2 CoresPerSocket=48 ThreadsPerCore=2 State=UNKNOWN
PartitionName=saber Nodes=ALL Default=YES MaxTime=INFINITE State=UP ,其中NodeName仍然是自己服务器的hostname 后面分别是机器线程数、分配内存大小(MB)
插槽数、是否开启超线程这些字段需要修改,其中CPUs=Sockets*CoresPerSocket*ThreadsPerCore,另外就是PartitionName可以命名成自己喜欢的名字~脚本的VER可以自定义 - 网上的大多slurm安装完成出现问题后个人见解最大的因素是slurm.conf和cgroup.conf文件的小问题导致的,一定要参考其他人的对应文件调试,不同的slurm所需要的slurm.conf版本会有小不同。
- 重新提交了一份安装脚本适配最新的rockylinux10安装slurm-25.05.0版本,其余版本自测也应该没问题
- 如果曾经运行过脚本并且安装成功,需要升级slurm对应版本,这里提供一个思路,我自测成功,就是将# build and install SLURM部分安装的对应的包卸载掉,删除之前root目录下rpm_build残留的文件重新修改$VER为你想升级的版本重新将最开始 #!/bin/bash VER=? # build and install SLURM #设置slurmctld和slurmd开机启动和后续的部分重新组成一个升级的脚本即可,实测可用~
如何使用 :
- sudo bash rockylinux.sh(脚本名)
复制代码
|
评分 Rate
-
查看全部评分 View all ratings
|