计算化学公社

 找回密码 Forget password
 注册 Register
楼主 Author: wxyhgk
打印 Print 上一主题 Last thread 下一主题 Next thread

[集群维护] Ubuntu20.04 安装单机slurm教程

  [复制链接 Copy URL]

3

帖子

0

威望

57

eV
积分
60

Level 2 能力者

46#
发表于 Post on 2023-4-26 16:25:38 | 只看该作者 Only view this author
您好,请问安装完之后提交任务发现计算一直没进行,运行时间一直是0,然后取消任务后状态一直处于CG状态是什么原因呢,求大佬指点

202304261623573921..png (17.21 KB, 下载次数 Times of downloads: 60)

202304261623573921..png

196

帖子

5

威望

1211

eV
积分
1507

Level 5 (御坂)

47#
 楼主 Author| 发表于 Post on 2023-4-26 16:58:22 | 只看该作者 Only view this author
本帖最后由 wxyhgk 于 2023-4-26 17:00 编辑
teikouni 发表于 2023-4-26 16:25
您好,请问安装完之后提交任务发现计算一直没进行,运行时间一直是0,然后取消任务后状态一直处于CG状态是 ...

我不清楚你做的什么任务,但是可以给你解释 CG 和 PD 的含义

CG (Completing):这表示作业正在完成阶段。作业已经完成执行,但在正式标记为已完成之前,SLURM 仍在处理一些后期管理任务,例如清理、数据收集等。

PD (Pending):这表示作业正在等待执行。作业已经提交,但由于各种原因(例如,没有足够的资源、优先级较低等)尚未开始执行。在有资源可用并且符合调度策略时,作业将从等待状态变为运行状态。
取消任务用
  1. scancel 任务job的id
复制代码


3

帖子

0

威望

57

eV
积分
60

Level 2 能力者

48#
发表于 Post on 2023-4-26 21:12:14 | 只看该作者 Only view this author
wxyhgk 发表于 2023-4-26 16:58
我不清楚你做的什么任务,但是可以给你解释 CG 和 PD 的含义

CG (Completing):这表示作业正在完成阶 ...

试着运行了一下您教程中的这个任务,然后还是出现了类似的问题,似乎是运行不了,然后一直处于CG状态也结束不了

QQ图片20230426211238.png (18.35 KB, 下载次数 Times of downloads: 59)

QQ图片20230426211238.png

196

帖子

5

威望

1211

eV
积分
1507

Level 5 (御坂)

49#
 楼主 Author| 发表于 Post on 2023-4-27 10:04:23 | 只看该作者 Only view this author
teikouni 发表于 2023-4-26 21:12
试着运行了一下您教程中的这个任务,然后还是出现了类似的问题,似乎是运行不了,然后一直处于CG状态也结 ...

可以加我qq给你远程解决 3123624718

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

50#
发表于 Post on 2023-4-27 12:05:30 | 只看该作者 Only view this author
如果是Ubuntu 22.04,
在某次系统升级之后,
会出现无法使用的问题。

楼上应该可以解决这个问题。

或者用我的工具包,刷完之后,立即可用,不过有偿。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

1060

帖子

0

威望

3254

eV
积分
4314

Level 6 (一方通行)

51#
发表于 Post on 2023-5-9 22:49:50 | 只看该作者 Only view this author
安装完之后启动 slurm

  1. (base) huan@grape:~/scitools$ sinfo --long
  2. Tue May 09 22:43:49 2023
  3. PARTITION AVAIL  TIMELIMIT   JOB_SIZE ROOT OVERSUBS     GROUPS  NODES       STATE NODELIST
  4. debug*       up   infinite 1-infinite   no       NO        all      1    unknown* grape
复制代码


STATE 的状态是 unknown* ,不是 idle


提交计算任务始终在 PANDDING 的状态
  1. (base) huan@grape:~/scitools$ squeue
  2.              JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
  3.                  1     debug      h2o     huan PD       0:00      1 (Nodes required for job are DOWN, DRAINED or reserved for jobs in higher priority partitions)
复制代码



查看了 slurmd 和 slurmctld 的状态,显示如下:
应该是 slurmd 没正常运行(Active: failed ), slurmctld 似乎是正常运行的(Active: active (running) )。

  1. (base) huan@grape:~/scitools$ sudo systemctl status slurmd
  2. × slurmd.service - Slurm node daemon
  3.      Loaded: loaded (/lib/systemd/system/slurmd.service; enabled; vendor preset: enabled)
  4.      Active: failed (Result: exit-code) since Tue 2023-05-09 22:35:32 CST; 24s ago
  5.        Docs: man:slurmd(8)
  6.     Process: 145145 ExecStart=/usr/sbin/slurmd -D -s $SLURMD_OPTIONS (code=exited, status=1/FAILURE)
  7.    Main PID: 145145 (code=exited, status=1/FAILURE)
  8.         CPU: 152ms

  9. May 09 22:35:31 grape systemd[1]: Started Slurm node daemon.
  10. May 09 22:35:32 grape systemd[1]: slurmd.service: Main process exited, code=exited, status=1/FAILURE
  11. May 09 22:35:32 grape systemd[1]: slurmd.service: Failed with result 'exit-code'.
  12. (base) huan@grape:~/scitools$


  13. (base) huan@grape:~/scitools$ sudo systemctl status slurmctld
  14. ● slurmctld.service - Slurm controller daemon
  15.      Loaded: loaded (/lib/systemd/system/slurmctld.service; enabled; vendor preset: enabled)
  16.      Active: active (running) since Tue 2023-05-09 22:35:25 CST; 1min 12s ago
  17.        Docs: man:slurmctld(8)
  18.    Main PID: 145054 (slurmctld)
  19.       Tasks: 10
  20.      Memory: 2.3M
  21.         CPU: 83ms
  22.      CGroup: /system.slice/slurmctld.service
  23.              ├─145054 /usr/sbin/slurmctld -D -s
  24.              └─145055 "slurmctld: slurmscriptd" "" ""

  25. May 09 22:35:25 grape slurmctld[145054]: slurmctld: Recovered information about 1 jobs
  26. May 09 22:35:25 grape slurmctld[145054]: slurmctld: select/cons_tres: part_data_create_array: select/cons_tres: preparing for 1 partitions
  27. May 09 22:35:25 grape slurmctld[145054]: slurmctld: Recovered state of 0 reservations
  28. May 09 22:35:25 grape slurmctld[145054]: slurmctld: read_slurm_conf: backup_controller not specified
  29. May 09 22:35:25 grape slurmctld[145054]: slurmctld: select/cons_tres: select_p_reconfigure: select/cons_tres: reconfigure
  30. May 09 22:35:25 grape slurmctld[145054]: slurmctld: select/cons_tres: part_data_create_array: select/cons_tres: preparing for 1 partitions
  31. May 09 22:35:25 grape slurmctld[145054]: slurmctld: Running as primary controller
  32. May 09 22:35:25 grape slurmctld[145054]: slurmctld: No parameter for mcs plugin, default values set
  33. May 09 22:35:25 grape slurmctld[145054]: slurmctld: mcs: MCSParameters = (null). ondemand set.
  34. May 09 22:36:25 grape slurmctld[145054]: slurmctld: SchedulerParameters=default_queue_depth=100,max_rpc_cnt=0,max_sched_time=2,partition_job_depth=0,sched_max_job_start=0,sched>
  35. (base) huan@grape:~/scitools$
复制代码

1060

帖子

0

威望

3254

eV
积分
4314

Level 6 (一方通行)

52#
发表于 Post on 2023-5-10 16:51:11 | 只看该作者 Only view this author
本帖最后由 乐平 于 2023-5-10 16:52 编辑
mxh 发表于 2023-3-30 09:08
请问各位老师,我们用的超算squeue可以显示所用的CPUs,我照这个教程在组内服务器安装slurm,可以运行,如 ...

你可以在 squeue 命令后面自定义显示的内容,比如
  1. squeue -o"%.10i %.9P %.8j %.15u %.4t %.12M %.6D %.6C %.10R"
复制代码


这里的 %是占位符,后面的小数点数字代表用几个字符显示,紧随其后的字母代表要显示的项目,比如 i 代表 JOBID, p 代表 PARTITION,j 代表 JOBNAME, u 代表 USER,t 代表 STATE, M 代表时间,D 代表 NODE,C 代表 CPU, R 代表 NODELIST(REASON)

如果你觉得每次都输入这么一长串很麻烦,可以在环境变量里设置别名
  1. 打开环境变量文件
  2. vi ~/.bashrc

  3. 输入别名
  4. alias sqa='squeue -o"%.10i %.9P %.8j %.15u %.4t %.12M %.6D %.6C %.10R"'


  5. 保存关闭环境变量文件

  6. 激活环境变量
  7. source ~/.bashrc
复制代码

然后,你输入 squeue 就能显示你希望的 CPU 信息了。当然,各个项目的顺序你可以根据自己偏好进行调整。

1060

帖子

0

威望

3254

eV
积分
4314

Level 6 (一方通行)

53#
发表于 Post on 2023-5-10 22:17:10 | 只看该作者 Only view this author
乐平 发表于 2023-5-9 22:49
安装完之后启动 slurm

终于解决了!

其实主要是 slurm.conf 文件配置的细节问题。

之前没有注意到 “ProctrackType:”我选的是 Cgroup ,但是没有给出 cgroup.conf 设置,所以 slurmd 和 slurmctld 启动有问题。
“ProctrackType:”选为 Pgid 之后,再重新启动 slurmd 和 slurmctld 就正常了。

27

帖子

0

威望

141

eV
积分
168

Level 3 能力者

54#
发表于 Post on 2023-5-15 13:24:53 | 只看该作者 Only view this author
本帖最后由 llity 于 2023-5-15 13:54 编辑

谢谢分享,发现邮件通知功能出错。Ubuntu server 22.04
  1. vi g09.slurm
  2. s-nail: Warning: variable superseded or obsoleted: smtp
  3. s-nail: Warning: variable superseded or obsoleted: smtp-auth-user
  4. s-nail: Warning: variable superseded or obsoleted: smtp-auth-password
  5. s-nail: Obsoletion warning: please do not use *smtp*, instead assign a smtp:// URL to *mta*!
  6. s-nail: Obsoletion warning: Use of old-style credentials, which will vanish in v15!
  7. s-nail:   Please read the manual section "On URL syntax and credential lookup"
  8. s-nail: Cannot find a usable character set to encode message: No such entry, file or directory
复制代码

196

帖子

5

威望

1211

eV
积分
1507

Level 5 (御坂)

55#
 楼主 Author| 发表于 Post on 2023-5-15 20:03:46 | 只看该作者 Only view this author
llity 发表于 2023-5-15 13:24
谢谢分享,发现邮件通知功能出错。Ubuntu server 22.04

你前面做了测试了吗,给出你的 g09.slurm 代码

27

帖子

0

威望

141

eV
积分
168

Level 3 能力者

56#
发表于 Post on 2023-5-22 14:13:01 | 只看该作者 Only view this author
wxyhgk 发表于 2023-5-15 20:03
你前面做了测试了吗,给出你的 g09.slurm 代码

重新安装一遍可以了,谢谢。一个疑问:
安装slurm和slurm-wlm slurm-wlm-doc有什么区别,谢谢

1060

帖子

0

威望

3254

eV
积分
4314

Level 6 (一方通行)

57#
发表于 Post on 2023-5-22 21:33:06 | 只看该作者 Only view this author
llity 发表于 2023-5-22 14:13
重新安装一遍可以了,谢谢。一个疑问:
安装slurm和slurm-wlm slurm-wlm-doc有什么区别,谢谢

顾名思义,doc 应该是文档

27

帖子

0

威望

141

eV
积分
168

Level 3 能力者

58#
发表于 Post on 2023-5-22 23:27:25 | 只看该作者 Only view this author
乐平 发表于 2023-5-22 21:33
顾名思义,doc 应该是文档

这个是的,还有一个slurm安装包,没有wlm后缀

1060

帖子

0

威望

3254

eV
积分
4314

Level 6 (一方通行)

59#
发表于 Post on 2023-5-23 10:38:41 | 只看该作者 Only view this author
本帖最后由 乐平 于 2023-5-23 10:40 编辑
llity 发表于 2023-5-22 23:27
这个是的,还有一个slurm安装包,没有wlm后缀

如果你自己动手查一下官网,就知道了。

https://slurm.schedmd.com/download.html


Download Slurm
Slurm source can be downloaded from https://www.schedmd.com/downloads.php.
Slurm has also been packaged for Debian and Ubuntu (named slurm-wlm), Fedora, and NetBSD (in pkgsrc) and FreeBSD.
slurm-wlm 是给 Debian 和 Ubuntu 定制的包。

18

帖子

0

威望

182

eV
积分
200

Level 3 能力者

60#
发表于 Post on 2023-6-16 15:52:42 | 只看该作者 Only view this author
wxyhgk 发表于 2022-10-13 19:12
半个小时可以搞定的事情得花几百,个人感觉你这个比较坑了

强烈赞同。试了版主的方法,已经成功安装,邮件也可以收到了。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 07:55 , Processed in 0.236910 second(s), 23 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list