计算化学公社

 找回密码 Forget password
 注册 Register

已解决:单机Cento7安装Torque失败

查看数: 4229 | 评论数: 19 | 收藏 Add to favorites 1
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2021-12-29 17:13

正文摘要:

本帖最后由 Tanmin 于 2021-12-29 23:42 编辑 大家好: 我在单机双路服务器(36核)Centos7系统上安装Torque,安装时四个服务pbs_server、pbs_sched、pbs_mom、trqauthd均显示正常(见图1),也可正常显示节点信 ...

回复 Reply

Tanmin 发表于 Post on 2021-12-31 15:01:25
monk1077 发表于 2021-12-31 10:48
对的,openhpc源里也有。

谢谢您指导,我回头用虚拟机先练习练习,目前还只用到计算任务提交排队这么初级功能,对于slurm与Torque的区别及优缺点还真得找资料了解了解。比如先去论坛里把相关的贴文看完。
monk1077 发表于 Post on 2021-12-31 10:51:21
Tanmin 发表于 2021-12-30 19:59
您说的直接从epel源抓取的意思是添加epel安装源后,采用yum install 等指令直接安装,不需要像Torque那样 ...

可以参考这个
https://www.bilibili.com/video/B ... id_from=333.337.0.0
monk1077 发表于 Post on 2021-12-31 10:48:06
Tanmin 发表于 2021-12-30 19:59
您说的直接从epel源抓取的意思是添加epel安装源后,采用yum install 等指令直接安装,不需要像Torque那样 ...

对的,openhpc源里也有。
abin 发表于 Post on 2021-12-30 21:23:41
Tanmin 发表于 2021-12-30 19:59
您说的直接从epel源抓取的意思是添加epel安装源后,采用yum install 等指令直接安装,不需要像Torque那样 ...

dnf install slurm*

或者查询我的签名信息。
Tanmin 发表于 Post on 2021-12-30 19:59:21
monk1077 发表于 2021-12-30 19:49
slurm的话:RHEL系系统最简单的可以直接从epel源里抓取

您说的直接从epel源抓取的意思是添加epel安装源后,采用yum install 等指令直接安装,不需要像Torque那样进行诸多手动设置?
Tanmin 发表于 Post on 2021-12-30 19:57:11
monk1077 发表于 2021-12-30 19:46
默认安装的torque有内存,堆栈等限制,需要手动调整一下。

谢谢您提供的宝贵意见,正愁没思路,我去搜搜法子,晚点再来报告!
十分感谢
monk1077 发表于 Post on 2021-12-30 19:49:52
slurm的话:RHEL系系统最简单的可以直接从epel源里抓取
monk1077 发表于 Post on 2021-12-30 19:46:57
Tanmin 发表于 2021-12-30 19:37
终究懂得的太少,只能一步步学,昨晚的装机虽然成功了,但很奇怪,提交测试任务计算没问题,后面提交 ...

默认安装的torque有内存,堆栈等限制,需要手动调整一下。
Tanmin 发表于 Post on 2021-12-30 19:37:35
bluewhale 发表于 2021-12-30 17:51
现在比较流行的是SLURM, Torque/maui装机的非常少了。

终究懂得的太少,只能一步步学,昨晚的装机虽然成功了,但很奇怪,提交测试任务计算没问题,后面提交的几个任务均报错,显示forrtl: severe (174): SIGSEGV, segmentation fault occurred,但是不用Torque,又都能正常计算,还得找找原因。
之前超算一直用slurm,想不到自己装单机难度这么大。
bluewhale 发表于 Post on 2021-12-30 17:51:21
现在比较流行的是SLURM, Torque/maui装机的非常少了。
Tanmin 发表于 Post on 2021-12-29 22:38:30
自己来报告一下:
重新参考https://m.bilibili.com/video/BV1d4411r7WF/ 的教程,将自己原本修改的环境变量及文件复原后,安装成功,但有以下几个问题供大家参考:
1. 可能是自己之前安装有所修改,在启动pbs_server和pbs_mom时,没有像视频中出现
Created symlink from /etc/systemd/system/multi-user.target.wants/pbs_server.service to /usr/lib/systemd/system/pbs_server.service.
但后续查看服务状态时,均是激活状态,故认为无碍;
2. 全部安装后,确实可以运行相关指令,也可在普通用户下提交任务,但任务一直在排队。经查资料,可能是任务调度服务没有开启,该服务由pbs_sched负责,可能是由于我之前安装所致,同时我在此番安装过程中确实没有启动pbs_sched,故参考启动pbs_server和pbs_mom的方法启动了pbs_sched.
i> 确认是否有该文件:
  1. ll /usr/lib/systemd/system/pbs_sched.service
复制代码

ii> 为保险起见,参考了之前文件的权限:
  1. chmod 611 /usr/lib/systemd/system/pbs_sched.service
复制代码

iii> 激活服务:
  1. systemctl enable pbs_sched.service
  2. systemctl start pbs_sched.service
复制代码

iV> 检查是否激活:
  1. systemctl status pbs_sched.service
复制代码


我自己操作记录如下
  1. [root@master torque-6.1.1.1]# ll /usr/lib/systemd/system/pbs_sched.service
  2. ls: cannot access /usr/lib/systemd/system/pbs_sched.service: No such file or directory
  3. [root@master torque-6.1.1.1]# ls contrib/systemd/
  4. Makefile     pbs_mom.service     pbs_sched.service.in   trqauthd.service
  5. Makefile.am  pbs_mom.service.in  pbs_server.service     trqauthd.service.in
  6. Makefile.in  pbs_sched.service   pbs_server.service.in
  7. [root@master torque-6.1.1.1]# cp contrib/systemd/pbs_sched.service /usr/lib/systemd/system/
  8. [root@master torque-6.1.1.1]# ll /usr/lib/systemd/system/pbs_sched.service
  9. -r--r--r-- 1 root root 604 Dec 29 22:09 /usr/lib/systemd/system/pbs_sched.service
  10. [root@master torque-6.1.1.1]# chmod 611 /usr/lib/systemd/system/pbs_sched.service
  11. [root@master torque-6.1.1.1]# ll /usr/lib/systemd/system/pbs_sched.service
  12. -rw---x--x 1 root root 604 Dec 29 22:09 /usr/lib/systemd/system/pbs_sched.service
  13. [root@master torque-6.1.1.1]# systemctl enable pbs_sched.service
  14. Created symlink from /etc/systemd/system/multi-user.target.wants/pbs_sched.service to /usr/lib/systemd/system/pbs_sched.service.
  15. [root@master torque-6.1.1.1]# systemctl start pbs_sched.service
  16. [root@master torque-6.1.1.1]# systemctl status pbs_sched.service
  17. ● pbs_sched.service - TORQUE pbs_sched daemon
  18.    Loaded: loaded (/usr/lib/systemd/system/pbs_sched.service; enabled; vendor preset: disabled)
  19.    Active: active (running) since Wed 2021-12-29 22:11:34 CST; 34s ago
  20.   Process: 47096 ExecStart=/usr/local/sbin/pbs_sched -d $PBS_HOME $PBS_ARGS (code=exited, status=0/SUCCESS)
  21. Main PID: 47100 (pbs_sched)
  22.     Tasks: 1
  23.    CGroup: /system.slice/pbs_sched.service
  24.            └─47100 /usr/local/sbin/pbs_sched -d /var/spool/torque

  25. Dec 29 22:11:34 master systemd[1]: Starting TORQUE pbs_sched daemon...
  26. Dec 29 22:11:34 master systemd[1]: Started TORQUE pbs_sched daemon.
复制代码

Tanmin 发表于 Post on 2021-12-29 22:19:37
bluewhale 发表于 2021-12-29 20:59
PATH1?->
export PATH=$PATH:$TORQUE/bin:$TORQUE/sbin

谢谢,后来我自己检查发现了这个错误,但是修改后,每次退出shell,就失效。
后来推倒重来,问题解决了。
abin 发表于 Post on 2021-12-29 21:05:00
Tanmin 发表于 2021-12-29 21:01
abin:
您好,我想请问一下,为何您在编译的时候用的是 make -j 4; 而在设置节点核数时,即 vi /var/spoo ...

前一句和后一句没有关系

最后一问,看手册,我记不住细节。
Tanmin 发表于 Post on 2021-12-29 21:01:20
abin 发表于 2021-12-29 18:32
https://m.bilibili.com/video/BV1d4411r7WF/

仅供参考

abin:
您好,我想请问一下,为何您在编译的时候用的是 make -j 4; 而在设置节点核数时,即 vi /var/spool/torque/server_priv/nodes, 仅写了master np=2, 如果我是两块CPU(18核,共36),此处写master=36 是否有问题?

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-24 02:28 , Processed in 0.175020 second(s), 26 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list