计算化学公社

标题: 已解决:单机Cento7安装Torque失败 [打印本页]

作者
Author:
Tanmin    时间: 2021-12-29 17:13
标题: 已解决:单机Cento7安装Torque失败
本帖最后由 Tanmin 于 2021-12-29 23:42 编辑

大家好:
我在单机双路服务器(36核)Centos7系统上安装Torque,安装时四个服务pbs_server、pbs_sched、pbs_mom、trqauthd均显示正常(见图1),也可正常显示节点信息(见图2),正常输出队列信息(见图3)。为了稳妥起见,我在虚拟机上操作两次均正常安装Torque,且可以正常提交任务,排队计算得到结果。但在服务器上安装时出现下述问题:

问题:当我退出管理员账户时,相关指令无效,如qnodes, qmgr, 显示 “command not found", 再进入管理员账户员用户同样无效(见图4)。请大伙帮帮忙
前期安装过程中,我已通过下列指令添加自启动和环境变量
  1. cp contrib/init.d/{pbs_{server,sched,mom},trqauthd} /etc/init.d/
  2. for i in pbs_server pbs_sched pbs_mom trqauthd; do chkconfig --add $i; chkconfig $i on; done
  3. systemctl enable pbs_server.service
  4. systemctl enable pbs_mom.service
  5. systemctl enable pbs_sched.service
  6. systemctl enable trqauthd.service
  7. TORQUE=/usr/local/torque
  8. echo "TORQUE=$TORQUE" >>/etc/profile
  9. echo "export PATH1=\$PATH1:$TORQUE/bin:$TORQUE/sbin" >>/etc/profile
  10. source /etc/profile
复制代码
(, 下载次数 Times of downloads: 28)
图1. 四项服务正常启动
(, 下载次数 Times of downloads: 31)
图2. 节点信息

(, 下载次数 Times of downloads: 31)
图3. 队列信息

(, 下载次数 Times of downloads: 40)
图4. 错误信息


作者
Author:
monk1077    时间: 2021-12-29 18:07
环境变量有问题。
安装的时候默认会添加环境变量文件
作者
Author:
abin    时间: 2021-12-29 18:32
https://m.bilibili.com/video/BV1d4411r7WF/

仅供参考
作者
Author:
Tanmin    时间: 2021-12-29 18:56
abin 发表于 2021-12-29 18:32
https://m.bilibili.com/video/BV1d4411r7WF/

仅供参考

谢谢abbottcn,之前看过您上传的多个视频,包括这个单机安装Torque,收益颇多。
刚刚我自己测试了几次,基本明确应该是环境变量调用问题,明确问题再看一遍,可能收获会不一样。
作者
Author:
Tanmin    时间: 2021-12-29 19:42
monk1077 发表于 2021-12-29 18:07
环境变量有问题。
安装的时候默认会添加环境变量文件

是的,暂不知为何造成,可能哪个指令操作有问题
重新再来一次
作者
Author:
bluewhale    时间: 2021-12-29 20:59
本帖最后由 bluewhale 于 2021-12-29 21:00 编辑

PATH1?->
export PATH=$PATH:$TORQUE/bin:$TORQUE/sbin

作者
Author:
Tanmin    时间: 2021-12-29 21:01
abin 发表于 2021-12-29 18:32
https://m.bilibili.com/video/BV1d4411r7WF/

仅供参考

abin:
您好,我想请问一下,为何您在编译的时候用的是 make -j 4; 而在设置节点核数时,即 vi /var/spool/torque/server_priv/nodes, 仅写了master np=2, 如果我是两块CPU(18核,共36),此处写master=36 是否有问题?

作者
Author:
abin    时间: 2021-12-29 21:05
Tanmin 发表于 2021-12-29 21:01
abin:
您好,我想请问一下,为何您在编译的时候用的是 make -j 4; 而在设置节点核数时,即 vi /var/spoo ...

前一句和后一句没有关系

最后一问,看手册,我记不住细节。
作者
Author:
Tanmin    时间: 2021-12-29 22:19
bluewhale 发表于 2021-12-29 20:59
PATH1?->
export PATH=$PATH:$TORQUE/bin:$TORQUE/sbin

谢谢,后来我自己检查发现了这个错误,但是修改后,每次退出shell,就失效。
后来推倒重来,问题解决了。
作者
Author:
Tanmin    时间: 2021-12-29 22:38
自己来报告一下:
重新参考https://m.bilibili.com/video/BV1d4411r7WF/ 的教程,将自己原本修改的环境变量及文件复原后,安装成功,但有以下几个问题供大家参考:
1. 可能是自己之前安装有所修改,在启动pbs_server和pbs_mom时,没有像视频中出现
Created symlink from /etc/systemd/system/multi-user.target.wants/pbs_server.service to /usr/lib/systemd/system/pbs_server.service.
但后续查看服务状态时,均是激活状态,故认为无碍;
2. 全部安装后,确实可以运行相关指令,也可在普通用户下提交任务,但任务一直在排队。经查资料,可能是任务调度服务没有开启,该服务由pbs_sched负责,可能是由于我之前安装所致,同时我在此番安装过程中确实没有启动pbs_sched,故参考启动pbs_server和pbs_mom的方法启动了pbs_sched.
i> 确认是否有该文件:
  1. ll /usr/lib/systemd/system/pbs_sched.service
复制代码

ii> 为保险起见,参考了之前文件的权限:
  1. chmod 611 /usr/lib/systemd/system/pbs_sched.service
复制代码

iii> 激活服务:
  1. systemctl enable pbs_sched.service
  2. systemctl start pbs_sched.service
复制代码

iV> 检查是否激活:
  1. systemctl status pbs_sched.service
复制代码


我自己操作记录如下
  1. [root@master torque-6.1.1.1]# ll /usr/lib/systemd/system/pbs_sched.service
  2. ls: cannot access /usr/lib/systemd/system/pbs_sched.service: No such file or directory
  3. [root@master torque-6.1.1.1]# ls contrib/systemd/
  4. Makefile     pbs_mom.service     pbs_sched.service.in   trqauthd.service
  5. Makefile.am  pbs_mom.service.in  pbs_server.service     trqauthd.service.in
  6. Makefile.in  pbs_sched.service   pbs_server.service.in
  7. [root@master torque-6.1.1.1]# cp contrib/systemd/pbs_sched.service /usr/lib/systemd/system/
  8. [root@master torque-6.1.1.1]# ll /usr/lib/systemd/system/pbs_sched.service
  9. -r--r--r-- 1 root root 604 Dec 29 22:09 /usr/lib/systemd/system/pbs_sched.service
  10. [root@master torque-6.1.1.1]# chmod 611 /usr/lib/systemd/system/pbs_sched.service
  11. [root@master torque-6.1.1.1]# ll /usr/lib/systemd/system/pbs_sched.service
  12. -rw---x--x 1 root root 604 Dec 29 22:09 /usr/lib/systemd/system/pbs_sched.service
  13. [root@master torque-6.1.1.1]# systemctl enable pbs_sched.service
  14. Created symlink from /etc/systemd/system/multi-user.target.wants/pbs_sched.service to /usr/lib/systemd/system/pbs_sched.service.
  15. [root@master torque-6.1.1.1]# systemctl start pbs_sched.service
  16. [root@master torque-6.1.1.1]# systemctl status pbs_sched.service
  17. ● pbs_sched.service - TORQUE pbs_sched daemon
  18.    Loaded: loaded (/usr/lib/systemd/system/pbs_sched.service; enabled; vendor preset: disabled)
  19.    Active: active (running) since Wed 2021-12-29 22:11:34 CST; 34s ago
  20.   Process: 47096 ExecStart=/usr/local/sbin/pbs_sched -d $PBS_HOME $PBS_ARGS (code=exited, status=0/SUCCESS)
  21. Main PID: 47100 (pbs_sched)
  22.     Tasks: 1
  23.    CGroup: /system.slice/pbs_sched.service
  24.            └─47100 /usr/local/sbin/pbs_sched -d /var/spool/torque

  25. Dec 29 22:11:34 master systemd[1]: Starting TORQUE pbs_sched daemon...
  26. Dec 29 22:11:34 master systemd[1]: Started TORQUE pbs_sched daemon.
复制代码


作者
Author:
bluewhale    时间: 2021-12-30 17:51
现在比较流行的是SLURM, Torque/maui装机的非常少了。
作者
Author:
Tanmin    时间: 2021-12-30 19:37
bluewhale 发表于 2021-12-30 17:51
现在比较流行的是SLURM, Torque/maui装机的非常少了。

终究懂得的太少,只能一步步学,昨晚的装机虽然成功了,但很奇怪,提交测试任务计算没问题,后面提交的几个任务均报错,显示forrtl: severe (174): SIGSEGV, segmentation fault occurred,但是不用Torque,又都能正常计算,还得找找原因。
之前超算一直用slurm,想不到自己装单机难度这么大。
作者
Author:
monk1077    时间: 2021-12-30 19:46
Tanmin 发表于 2021-12-30 19:37
终究懂得的太少,只能一步步学,昨晚的装机虽然成功了,但很奇怪,提交测试任务计算没问题,后面提交 ...

默认安装的torque有内存,堆栈等限制,需要手动调整一下。
作者
Author:
monk1077    时间: 2021-12-30 19:49
slurm的话:RHEL系系统最简单的可以直接从epel源里抓取
作者
Author:
Tanmin    时间: 2021-12-30 19:57
monk1077 发表于 2021-12-30 19:46
默认安装的torque有内存,堆栈等限制,需要手动调整一下。

谢谢您提供的宝贵意见,正愁没思路,我去搜搜法子,晚点再来报告!
十分感谢
作者
Author:
Tanmin    时间: 2021-12-30 19:59
monk1077 发表于 2021-12-30 19:49
slurm的话:RHEL系系统最简单的可以直接从epel源里抓取

您说的直接从epel源抓取的意思是添加epel安装源后,采用yum install 等指令直接安装,不需要像Torque那样进行诸多手动设置?
作者
Author:
abin    时间: 2021-12-30 21:23
Tanmin 发表于 2021-12-30 19:59
您说的直接从epel源抓取的意思是添加epel安装源后,采用yum install 等指令直接安装,不需要像Torque那样 ...

dnf install slurm*

或者查询我的签名信息。
作者
Author:
monk1077    时间: 2021-12-31 10:48
Tanmin 发表于 2021-12-30 19:59
您说的直接从epel源抓取的意思是添加epel安装源后,采用yum install 等指令直接安装,不需要像Torque那样 ...

对的,openhpc源里也有。

作者
Author:
monk1077    时间: 2021-12-31 10:51
Tanmin 发表于 2021-12-30 19:59
您说的直接从epel源抓取的意思是添加epel安装源后,采用yum install 等指令直接安装,不需要像Torque那样 ...

可以参考这个
https://www.bilibili.com/video/B ... id_from=333.337.0.0
作者
Author:
Tanmin    时间: 2021-12-31 15:01
monk1077 发表于 2021-12-31 10:48
对的,openhpc源里也有。

谢谢您指导,我回头用虚拟机先练习练习,目前还只用到计算任务提交排队这么初级功能,对于slurm与Torque的区别及优缺点还真得找资料了解了解。比如先去论坛里把相关的贴文看完。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3