计算化学公社

 找回密码 Forget password
 注册 Register
Views: 4234|回复 Reply: 19
打印 Print 上一主题 Last thread 下一主题 Next thread

[任务提交/队列管理] 已解决:单机Cento7安装Torque失败

[复制链接 Copy URL]

31

帖子

0

威望

1541

eV
积分
1572

Level 5 (御坂)

本帖最后由 Tanmin 于 2021-12-29 23:42 编辑

大家好:
我在单机双路服务器(36核)Centos7系统上安装Torque,安装时四个服务pbs_server、pbs_sched、pbs_mom、trqauthd均显示正常(见图1),也可正常显示节点信息(见图2),正常输出队列信息(见图3)。为了稳妥起见,我在虚拟机上操作两次均正常安装Torque,且可以正常提交任务,排队计算得到结果。但在服务器上安装时出现下述问题:

问题:当我退出管理员账户时,相关指令无效,如qnodes, qmgr, 显示 “command not found", 再进入管理员账户员用户同样无效(见图4)。请大伙帮帮忙
前期安装过程中,我已通过下列指令添加自启动和环境变量
  1. cp contrib/init.d/{pbs_{server,sched,mom},trqauthd} /etc/init.d/
  2. for i in pbs_server pbs_sched pbs_mom trqauthd; do chkconfig --add $i; chkconfig $i on; done
  3. systemctl enable pbs_server.service
  4. systemctl enable pbs_mom.service
  5. systemctl enable pbs_sched.service
  6. systemctl enable trqauthd.service
  7. TORQUE=/usr/local/torque
  8. echo "TORQUE=$TORQUE" >>/etc/profile
  9. echo "export PATH1=\$PATH1:$TORQUE/bin:$TORQUE/sbin" >>/etc/profile
  10. source /etc/profile
复制代码

图1. 四项服务正常启动

图2. 节点信息


图3. 队列信息


图4. 错误信息

31

帖子

0

威望

72

eV
积分
103

Level 2 能力者

2#
发表于 Post on 2021-12-29 18:07:09 | 只看该作者 Only view this author
环境变量有问题。
安装的时候默认会添加环境变量文件

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

3#
发表于 Post on 2021-12-29 18:32:04 | 只看该作者 Only view this author
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

31

帖子

0

威望

1541

eV
积分
1572

Level 5 (御坂)

4#
 楼主 Author| 发表于 Post on 2021-12-29 18:56:07 | 只看该作者 Only view this author
abin 发表于 2021-12-29 18:32
https://m.bilibili.com/video/BV1d4411r7WF/

仅供参考

谢谢abbottcn,之前看过您上传的多个视频,包括这个单机安装Torque,收益颇多。
刚刚我自己测试了几次,基本明确应该是环境变量调用问题,明确问题再看一遍,可能收获会不一样。

31

帖子

0

威望

1541

eV
积分
1572

Level 5 (御坂)

5#
 楼主 Author| 发表于 Post on 2021-12-29 19:42:31 | 只看该作者 Only view this author
monk1077 发表于 2021-12-29 18:07
环境变量有问题。
安装的时候默认会添加环境变量文件

是的,暂不知为何造成,可能哪个指令操作有问题
重新再来一次

165

帖子

0

威望

4781

eV
积分
4946

Level 6 (一方通行)

6#
发表于 Post on 2021-12-29 20:59:43 | 只看该作者 Only view this author
本帖最后由 bluewhale 于 2021-12-29 21:00 编辑

PATH1?->
export PATH=$PATH:$TORQUE/bin:$TORQUE/sbin

31

帖子

0

威望

1541

eV
积分
1572

Level 5 (御坂)

7#
 楼主 Author| 发表于 Post on 2021-12-29 21:01:20 | 只看该作者 Only view this author
abin 发表于 2021-12-29 18:32
https://m.bilibili.com/video/BV1d4411r7WF/

仅供参考

abin:
您好,我想请问一下,为何您在编译的时候用的是 make -j 4; 而在设置节点核数时,即 vi /var/spool/torque/server_priv/nodes, 仅写了master np=2, 如果我是两块CPU(18核,共36),此处写master=36 是否有问题?

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

8#
发表于 Post on 2021-12-29 21:05:00 | 只看该作者 Only view this author
Tanmin 发表于 2021-12-29 21:01
abin:
您好,我想请问一下,为何您在编译的时候用的是 make -j 4; 而在设置节点核数时,即 vi /var/spoo ...

前一句和后一句没有关系

最后一问,看手册,我记不住细节。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

31

帖子

0

威望

1541

eV
积分
1572

Level 5 (御坂)

9#
 楼主 Author| 发表于 Post on 2021-12-29 22:19:37 | 只看该作者 Only view this author
bluewhale 发表于 2021-12-29 20:59
PATH1?->
export PATH=$PATH:$TORQUE/bin:$TORQUE/sbin

谢谢,后来我自己检查发现了这个错误,但是修改后,每次退出shell,就失效。
后来推倒重来,问题解决了。

31

帖子

0

威望

1541

eV
积分
1572

Level 5 (御坂)

10#
 楼主 Author| 发表于 Post on 2021-12-29 22:38:30 | 只看该作者 Only view this author
自己来报告一下:
重新参考https://m.bilibili.com/video/BV1d4411r7WF/ 的教程,将自己原本修改的环境变量及文件复原后,安装成功,但有以下几个问题供大家参考:
1. 可能是自己之前安装有所修改,在启动pbs_server和pbs_mom时,没有像视频中出现
Created symlink from /etc/systemd/system/multi-user.target.wants/pbs_server.service to /usr/lib/systemd/system/pbs_server.service.
但后续查看服务状态时,均是激活状态,故认为无碍;
2. 全部安装后,确实可以运行相关指令,也可在普通用户下提交任务,但任务一直在排队。经查资料,可能是任务调度服务没有开启,该服务由pbs_sched负责,可能是由于我之前安装所致,同时我在此番安装过程中确实没有启动pbs_sched,故参考启动pbs_server和pbs_mom的方法启动了pbs_sched.
i> 确认是否有该文件:
  1. ll /usr/lib/systemd/system/pbs_sched.service
复制代码

ii> 为保险起见,参考了之前文件的权限:
  1. chmod 611 /usr/lib/systemd/system/pbs_sched.service
复制代码

iii> 激活服务:
  1. systemctl enable pbs_sched.service
  2. systemctl start pbs_sched.service
复制代码

iV> 检查是否激活:
  1. systemctl status pbs_sched.service
复制代码


我自己操作记录如下
  1. [root@master torque-6.1.1.1]# ll /usr/lib/systemd/system/pbs_sched.service
  2. ls: cannot access /usr/lib/systemd/system/pbs_sched.service: No such file or directory
  3. [root@master torque-6.1.1.1]# ls contrib/systemd/
  4. Makefile     pbs_mom.service     pbs_sched.service.in   trqauthd.service
  5. Makefile.am  pbs_mom.service.in  pbs_server.service     trqauthd.service.in
  6. Makefile.in  pbs_sched.service   pbs_server.service.in
  7. [root@master torque-6.1.1.1]# cp contrib/systemd/pbs_sched.service /usr/lib/systemd/system/
  8. [root@master torque-6.1.1.1]# ll /usr/lib/systemd/system/pbs_sched.service
  9. -r--r--r-- 1 root root 604 Dec 29 22:09 /usr/lib/systemd/system/pbs_sched.service
  10. [root@master torque-6.1.1.1]# chmod 611 /usr/lib/systemd/system/pbs_sched.service
  11. [root@master torque-6.1.1.1]# ll /usr/lib/systemd/system/pbs_sched.service
  12. -rw---x--x 1 root root 604 Dec 29 22:09 /usr/lib/systemd/system/pbs_sched.service
  13. [root@master torque-6.1.1.1]# systemctl enable pbs_sched.service
  14. Created symlink from /etc/systemd/system/multi-user.target.wants/pbs_sched.service to /usr/lib/systemd/system/pbs_sched.service.
  15. [root@master torque-6.1.1.1]# systemctl start pbs_sched.service
  16. [root@master torque-6.1.1.1]# systemctl status pbs_sched.service
  17. ● pbs_sched.service - TORQUE pbs_sched daemon
  18.    Loaded: loaded (/usr/lib/systemd/system/pbs_sched.service; enabled; vendor preset: disabled)
  19.    Active: active (running) since Wed 2021-12-29 22:11:34 CST; 34s ago
  20.   Process: 47096 ExecStart=/usr/local/sbin/pbs_sched -d $PBS_HOME $PBS_ARGS (code=exited, status=0/SUCCESS)
  21. Main PID: 47100 (pbs_sched)
  22.     Tasks: 1
  23.    CGroup: /system.slice/pbs_sched.service
  24.            └─47100 /usr/local/sbin/pbs_sched -d /var/spool/torque

  25. Dec 29 22:11:34 master systemd[1]: Starting TORQUE pbs_sched daemon...
  26. Dec 29 22:11:34 master systemd[1]: Started TORQUE pbs_sched daemon.
复制代码

165

帖子

0

威望

4781

eV
积分
4946

Level 6 (一方通行)

11#
发表于 Post on 2021-12-30 17:51:21 | 只看该作者 Only view this author
现在比较流行的是SLURM, Torque/maui装机的非常少了。

31

帖子

0

威望

1541

eV
积分
1572

Level 5 (御坂)

12#
 楼主 Author| 发表于 Post on 2021-12-30 19:37:35 | 只看该作者 Only view this author
bluewhale 发表于 2021-12-30 17:51
现在比较流行的是SLURM, Torque/maui装机的非常少了。

终究懂得的太少,只能一步步学,昨晚的装机虽然成功了,但很奇怪,提交测试任务计算没问题,后面提交的几个任务均报错,显示forrtl: severe (174): SIGSEGV, segmentation fault occurred,但是不用Torque,又都能正常计算,还得找找原因。
之前超算一直用slurm,想不到自己装单机难度这么大。

31

帖子

0

威望

72

eV
积分
103

Level 2 能力者

13#
发表于 Post on 2021-12-30 19:46:57 | 只看该作者 Only view this author
Tanmin 发表于 2021-12-30 19:37
终究懂得的太少,只能一步步学,昨晚的装机虽然成功了,但很奇怪,提交测试任务计算没问题,后面提交 ...

默认安装的torque有内存,堆栈等限制,需要手动调整一下。

31

帖子

0

威望

72

eV
积分
103

Level 2 能力者

14#
发表于 Post on 2021-12-30 19:49:52 | 只看该作者 Only view this author
slurm的话:RHEL系系统最简单的可以直接从epel源里抓取

31

帖子

0

威望

1541

eV
积分
1572

Level 5 (御坂)

15#
 楼主 Author| 发表于 Post on 2021-12-30 19:57:11 | 只看该作者 Only view this author
monk1077 发表于 2021-12-30 19:46
默认安装的torque有内存,堆栈等限制,需要手动调整一下。

谢谢您提供的宝贵意见,正愁没思路,我去搜搜法子,晚点再来报告!
十分感谢

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-24 05:32 , Processed in 0.202671 second(s), 24 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list