计算化学公社

 找回密码 Forget password
 注册 Register
Views: 16076|回复 Reply: 10
打印 Print 上一主题 Last thread 下一主题 Next thread

[任务提交/队列管理] Ubuntu 18.04 单机安装torque(成功)

[复制链接 Copy URL]

202

帖子

0

威望

802

eV
积分
1004

Level 4 (黑子)

跳转到指定楼层 Go to specific reply
楼主
Ubuntu 18.04 单机安装torque

一、设置无密码ssh登录
执行 ssh-keygen -t rsa 命令,生成密钥文件
cd .ssh      #进入.ssh目录
cat id_rsa.pub > authorized_keys    #将密钥加入到认证的列表里

二、将静态ip输入到/etc/hosts里
如:
192.168.1.101    dell

三、临时加入xenial的源
add xenial to /etc/apt/sources.list temporarily

四、安装torque
参考

  • 安装
apt-get install torque-server torque-client torque-mom torque-pam

  • 设置
/etc/init.d/torque-mom stop
/etc/init.d/torque-scheduler stop
/etc/init.d/torque-server stop
pbs_server -t create
killall pbs_server

echo $HOSTNAME > /etc/torque/server_name
echo $HOSTNAME > /var/spool/torque/server_priv/acl_svr/acl_hosts
echo root@$HOSTNAME > /var/spool/torque/server_priv/acl_svr/operators
echo root@$HOSTNAME > /var/spool/torque/server_priv/acl_svr/managers
echo "$HOSTNAME np=8" > /var/spool/torque/server_priv/nodes        (np代表计算节点的处理器个数)
echo $HOSTNAME > /var/spool/torque/mom_priv/config


  • 开启pbs服务
/etc/init.d/torque-server start
/etc/init.d/torque-scheduler start
/etc/init.d/torque-mom start

  • 设置调度信息
qmgr -c 'set server scheduling = true'
qmgr -c 'set server keep_completed = 300'
qmgr -c 'set server mom_job_sync = true'
qmgr -c 'create queue batch' 创建名为batch的处理队列,可修改
qmgr -c 'set queue batch queue_type = execution'
qmgr -c 'set queue batch started = true'
qmgr -c 'set queue batch enabled = true'
qmgr -c 'set queue batch resources_default.walltime = 1440:00:00' 应该是作业的默认运行时间
qmgr -c 'set queue batch resources_default.nodes = 1' 计算节点只有一个
qmgr -c 'set server default_queue = batch’
qmgr -c 'set server submit_hosts = $HOSTNAME'
qmgr -c 'set server allow_node_submit = true'

以上全root执行

五、配置完了之后
参考
结束配置,第一次启动。

首先,关闭所有服务,
$sudo pkill "pbs_*"

第一次启动
$ sudo qterm -t quick #输入y。

启动所有服务
$sudo pbs_server
$sudo pbs_sched
$sudo pbs_mom

六、测试
$ echo 'sleep 20' | qsub
$ qstat

Job id                    Name             User            Time Use S Queue
------------------------- ---------------- --------------- -------- - -----
0.dell                STDIN            lsx                    0 R batch

评分 Rate

参与人数
Participants 7
eV +35 收起 理由
Reason
ezez + 5 赞!
zhou + 5 按照此教程在centOS 7上单机安装成功,找其.
ggdh + 5 GJ!
sobereva + 5
zyzhang + 5
obaica + 5
978142355 + 5 谢谢

查看全部评分 View all ratings

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

11#
发表于 Post on 2022-4-9 09:58:49 | 只看该作者 Only view this author
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

63

帖子

0

威望

762

eV
积分
825

Level 4 (黑子)

10#
发表于 Post on 2022-4-9 09:48:22 | 只看该作者 Only view this author
snaily 发表于 2021-7-30 13:43
请问第一次启动时sudo qterm -t quick  出现 Cannot connect to default server host 'master' - check pbs ...

你好,我也遇到和你一样的错误,请问你的问题解决了吗?

11

帖子

0

威望

556

eV
积分
567

Level 4 (黑子)

9#
发表于 Post on 2021-8-3 22:25:18 | 只看该作者 Only view this author
snaily 发表于 2021-7-30 13:43
请问第一次启动时sudo qterm -t quick  出现 Cannot connect to default server host 'master' - check pbs ...

或许可以看一下那几个echo命令要写入的内容,是否成功写入了目标目录下的文件。

我在安装的时候就遇到了sudo echo没有正确写入的问题(可能是echo命令对应的权限问题...并不是很了解),然后是用Nano手动敲进去的。

14

帖子

0

威望

125

eV
积分
139

Level 2 能力者

8#
发表于 Post on 2021-7-30 13:43:29 | 只看该作者 Only view this author
请问第一次启动时sudo qterm -t quick  出现 Cannot connect to default server host 'master' - check pbs_server daemon.
qterm: could not connect to server '' (111) Connection refused 错误,需要先启动最后一步的所有服务才行,而且启动服务后执行sudo qterm -t quick 没有反应,没有让输入y,这是什么情况?

28

帖子

0

威望

991

eV
积分
1019

Level 4 (黑子)

7#
发表于 Post on 2018-6-1 23:46:15 | 只看该作者 Only view this author

多谢,我现在的跟你这个有点不一样,不过也能用了。

202

帖子

0

威望

802

eV
积分
1004

Level 4 (黑子)

6#
 楼主 Author| 发表于 Post on 2018-6-1 15:13:08 | 只看该作者 Only view this author
xiaxue 发表于 2018-6-1 14:31
能不能用这个命令   qmgr -c 'print server'
把输出的内容截图给我看看,多谢!
  1. #
  2. # Create queues and set their attributes.
  3. #
  4. #
  5. # Create and define queue batch
  6. #
  7. create queue batch
  8. set queue batch queue_type = Execution
  9. set queue batch resources_default.nodes = 1
  10. set queue batch resources_default.walltime = 1440:00:00
  11. set queue batch enabled = True
  12. set queue batch started = True
  13. #
  14. # Set server attributes.
  15. #
  16. set server scheduling = True
  17. set server acl_hosts = dell
  18. set server managers = root@dell
  19. set server operators = root@dell
  20. set server default_queue = batch
  21. set server log_events = 511
  22. set server mail_from = adm
  23. set server scheduler_iteration = 600
  24. set server node_check_rate = 150
  25. set server tcp_timeout = 6
  26. set server mom_job_sync = True
  27. set server keep_completed = 300
  28. set server submit_hosts = $HOSTNAME
  29. set server allow_node_submit = True
  30. set server next_job_number = 6
复制代码

202

帖子

0

威望

802

eV
积分
1004

Level 4 (黑子)

5#
 楼主 Author| 发表于 Post on 2018-6-1 15:12:01 | 只看该作者 Only view this author
xiaxue 发表于 2018-6-1 13:59
多谢您分享的经验。
我按照这个教程在Ubuntu上安装成功了,但是现在用pbs文件提交高斯任务后,任务在队列 ...

就是hosts文件里不能把你的hostname写成127.0.0.1,要写成实际的静态ip,例如:
127.0.0.1        localhost
192.168.1.103        dell

# The following lines are desirable for IPv6 capable hosts
::1     ip6-localhost ip6-loopback
fe00::0 ip6-localnet
ff00::0 ip6-mcastprefix
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters

28

帖子

0

威望

991

eV
积分
1019

Level 4 (黑子)

4#
发表于 Post on 2018-6-1 15:04:13 | 只看该作者 Only view this author
已经按照这个链接里的操作配置成功了。
之前的pbs文件也有错,没搞明白之前是torque的配置错误还是pbs文件写错了。

28

帖子

0

威望

991

eV
积分
1019

Level 4 (黑子)

3#
发表于 Post on 2018-6-1 14:31:09 | 只看该作者 Only view this author
能不能用这个命令   qmgr -c 'print server'
把输出的内容截图给我看看,多谢!

28

帖子

0

威望

991

eV
积分
1019

Level 4 (黑子)

2#
发表于 Post on 2018-6-1 13:59:51 | 只看该作者 Only view this author
多谢您分享的经验。
我按照这个教程在Ubuntu上安装成功了,但是现在用pbs文件提交高斯任务后,任务在队列中,但是一直不计算。
是不是我的hosts文件没有设置对,能不能详细讲一下hosts文件的设置。谢谢!

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 15:35 , Processed in 0.200668 second(s), 23 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list