计算化学公社

标题: Ubuntu 18.04 单机安装torque(成功) [打印本页]

作者
Author:
qchem    时间: 2018-5-31 10:50
标题: Ubuntu 18.04 单机安装torque(成功)
Ubuntu 18.04 单机安装torque

一、设置无密码ssh登录
执行 ssh-keygen -t rsa 命令,生成密钥文件
cd .ssh      #进入.ssh目录
cat id_rsa.pub > authorized_keys    #将密钥加入到认证的列表里

二、将静态ip输入到/etc/hosts里
如:
192.168.1.101    dell

三、临时加入xenial的源
add xenial to /etc/apt/sources.list temporarily
deb http://dk.archive.ubuntu.com/ubuntu/ xenial main
deb http://dk.archive.ubuntu.com/ubuntu/ xenial universe

四、安装torque
参考
https://blog.csdn.net/jideljd_2010/article/details/46575137

apt-get install torque-server torque-client torque-mom torque-pam

/etc/init.d/torque-mom stop
/etc/init.d/torque-scheduler stop
/etc/init.d/torque-server stop
pbs_server -t create
killall pbs_server

echo $HOSTNAME > /etc/torque/server_name
echo $HOSTNAME > /var/spool/torque/server_priv/acl_svr/acl_hosts
echo root@$HOSTNAME > /var/spool/torque/server_priv/acl_svr/operators
echo root@$HOSTNAME > /var/spool/torque/server_priv/acl_svr/managers
echo "$HOSTNAME np=8" > /var/spool/torque/server_priv/nodes        (np代表计算节点的处理器个数)
echo $HOSTNAME > /var/spool/torque/mom_priv/config


/etc/init.d/torque-server start
/etc/init.d/torque-scheduler start
/etc/init.d/torque-mom start

qmgr -c 'set server scheduling = true'
qmgr -c 'set server keep_completed = 300'
qmgr -c 'set server mom_job_sync = true'
qmgr -c 'create queue batch' 创建名为batch的处理队列,可修改
qmgr -c 'set queue batch queue_type = execution'
qmgr -c 'set queue batch started = true'
qmgr -c 'set queue batch enabled = true'
qmgr -c 'set queue batch resources_default.walltime = 1440:00:00' 应该是作业的默认运行时间
qmgr -c 'set queue batch resources_default.nodes = 1' 计算节点只有一个
qmgr -c 'set server default_queue = batch’
qmgr -c 'set server submit_hosts = $HOSTNAME'
qmgr -c 'set server allow_node_submit = true'

以上全root执行

五、配置完了之后
参考
http://forum.ubuntu.org.cn/viewtopic.php?t=451723
结束配置,第一次启动。

首先,关闭所有服务,
$sudo pkill "pbs_*"

第一次启动
$ sudo qterm -t quick #输入y。

启动所有服务
$sudo pbs_server
$sudo pbs_sched
$sudo pbs_mom

六、测试
$ echo 'sleep 20' | qsub
$ qstat

Job id                    Name             User            Time Use S Queue
------------------------- ---------------- --------------- -------- - -----
0.dell                STDIN            lsx                    0 R batch


作者
Author:
xiaxue    时间: 2018-6-1 13:59
多谢您分享的经验。
我按照这个教程在Ubuntu上安装成功了,但是现在用pbs文件提交高斯任务后,任务在队列中,但是一直不计算。
是不是我的hosts文件没有设置对,能不能详细讲一下hosts文件的设置。谢谢!
作者
Author:
xiaxue    时间: 2018-6-1 14:31
能不能用这个命令   qmgr -c 'print server'
把输出的内容截图给我看看,多谢!
作者
Author:
xiaxue    时间: 2018-6-1 15:04
已经按照这个链接里的操作配置成功了。
之前的pbs文件也有错,没搞明白之前是torque的配置错误还是pbs文件写错了。
作者
Author:
qchem    时间: 2018-6-1 15:12
xiaxue 发表于 2018-6-1 13:59
多谢您分享的经验。
我按照这个教程在Ubuntu上安装成功了,但是现在用pbs文件提交高斯任务后,任务在队列 ...

就是hosts文件里不能把你的hostname写成127.0.0.1,要写成实际的静态ip,例如:
127.0.0.1        localhost
192.168.1.103        dell

# The following lines are desirable for IPv6 capable hosts
::1     ip6-localhost ip6-loopback
fe00::0 ip6-localnet
ff00::0 ip6-mcastprefix
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters
作者
Author:
qchem    时间: 2018-6-1 15:13
xiaxue 发表于 2018-6-1 14:31
能不能用这个命令   qmgr -c 'print server'
把输出的内容截图给我看看,多谢!
  1. #
  2. # Create queues and set their attributes.
  3. #
  4. #
  5. # Create and define queue batch
  6. #
  7. create queue batch
  8. set queue batch queue_type = Execution
  9. set queue batch resources_default.nodes = 1
  10. set queue batch resources_default.walltime = 1440:00:00
  11. set queue batch enabled = True
  12. set queue batch started = True
  13. #
  14. # Set server attributes.
  15. #
  16. set server scheduling = True
  17. set server acl_hosts = dell
  18. set server managers = root@dell
  19. set server operators = root@dell
  20. set server default_queue = batch
  21. set server log_events = 511
  22. set server mail_from = adm
  23. set server scheduler_iteration = 600
  24. set server node_check_rate = 150
  25. set server tcp_timeout = 6
  26. set server mom_job_sync = True
  27. set server keep_completed = 300
  28. set server submit_hosts = $HOSTNAME
  29. set server allow_node_submit = True
  30. set server next_job_number = 6
复制代码

作者
Author:
xiaxue    时间: 2018-6-1 23:46
qchem 发表于 2018-6-1 15:13

多谢,我现在的跟你这个有点不一样,不过也能用了。
作者
Author:
snaily    时间: 2021-7-30 13:43
请问第一次启动时sudo qterm -t quick  出现 Cannot connect to default server host 'master' - check pbs_server daemon.
qterm: could not connect to server '' (111) Connection refused 错误,需要先启动最后一步的所有服务才行,而且启动服务后执行sudo qterm -t quick 没有反应,没有让输入y,这是什么情况?
作者
Author:
Hanio    时间: 2021-8-3 22:25
snaily 发表于 2021-7-30 13:43
请问第一次启动时sudo qterm -t quick  出现 Cannot connect to default server host 'master' - check pbs ...

或许可以看一下那几个echo命令要写入的内容,是否成功写入了目标目录下的文件。

我在安装的时候就遇到了sudo echo没有正确写入的问题(可能是echo命令对应的权限问题...并不是很了解),然后是用Nano手动敲进去的。
作者
Author:
linuxprobe    时间: 2022-4-9 09:48
snaily 发表于 2021-7-30 13:43
请问第一次启动时sudo qterm -t quick  出现 Cannot connect to default server host 'master' - check pbs ...

你好,我也遇到和你一样的错误,请问你的问题解决了吗?
作者
Author:
abin    时间: 2022-4-9 09:58
仅供参考

https://www.bilibili.com/video/BV1d4411r7WF/

https://www.bilibili.com/video/BV17K4y1v7z3/

https://www.bilibili.com/video/BV1sr4y1m7os/

https://gitee.com/hpc4you/hpc




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3