计算化学公社

标题: CentOS下安装PBS+maui教程 [打印本页]

作者
Author:
冰释之川    时间: 2020-12-22 12:05
标题: CentOS下安装PBS+maui教程
本帖最后由 冰释之川 于 2022-9-14 09:55 编辑

最近要给新集群装PBS作业管理系统,顺便把安装全流程整理一下分享给有需要的朋友。

1. 主机名修改
为了便于管理,可以重新修改一下集群每个节点的主机名。
  1. sudo vi /etc/hostname
复制代码
(, 下载次数 Times of downloads: 463)
  1. sudo vi /etc/hosts
复制代码

(, 下载次数 Times of downloads: 392)
请根据ifconfig中的信息,酌情修改主机名对应的ip地址,并且添加计算节点的ip和主机名

2. 建立ssh无密码访问 (参考https://blog.csdn.net/weixin_30536513/article/details/99944936)
假设有3个主机192.168.0.191、192.168.0.192、192.168.0.193需要实现无密码ssh互联访问。
(a)每个节点分别检查是否安装openssh (每个节点都做):如果没有安装ssh,则需要先安装,执行命令:
  1. sudo apt-get install ssh
复制代码
(b)每个节点分别生成公钥和私钥:
  1. ssh-keygen -t rsa
复制代码
以上命令执行后,进行3次回车就行,其中-t后面的参数是指使用的加密协议类型,可以是rsa或者dsa,生成的公钥文件为~/.ssh/id_rsa.pub,私钥文件是~/.ssh/id_rsa,我们用到的是公钥文件。
(c)每个节点上面分别执行公钥拷贝:
  1. cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  2. chmod 700 ~/.ssh/authorized_keys
复制代码
(d)把其他节点的id_rsa.pub也就公钥添加到本节点然后分发给其他节点(即公钥合并后共享):
我是在192.168.0.192节点上面进行合并的,所以我在192.168.0.192上面依次执行命令为:
  1. ssh 192.168.0.193 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  2. ssh 192.168.0.191 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  3. scp ~/.ssh/authorized_keys 192.168.0.193:~/.ssh/authorized_keys
  4. scp ~/.ssh/authorized_keys 192.168.0.191:~/.ssh/authorized_keys
复制代码
在上面的命令中,当执行完第2条时,可以查看cat ~/.ssh/authorized_keys查看文件,文件内容已经变成了3行,就是包含了3个节点的公钥。
(e)直接ssh至各个计算节点查看是否已经不需要密码便可登录

3. 安装 Torque 软件
假设集群信息为:
主机名    ip
master    192.168.64.51   (主节点)
slave01   192.168.64.52   (计算节点)

3.1 安装master节点:
首先下载依赖环境和相关库文件:
  1. sudo yum install libxml2-devel openssl-devel gcc gcc-c++ boost-devel libtool
复制代码
解压Torque安装包:
  1. tar -zxvf torque-6.1.2.tar.gz
复制代码
设置安装配置信息:
  1. ./configure --prefix=/usr/local/torque --with-scp --with-default-server=master
复制代码
编译安装(make过程中会多次报错,因而中断之后需要继续添加参数make,比如make CFLAGS='-w -fpermissive' ;make CPPFLAGS='-w -fpermissive' ;make CXXFLAGS='-w -fpermissive',自己一个个试吧):
  1. sudo make
  2. sudo make install
  3. sudo make packages
复制代码
复制文件,设为开机启动:
  1. sudo cp contrib/init.d/{pbs_{server,sched,mom},trqauthd} /etc/init.d/
  2. for i in pbs_server pbs_sched pbs_mom trqauthd; do sudo chkconfig --add $i; sudo chkconfig $i on;done
复制代码
设置环境变量:
  1. sudo vi /etc/profile
复制代码
  1. ###Setting for torque###
  2. export PATH=/usr/local/torque/bin:$PATH
  3. export PATH=/usr/local/torque/sbin:$PATH
  4. export LD_LIBRARY_PATH=/usr/local/torque/lib:$LD_LIBRARY_PATH
  5. export PATH=/usr/local/maui/bin:$PATH
  6. export PATH=/usr/local/maui/sbin:$PATH
  7. export LD_LIBRARY_PATH=/usr/local/maui/lib:$LD_LIBRARY_PATH
复制代码
  1. source /etc/profile
复制代码

编辑/etc/ld.so.conf 加入/usr/local/lib:
  1. include ld.so.conf.d/*.conf
  2. /usr/local/lib
复制代码
  1. sudo /sbin/ldconfig /etc/ld.so.conf
复制代码

切换到root下设置Torque的管理账户:
  1. ./torque.setup yjy
复制代码
切换回用户账户,启动服务:
  1. qterm
复制代码
  1. for i in pbs_server pbs_sched pbs_mom trqauthd; do sudo service $i start;done
复制代码


添加计算节点:
创建/var/spool/torque/server_priv/nodes,写入master,并设置每个节点的cpu物理核数
  1. sudo vi /var/spool/torque/server_priv/nodes
复制代码
  1. master np=20
  2. slave01 np=20
复制代码
创建/var/spool/torque/mom_priv/config文件:
  1. sudo vi /var/spool/torque/mom_priv/config
复制代码
写入
  1. $pbsserver master
  2. $logevent 255
复制代码
重启服务:
  1. for i in pbs_server pbs_sched pbs_mom trqauthd; do sudo service $i restart;done
复制代码
测试:
  1. echo sleep 7 | qsub
  2. qstat -a -n
复制代码
创建队列的默认信息:
  1. qmgr -c 'create queue AMD'
  2. qmgr -c 'set queue AMD queue_type = execution'
  3. qmgr -c 'set queue AMD started = true'
  4. qmgr -c 'set queue AMD enabled = true'
  5. qmgr -c 'set queue AMD resources_default.nodes = 1'
  6. qmgr -c 'set server default_queue = AMD'
复制代码


3.2 安装计算节点:
将master节点下的torque目录下的torque-package*文件copy到slave01节点的torque6文件夹下:
  1. scp torque-package-{mom,clients}-linux-x86_64.sh slave01:torque6
复制代码
将master节点下的torque目录下的contrib/init.d/{pbs_mom,trqauthd}文件copy到slave01节点的/etc/init.d/下:
  1. scp contrib/init.d/{pbs_mom,trqauthd} slave01:/etc/init.d/
复制代码
进入slave01节点的torque6文件夹安装文件:
  1. ./torque-package-clients-linux-x86_64.sh --install
  2. ./torque-package-mom-linux-x86_64.sh --install
复制代码
创建/var/spool/torque/mom_priv/config文件:
  1. sudo vi /var/spool/torque/mom_priv/config
复制代码
写入
  1. $pbsserver master
  2. $logevent 255
复制代码

将pbs_mom 和 trqauthd设为开机启动:
  1. for i in pbs_mom trqauthd; do sudo chkconfig --add $i; sudo chkconfig $i on;done
复制代码
启动服务:
  1. for i in pbs_mom trqauthd; do sudo service $i start;done
复制代码
主节点与计算节点的堆栈大小设为无限制:
  1. sudo sed -i '/END INIT INFO/s//&\nulimit -s unlimited/' /etc/rc.d/init.d/pbs_mom
  2. sudo sed -i '/LimitSTACK/s/=.*/=infinity/' /usr/lib/systemd/system/pbs_mom.service
复制代码

*最后注意,提交任务时,计算节点和主节点的用户必须完全一致,包括UID和GID。

4. 主节点下安装maui插件
进入maui文件夹在root下运行下面的脚本进行安装:
  1. #!/bin/sh

  2. ./configure --prefix=/usr/local/maui --with-pbs=/usr/local/torque
  3. #sed -i '/socket\.h/s/$/\n#include \<stdbool\.h\>/' /usr/local/torque/include/pbs_ifl.h
  4. sed -i '/PBSLDFLAGS/s#= .*-ltorque.*#= -L/usr/local/torque/lib -ltorque#' Makefile
  5. #cat Makefile | grep PBSLDFLAGS
  6. make -j4
  7. make install
  8. #cat /usr/local/maui/maui.cfg | grep SERVERHOST
  9. #cat /usr/local/maui/maui.cfg | grep ADMIN1
  10. sed -i '/^MAUI_PREFIX/s/=.*/=\/usr\/local\/maui/' contrib/service-scripts/redhat.maui.d
  11. sed -i '/daemon/s/--user maui/--user root/' contrib/service-scripts/redhat.maui.d
  12. #cat contrib/service-scripts/redhat.maui.d | grep MAUI_PREFIX
  13. #cat contrib/service-scripts/redhat.maui.d | grep daemon
  14. cp contrib/service-scripts/redhat.maui.d /etc/init.d/maui.d
  15. chmod a+x /etc/init.d/maui.d
  16. chkconfig --add maui.d
  17. chkconfig maui.d on
  18. echo "/usr/local/torque/lib" > /etc/ld.so.conf.d/torque.conf
  19. echo "/usr/local/maui/lib" > /etc/ld.so.conf.d/maui.conf
  20. ldconfig
  21. chkconfig pbs_sched off
  22. cp etc/maui.sh /etc/profile.d/
复制代码



最后重启主节点,运行showq命令查看是否正常。


附上Torque + maui 安装包:

链接:https://pan.baidu.com/s/1JRMnebt5m9cA_Ps2Bbasxw
提取码:58al


*如果要重装Torque+maui的话,请停止服务及自启动,并删除以下文件:
  1. for i in pbs_server pbs_sched pbs_mom trqauthd maui.d; do sudo service $i stop;done
  2. for i in pbs_server pbs_sched pbs_mom trqauthd maui.d; do sudo chkconfig $i off;done
  3. sudo rm -r /var/spool/torque
  4. sudo rm -r /usr/local/torque
  5. sudo rm -r /usr/local/maui
复制代码

2021/07/17更新:附上PBS下快速切换至某个任务所在的工作目录的脚本(写入~/.bashrc文件中):
  1. # Enter the job directory quickly for Torque PBS
  2. function cdjob(){
  3. jobid=$(qstat -u ${USER} | tail -n +$(expr $(qstat -u ${USER} | grep -n '\-\-\-\-' | cut -d : -f 1) + 1) | awk '{print $1}' | cut -d . -f 1)

  4. if [ -z $1 ];then
  5.         echo "Usage: cdjob + jobid!"
  6. else
  7.         result=$(echo "${jobid}" | grep -Fx $1) > /dev/null
  8.         if [ -z "${result}" ];then
  9.                 echo "Warning: Please input a correct JobID!"
  10.         else
  11.                 str=$(qstat -f $1 | grep -A2 "PBS_O_WORK")
  12.                 dir=$(echo ${str#*PBS_O_WORKDIR=} | sed 's# ##g' | cut -d , -f 1)
  13.                 cd $dir
  14.                 ls
  15.         fi
  16. fi
  17. }
复制代码

*队列池设置参考:
  1. #!/usr/bin/bash

  2. # sudo vi /var/spool/torque/server_priv/nodes
  3. # node1 np=24 GPU
  4. # node2 np=24 GPU
  5. # node3 np=56 CPU
  6. # node4 np=56 CPU
  7. # mgr np=56 CPU

  8. qmgr -c 'creat queue CPU'
  9. qmgr -c 'set queue CPU resources_default.neednodes = CPU'
  10. qmgr -c 'set queue CPU queue_type = Execution'
  11. qmgr -c 'set queue CPU enabled = True'
  12. qmgr -c 'set queue CPU started = True'
  13. qmgr -c 'set queue CPU resources_default.nodes = 1'

  14. qmgr -c 'creat queue GPU'
  15. qmgr -c 'set queue GPU resources_default.neednodes = GPU'
  16. qmgr -c 'set queue GPU queue_type = Execution'
  17. qmgr -c 'set queue GPU enabled = True'
  18. qmgr -c 'set queue GPU started = True'
  19. qmgr -c 'set queue GPU resources_default.nodes = 1'

  20. # qmgr -c 'creat queue route'
  21. # qmgr -c 'set queue route queue_type = Route'
  22. # qmgr -c 'set queue route route_destinations = CPU'
  23. # qmgr -c 'set queue route route_destinations += GPU'
  24. # qmgr -c 'set queue route enabled = True'
  25. # qmgr -c 'set queue route started = True'
  26. # qmgr -c 'set queue route resources_default.nodes = 1'

  27. qmgr -c 'creat queue all'
  28. qmgr -c 'set queue all queue_type = Execution'
  29. qmgr -c 'set queue all enabled = True'
  30. qmgr -c 'set queue all started = True'
  31. qmgr -c 'set queue all resources_default.nodes = 1'

  32. qmgr -c 'set server default_queue = all'
  33. qmgr -c 'set server query_other_jobs = True'
  34. qmgr -c 'set server scheduling = True'



复制代码





作者
Author:
exity    时间: 2020-12-22 16:22
とてもいい!
不知道这个日文啥意思,总之我想表达的是牛逼的意思。
作者
Author:
gog    时间: 2020-12-22 16:36
送上32个赞
作者
Author:
doublezhang    时间: 2020-12-22 17:20
我修了两个月pbs+maui,最后用一下午安装了slurm……从此排队再也不出问题了
作者
Author:
喵星大佬    时间: 2020-12-22 21:03
在centos中安装用apt-get嘛
作者
Author:
abin    时间: 2020-12-22 21:57
本帖最后由 abin 于 2022-3-31 14:09 编辑

搭配以下视频食用吧。

https://www.bilibili.com/video/BV1d4411r7WF
https://www.bilibili.com/video/BV1GE41177Mm  (被恶意投诉, 该视频已经删除, 可能损害了友商的利益, 其实我都不晓得友商是哪一位?)

作者
Author:
abdoman    时间: 2020-12-23 08:09
PBSpro 路过。

作者
Author:
冰释之川    时间: 2020-12-23 08:15
abdoman 发表于 2020-12-23 08:09
PBSpro 路过。

现在改名叫openPBS了
作者
Author:
abdoman    时间: 2020-12-23 08:17
冰释之川 发表于 2020-12-23 08:15
现在改名叫openPBS了

暴露了。
作者
Author:
zmjsce    时间: 2021-1-10 23:04
装了PBS之后,用ROOT账户运行会提示不能使用ROOT账户提交任务。换成user账户后,提交VASP有最大内存限制,陷入了循环。
作者
Author:
冰释之川    时间: 2021-1-11 11:01
本帖最后由 冰释之川 于 2021-1-11 11:04 编辑
zmjsce 发表于 2021-1-10 23:04
装了PBS之后,用ROOT账户运行会提示不能使用ROOT账户提交任务。换成user账户后,提交VASP有最大内存限制 ...

内存限制?  内存没限制吧。。堆栈限制?
主节点与计算节点的堆栈大小设为无限制在我的教程里提了,主节点和所有计算节点都要设置

作者
Author:
zmjsce    时间: 2021-1-11 23:24
冰释之川 发表于 2021-1-11 11:01
内存限制?  内存没限制吧。。堆栈限制?
主节点与计算节点的堆栈大小设为无限制在我的教程里提了,主节点 ...

抱歉我没有讲清楚内存限制,我这边是遇到了堆栈的问题,root通过ultimate命令解除了限制,但是用普通用户就没法绕过内存堆栈这个问题,我今天再试着解决一下 多谢
作者
Author:
gog    时间: 2021-1-26 12:23
本帖最后由 gog 于 2021-1-26 12:25 编辑

系统故障,重新安装系统,而后安装配置PBS+maui,发现个问题:未提交任务的话,使用showq命令报错。

(base) [az@***0 torque-6.1.2]$ which showq
/opt/maui/bin/showq
(base) [az@***0 torque-6.1.2]$ sudo chmod +x /opt/maui/bin/showq
[sudo] password for az:
(base) [***0 torque-6.1.2]$ showq
ERROR:    cannot send request to server ***0:42559 (server may not be running)
ERROR:    cannot request service (status)



作者
Author:
冰释之川    时间: 2021-1-26 13:16
gog 发表于 2021-1-26 12:23
系统故障,重新安装系统,而后安装配置PBS+maui,发现个问题:未提交任务的话,使用showq命令报错。

(ba ...

先查看 maui服务是不是正常启动
作者
Author:
Y30181009    时间: 2021-3-7 20:57
老师,如果进行单机安装,可以按照博文来吗?

作者
Author:
冰释之川    时间: 2021-3-8 08:37
Y30181009 发表于 2021-3-7 20:57
老师,如果进行单机安装,可以按照博文来吗?

可以, 计算节点的安装配置直接跳过即可
作者
Author:
Y30181009    时间: 2021-3-8 08:55
冰释之川 发表于 2021-3-8 08:37
可以, 计算节点的安装配置直接跳过即可

谢谢老师
作者
Author:
tiandikuoyuan    时间: 2021-3-18 21:01
老师请问PBS脚本设置了CPU和内存参数,但是提交任务时Gaussian无法识别是怎么回事?Gaussian只能识别安装目录Default.Route里面的参数,是我哪里写错了吗?
我采用的单机安装,脚本内容如下:
#PBS -N Gaussian
#PBS -o job.log
#PBS -e err.log
#PBS -l nodes=1:ppn=12
#PBS -l mem=24000mb
#PBS -q normal
#PBS -j oe
cd $PBS_O_WORKDIR

INPUT_NAME=zn-td      

g09 $INPUT_NAME.gjf
wait
formchk $INPUT_NAME.chk
作者
Author:
abin    时间: 2021-3-18 21:20
tiandikuoyuan 发表于 2021-3-18 21:01
老师请问PBS脚本设置了CPU和内存参数,但是提交任务时Gaussian无法识别是怎么回事?Gaussian只能识别安装目 ...

1.  干掉 Default.Route里面的参数或者Default.Route配置.
2.  PBS脚本中指定内存和ppn数目
3.  input文件中指定%CPU %MEM
4.  如果不想手动指定input文件, 可以让脚本代劳. sed等修改输入文件即可.
作者
Author:
tiandikuoyuan    时间: 2021-3-18 21:38
abin 发表于 2021-3-18 21:20
1.  干掉 Default.Route里面的参数或者Default.Route配置.
2.  PBS脚本中指定内存和ppn数目
3.  input ...

PBS脚本指定了内存和核心数,不清楚为什么Gaussian不识别;Default.Route不设置的话,Gaussian只能单核运行
作者
Author:
abin    时间: 2021-3-18 22:24
tiandikuoyuan 发表于 2021-3-18 21:38
PBS脚本指定了内存和核心数,不清楚为什么Gaussian不识别;Default.Route不设置的话,Gaussian只能单核运 ...

你能否按照我说的试试?

你可以仔细读读高斯手册中, 关于使用Default.Route的前提.
作者
Author:
gqjuly    时间: 2021-3-19 11:29
喵星大佬 发表于 2020-12-22 21:03
在centos中安装用apt-get嘛

haiyou henduo sudo
作者
Author:
djjj148    时间: 2021-6-9 20:28
请教一下:我用虚拟机模拟了master和slave01两个节点(每个节点给两个物理核心),安装上了PBS,且
  1. echo sleep 7 | qsub
复制代码

测试通过。
(, 下载次数 Times of downloads: 106)
重启两个节点后再次测试echo sleep 7 | qsub依然成功。


不过发现运行
  1. for i in pbs_server pbs_sched pbs_mom trqauthd; do sudo service $i restart;done
复制代码
不再是4个OK了,而是
Restarting pbs_server (via systemctl):                     [  OK  ]
Restarting pbs_sched (via systemctl):  Job for pbs_sched.service failed because the control process exited with error code. See "systemctl status pbs_sched.service" and "journalctl -xe" for details.
                                                           [FAILED]
Restarting pbs_mom (via systemctl):                        [  OK  ]
Restarting trqauthd (via systemctl):                       [  OK  ]

请问一下这有问题吗?我后面又重装了几次系统和PBS,发现在这个操作之前
最后重启主节点,运行showq命令查看是否正常。

返回的都是四个OK,只要reboot主节点了就会出现一个FAILED


作者
Author:
冰释之川    时间: 2021-6-11 12:30
本帖最后由 冰释之川 于 2021-6-11 12:38 编辑
djjj148 发表于 2021-6-9 20:28
请教一下:我用虚拟机模拟了master和slave01两个节点(每个节点给两个物理核心),安装上了PBS,且
测试通过 ...

按照这个流程走之后,pbs_sched 默认是关闭的(因为使用maui管理提交任务),你让pbs_sched开机不要自启动就行了。
另外如果不影响任务提交与分配,可以无视之

作者
Author:
风飞    时间: 2021-6-11 13:18
冰释之川 发表于 2021-6-11 12:30
按照这个流程走之后,pbs_sched 默认是关闭的(因为使用maui管理提交任务),你让pbs_sched开机不要自启 ...

老师,您好,我的系统是centos 7.8  之前用的是turque6.1.2 升级了gcc(4.8.5到8.3.0 后) 就出现了问题“”“ cannot connect to server master (errno=111) Connection refused”

请问还可以根据您的帖子安装吗?
作者
Author:
冰释之川    时间: 2021-6-11 16:01
风飞 发表于 2021-6-11 13:18
老师,您好,我的系统是centos 7.8  之前用的是turque6.1.2 升级了gcc(4.8.5到8.3.0 后) 就出现了问题“ ...

just try ~
作者
Author:
伞阳    时间: 2021-7-17 09:57
感谢分享,这个教程太实用了!受益匪浅!
作者
Author:
冰释之川    时间: 2021-7-17 21:14
2021/07/17更新:附上快速进入PBS作业目录的脚本
作者
Author:
djjj148    时间: 2021-7-20 21:15
本帖最后由 djjj148 于 2021-7-20 22:06 编辑

请教一下,严格用这个方法安装集群后,提交任务一直到结束后都不会生成标准输出和错误输出文件,具体是:只有登录节点开机才会生成这两个文件。
一旦计算节点开机就不会生成。
甚至我在提交脚本里写了#PBS -e example.stderr都没用。
我用的其他PBS集群都会有生成,比如g16.o1和g16.e1,其中g16是任务名,1是JOBID。请问是还需要一些设置才可以的吗?

作者
Author:
冰释之川    时间: 2021-7-21 08:20
djjj148 发表于 2021-7-20 21:15
请教一下,严格用这个方法安装集群后,提交任务一直到结束后都不会生成标准输出和错误输出文件,具体是:只 ...

标准输出和标准错误文件产生于当前工作目录,我这边没问题:

  1. #!/bin/bash
  2. #PBS -N Gaussian
  3. #PBS -l nodes=1:ppn=16
  4. #PBS -l walltime=1440:00:00
  5. #PBS -q AMD
  6. #PBS -o jobID.$PBS_JOBID

  7. # mkdir -p ~/tmp/$PBS_JOBID
  8. # scp -r master:$PBS_O_WORKDIR/* ~/tmp/$PBS_JOBID
  9. # cd ~/tmp/$PBS_JOBID

  10. cd $PBS_O_WORKDIR
  11. touch jobID.$PBS_JOBID

  12. FILENAME=6PPD_Hc.gjf   # input file name

  13. g16 $FILENAME   # running gaussian 16
  14. wait
  15. formchk ${FILENAME/%gjf/chk}
  16. wait
  17. rm ${FILENAME/%gjf/chk}

  18. # scp -r ~/tmp/$PBS_JOBID/* master:$PBS_O_WORKDIR
  19. # rm -rf ~/tmp/$PBS_JOBID
复制代码

作者
Author:
djjj148    时间: 2021-7-21 13:42
冰释之川 发表于 2021-7-21 08:20
标准输出和标准错误文件产生于当前工作目录,我这边没问题:

谢谢!排查后发现是我之前设置ssh的时候没有在普通用户下从slave ssh到master导致的。

首次在普通用户下ssh master后
Are you sure you want to continue connecting (yes/no)?
输入yes就可以了~

作者
Author:
zxg2020    时间: 2021-11-27 15:51
请问楼主,CentOS-8-x86_64-1905下配置安装Torque-6.1.1.1,安装好了所有的依赖包。./configure也通过了,提示接着make。make的时候,报错终止了。报错信息如下,还有图片“
attr_fn_acl.c: 在函数‘int set_allacl(pbs_attribute*, pbs_attribute*, batch_op, int (*)(char*, char*))’中:
attr_fn_acl.c:502:20: 错误:this statement may fall through [-Werror=implicit-fallthrough=]
       pas->as_next = pas->as_buf;
       ~~~~~~~~~~~~~^~~~~~~~~~~~~
attr_fn_acl.c:506:5: 附注:here
     case INCR_OLD:
     ^~~~
"



作者
Author:
冰释之川    时间: 2021-11-29 13:20
zxg2020 发表于 2021-11-27 15:51
请问楼主,CentOS-8-x86_64-1905下配置安装Torque-6.1.1.1,安装好了所有的依赖包。./configure也通过了, ...

编译安装(make过程中会多次报错,因而中断之后需要继续添加参数make,比如make CFLAGS='-w -fpermissive' ;make CPPFLAGS='-w -fpermissive' ;make CXXFLAGS='-w -fpermissive',自己一个个试吧)
作者
Author:
monk1077    时间: 2021-12-16 17:18
冰释之川 发表于 2021-11-29 13:20
编译安装(make过程中会多次报错,因而中断之后需要继续添加参数make,比如make CFLAGS='-w -fpermissive' ...

比较新的linux版本(如debian11/centos8/centos stream9等)此法行不通,需要更改源码
作者
Author:
丁越    时间: 2022-3-1 22:40
djjj148 发表于 2021-6-9 20:28
请教一下:我用虚拟机模拟了master和slave01两个节点(每个节点给两个物理核心),安装上了PBS,且
测试通过 ...

我今天安装了CentOS 9 stream,安装队列的时候碰到的问题和你一样,你输入systemctl status pbs_sched.service 看看是不是下面有这个"/etc/rc.d/init.d/pbs_sched: line 9: /etc/rc.d/init.d/functions: No such file or directory",即在/etc/rc.d/init.d下没有function这个文件,没有的话加上
作者
Author:
luzujia    时间: 2022-5-5 19:19
本帖最后由 luzujia 于 2022-5-5 19:27 编辑

收获很大


作者
Author:
gog    时间: 2022-5-5 20:32
丁越 发表于 2022-3-1 22:40
我今天安装了CentOS 9 stream,安装队列的时候碰到的问题和你一样,你输入systemctl status pbs_sched.se ...

使用centos 9 stream,还不如用fedora最新版
作者
Author:
丁越    时间: 2022-5-6 08:23
本帖最后由 丁越 于 2022-5-6 08:25 编辑
gog 发表于 2022-5-5 20:32
使用centos 9 stream,还不如用fedora最新版

习惯用CentOS了,除了WSL上用过Ubuntu,其他的linux系统还没用过。确实CentOS 9 stream装软件的时候挺折腾的。
作者
Author:
RES    时间: 2022-8-7 11:05
本帖最后由 RES 于 2022-8-7 12:35 编辑

老师,我在按照您的帖子内容尝试安装PBS时,发现不能yum自动安装,发现是yum的版本太低,费了半天重新装了yum再次装PBS,但是yum lib的时候还是报错了(有一堆这样的报错),Linux的系统貌似是Redhat4.4.4,是不是系统太老了(因为这个装yum的时候都找了半天的方法)C:\Users\WUxianghuang\Desktop\屏幕截图 2022-08-07 110021.jpg
作者
Author:
abin    时间: 2022-8-7 12:15
RES 发表于 2022-8-7 11:05
老师,我在按照您的帖子内容尝试安装PBS时,发现不能yum自动安装,发现是yum的版本太低,费了半天重新装了y ...

要不你看看这个?
gitee.com/hpc4you/hpc

hpc4you toolkit solo
如果是单机的话,啥操作都不用。
会自动安装slurm调度器。


作者
Author:
RES    时间: 2022-8-7 12:34
abin 发表于 2022-8-7 12:15
要不你看看这个?
gitee.com/hpc4you/hpc

多谢,我是单机安装,花钱的有点划不来
作者
Author:
abin    时间: 2022-8-7 13:46
RES 发表于 2022-8-7 11:05
老师,我在按照您的帖子内容尝试安装PBS时,发现不能yum自动安装,发现是yum的版本太低,费了半天重新装了y ...

我仔细观看了下,
如果你说的系统版本是RHEL 4.x,
建议你换系统吧。

你能找到的方案基本没法用。

RHEL4.x,大概15年前的东西了。

升级yum,也是勇士呀。

作者
Author:
abin    时间: 2022-8-7 13:50
RES 发表于 2022-8-7 12:34
多谢,我是单机安装,花钱的有点划不来

花钱,或者花时间,都差不多吧。

建议先更换系统到RHEL 7 或者RHEL8 兼容系统。
然后,仔细阅读英文原版手册。
大概一两个小时能搞定。

或者B站,hpc4you 有一个实况视频,
Torque 安装的。这个很早了。

我现在改用slurm ,因为多机器会很方便。


作者
Author:
RES    时间: 2022-8-7 14:46
本帖最后由 RES 于 2022-8-7 14:53 编辑
abin 发表于 2022-8-7 13:50
花钱,或者花时间,都差不多吧。

建议先更换系统到RHEL 7 或者RHEL8 兼容系统。

再次感谢您,我再次确认了一下版本,cat  /etc/redhat-release 出来的结果是Red Hat Enterprise Linux Server release 6.4 (Santiago)不知道这个版本可以满足装PBS的要求吗?
我之前是cat /proc/version 出来的结果是:Linux version 2.6.32-358.el6.x86_64 (mockbuild@x86-022.build.eng.bos.redhat.com) (gcc version 4.4.7 20120313 (Red Hat 4.4.7-3) (GCC) ) #1 SMP Tue Jan 29 11:47:41 EST 2013
感觉这服务器好几年没人维护的,换系统怕这电脑给我搞没了


作者
Author:
abin    时间: 2022-8-7 15:36
RES 发表于 2022-8-7 14:46
再次感谢您,我再次确认了一下版本,cat  /etc/redhat-release 出来的结果是Red Hat Enterprise Linux Se ...

当然可以安装,
看你技能了。

估计要捣鼓一段时间的。

RHEL6, 7, 8, 9及其兼容系统,都没有问题。

看你动手能力了。
作者
Author:
RES    时间: 2022-8-7 15:48
abin 发表于 2022-8-7 15:36
当然可以安装,
看你技能了。

多谢老师,我再摸索摸索,之前就是遇到了我一开始提到的那个问题,不能yum下载安装turque的环境
作者
Author:
RES    时间: 2023-12-23 19:21
请问老师,我安装好之后qsub提交脚本的时候出现qsub: submit error (Job exceeds queue resource limits MSG=cannot locate feasible nodes (nodes file is empty, all systems are busy, or no nodes have the requested feature)) 不知道是什么问题?




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3