pwzhou 发表于 2019-11-25 14:10 你好,打扰了,我在集群新增了一个队列,然后想重启一下pbs_server,先执行qterm -t quick,再执行pbs_server就报错了,请问有没有遇到过这样的问题,谢谢了。 [root@mgr wzluo]# pbs_server Connecting to PBS dataservice...Failed to start PBS dataservice ..Failed to start PBS dataservice 之后,我尝试执行/etc/init.d/pbs restart,还是报错 [root@mgr wzluo]# /etc/init.d/pbs restart Restarting PBS Stopping PBS PBS sched - was pid: 14490 PBS comm - was pid: 14392 Waiting for shutdown to complete Starting PBS PBS comm /opt/pbs/sbin/pbs_comm ready (pid=34996), Proxy Name:mgr:17001, Threads:4 Creating usage database for fairshare. PBS sched Connecting to PBS dataservice...Failed to start PBS dataservice ..Failed to start PBS dataservice .continuing in background. PBS server |
Jerryluo 发表于 2019-11-25 14:59 你好,打扰了,我在集群新增了一个队列,然后想重启一下pbs_server,先执行qterm -t quick,再执行pbs_server就报错了,请问有没有遇到过这样的问题,谢谢了。 [root@mgr wzluo]# pbs_server Connecting to PBS dataservice...Failed to start PBS dataservice ..Failed to start PBS dataservice 之后,我尝试执行/etc/init.d/pbs restart,还是报错 [root@mgr wzluo]# /etc/init.d/pbs restart Restarting PBS Stopping PBS PBS sched - was pid: 14490 PBS comm - was pid: 14392 Waiting for shutdown to complete Starting PBS PBS comm /opt/pbs/sbin/pbs_comm ready (pid=34996), Proxy Name:mgr:17001, Threads:4 Creating usage database for fairshare. PBS sched Connecting to PBS dataservice...Failed to start PBS dataservice ..Failed to start PBS dataservice .continuing in background. PBS server |
pwzhou 发表于 2019-11-25 14:10 刚才试了下,终于可以了,实在是太感谢了 |
Jerryluo 发表于 2019-11-25 12:04 最后这两行表示你们是用NIS管理用户的, #update nis db cd /var/yp && make 但是这个脚本并没有把用户添加到gaussian组,所以如果你在主节点把用户添加到gaussian组以后,还需要执行一下 cd /var/yp && make 这样才会用户的组信息同步到计算节点,所以解决办法就是在主节点再执行一下cd /var/yp && make 然后再检查一下,应该就可以了。 |
本帖最后由 Jerryluo 于 2019-11-25 12:06 编辑 pwzhou 发表于 2019-11-25 08:30 集群不是rocks集群,是通用架构的,集群装的时候是供应商自己写的脚本。 我就是在 计算节点用usermod命令把test2用户添加到gaussian group的。 以下是添加用户的脚本: #add user #GROUP=users BASE="/share/home" HOME="${BASE}/${1}" useradd -d $HOME $1 #init password echo "111111" | passwd --stdin $1 #ssh su -c "ssh-keygen -f ~/.ssh/id_rsa -t rsa -N ''" $1 su -c "cat ~/.ssh/id_rsa.pub >~/.ssh/authorized_keys " $1 su -c "echo 'StrictHostKeyChecking no'>~/.ssh/config" $1 #update nis db cd /var/yp && make |
Jerryluo 发表于 2019-11-24 22:30 不太了解你们集群的架构也不知道用户是怎么添加的,所以无法给出准确的回答。rocks集群的话,在主节点添加完用户以后,直接执行rocks sync users,即可同步,这个命令的本质就是把主节点的/etc/passwd, /etc/shadow以及/etc/group拷贝到计算节点。如果用NIS管理用户的话,就需要在主节点cd /var/yp,然后执行一下make命令同步用户。但是你这个uid相同,gid不同,还真猜不出你们是怎么添加用户的,目前一个直接的解决办法就是在计算节点用usermod命令把test2用户添加到gaussian group即可。如果可以告诉你们集群的架构,即是通过什么来管理用户的,以及你们是怎么来添加test2这个用户的,应该可以给出最佳的解决办法。 |
本帖最后由 Jerryluo 于 2019-11-24 22:31 编辑 pwzhou 发表于 2019-11-22 08:00 十分感谢您的解答。 这是计算节点的id uid=1015(test2) gid=1019(test2) groups=1019(test2) 这是管理节点的id uid=1015(test2) gid=1005(gaussian) groups=1005(gaussian) 应该是用户信息没有同步,对集群方面不是很了解,集群用的是PBSPro调度软件,请问应该怎样同步呢,谢谢。 |
|
本帖最后由 pwzhou 于 2019-11-22 08:02 编辑 根据错误提示,就是权限问题,如果主节点没问题,那么去计算节点看看,看看两个节点的用户ID是否一致,gaussian这个group的gid在两个节点是否一致?很可能时由于计算节点的用户信息没有同步导致的。rocks集群的话在添加新用户以后有没有通过rocks sync users同步新用户信息到计算节点? 还有一点,test2是不是在gaussian这个组里,目前只看到文件夹权限,这个不能确认test2在gaussian这个组里。 |
手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图
GMT+8, 2026-2-22 16:49 , Processed in 0.190195 second(s), 25 queries , Gzip On.