计算化学公社

 找回密码 Forget password
 注册 Register
Views: 2253|回复 Reply: 3
打印 Print 上一主题 Last thread 下一主题 Next thread

[任务提交/队列管理] MaterialsStudio2020 集群问题

[复制链接 Copy URL]

1

帖子

0

威望

15

eV
积分
16

Level 1 能力者

大佬们求救啊我的预想是有两台机器,一台作为master一台为salve,两个都参与计算。任务提交方法为windows端向gateway交作业,gateway作业用torque,但实际都搭好后发现只有master能计算,但salve不行

两台系统都是centos7.9 torque版本是6.1.1 ms是2020 ,master节点ms装在了普通用户下,salve节点是用的master的nfs共享文件夹,torque管理用户也为普通用户,ssh普通用户免登录也设置了,machine.linux里master :64和salve :64添加了,两个dsd config文件的cputotal也都改为128了,torque里的nodes添加了master和salve
用torque运行普通echo命令,两个节点都可以正常输出,推测torque没问题
测试windows-gateway-torque-master能正常计算
但测试windows-gateway-torque-salve就只显示一个queue,再等会就报错了,在master上查看qstat -a -n命令能看到作业已经发给salve

现在大致知道问题应该是在torque到salve执行ms计算这块,但不知道该咋整了 ,求救


2407

帖子

1

威望

5950

eV
积分
8377

Level 6 (一方通行)

2#
发表于 Post on 2022-2-1 19:11:07 | 只看该作者 Only view this author
放弃使用gateway 模式。

微软产生输入文件,
而后送到Linux 平台,
通过PBS脚本运行计算任务。

MS手册,如有描述gateway模式可以支持多机器,
那可以咨询MS技术支持,
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

34

帖子

0

威望

1920

eV
积分
1954

Level 5 (御坂)

3#
发表于 Post on 2022-2-2 20:38:49 | 只看该作者 Only view this author
需要修改cpucorestotal的核心数。
登录地址服务器ip:18888。
修改路径:
     Gateway Data--Edit(屏幕左下角)--username:gatekeeper(口令为空)


908

帖子

37

威望

5435

eV
积分
7083

Level 6 (一方通行)

4#
发表于 Post on 2022-2-10 23:16:27 | 只看该作者 Only view this author
确保MS的依赖包 在master和slave上的部署情况完全一样

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-13 23:07 , Processed in 0.168699 second(s), 26 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list