计算化学公社
标题:
用GPU脚本在conda环境下装OpenMM,遇到NewConnectionError如何解决
[打印本页]
作者Author:
saponifei
时间:
2024-11-6 15:11
标题:
用GPU脚本在conda环境下装OpenMM,遇到NewConnectionError如何解决
本帖最后由 saponifei 于 2024-11-6 15:11 编辑
大家好,我先安装了最新版本的miniconda3,在conda activate之后:
我想把gpu_install_openmm-这个脚本,提交到超算集群的Nvidia-GPU(型号P100)上来运行conda install -c conda-forge openmm cudatoolkit(为了conda环境下安装OpenMM、且让新装的OpenMM能感知并调用到集群上的GPU)。
这个操作,返回了545072.err的报错文件,文件内的报错内容主要是NewConnectionError;可是我们那个超算集群是能连上网的呀(至少主节点是可以运行pip/conda install XXX的),请问这个问题怎么解决呢?
作者Author:
abin
时间:
2024-11-6 15:45
"Network is unreachable"
Have you read the *err file?
It seems you have network connection on the login/master/control node,
but no network conneciton on the computing/slave nodes.
作者Author:
abin
时间:
2024-11-7 10:17
head/master有网,
computing/slave node没有网.
而且机器还是异构: head/slave机器硬件不同.
这个时候, 多数集群上, 会限定用户登录节点.
或者仅当用户在节点有任务的时候, 才可以去节点.
如果节点限定single-ssh-session-only模式,
你应该没法办给slave node拿到网络的, 常见的模式都不行的.
不限定single-ssh-session模式, 还是有办法的.
识别GPU做编译, 应该是选择SM而已... 所以可以采用docker等镜像方案, 在别处编译完毕, 再拿到平台上.
如果平台不支持docker/apptainer/singulairty, 那也没法用.
欢迎光临 计算化学公社 (http://bbs.keinsci.com/)
Powered by Discuz! X3.3