计算化学公社

标题: 用GPU脚本在conda环境下装OpenMM,遇到NewConnectionError如何解决 [打印本页]

作者
Author:
saponifei    时间: 2024-11-6 15:11
标题: 用GPU脚本在conda环境下装OpenMM,遇到NewConnectionError如何解决
本帖最后由 saponifei 于 2024-11-6 15:11 编辑

大家好,我先安装了最新版本的miniconda3,在conda activate之后:
我想把gpu_install_openmm-这个脚本,提交到超算集群的Nvidia-GPU(型号P100)上来运行conda install -c conda-forge openmm cudatoolkit(为了conda环境下安装OpenMM、且让新装的OpenMM能感知并调用到集群上的GPU)。
这个操作,返回了545072.err的报错文件,文件内的报错内容主要是NewConnectionError;可是我们那个超算集群是能连上网的呀(至少主节点是可以运行pip/conda install XXX的),请问这个问题怎么解决呢?

作者
Author:
abin    时间: 2024-11-6 15:45
"Network is unreachable"

Have you read the *err file?

It seems you have network connection on the login/master/control node,
but no network conneciton on the computing/slave nodes.


作者
Author:
abin    时间: 2024-11-7 10:17
head/master有网,
computing/slave node没有网.

而且机器还是异构: head/slave机器硬件不同.

这个时候, 多数集群上, 会限定用户登录节点.
或者仅当用户在节点有任务的时候, 才可以去节点.

如果节点限定single-ssh-session-only模式,
你应该没法办给slave node拿到网络的, 常见的模式都不行的.


不限定single-ssh-session模式, 还是有办法的.

识别GPU做编译, 应该是选择SM而已... 所以可以采用docker等镜像方案, 在别处编译完毕, 再拿到平台上.

如果平台不支持docker/apptainer/singulairty, 那也没法用.






欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3