计算化学公社

 找回密码 Forget password
 注册 Register
Views: 62|回复 Reply: 2
打印 Print 上一主题 Last thread 下一主题 Next thread

[其它程序] 用GPU脚本在conda环境下装OpenMM,遇到NewConnectionError如何解决

[复制链接 Copy URL]

1

帖子

0

威望

129

eV
积分
130

Level 2 能力者

跳转到指定楼层 Go to specific reply
楼主
本帖最后由 saponifei 于 2024-11-6 15:11 编辑

大家好,我先安装了最新版本的miniconda3,在conda activate之后:
我想把gpu_install_openmm-这个脚本,提交到超算集群的Nvidia-GPU(型号P100)上来运行conda install -c conda-forge openmm cudatoolkit(为了conda环境下安装OpenMM、且让新装的OpenMM能感知并调用到集群上的GPU)。
这个操作,返回了545072.err的报错文件,文件内的报错内容主要是NewConnectionError;可是我们那个超算集群是能连上网的呀(至少主节点是可以运行pip/conda install XXX的),请问这个问题怎么解决呢?

545072.err

29.99 KB, 下载次数 Times of downloads: 2

报错文件

gpu_install_openmm-.sh

420 Bytes, 下载次数 Times of downloads: 1

提交的GPU脚本文件

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

2#
发表于 Post on 2024-11-6 15:45:26 | 只看该作者 Only view this author
"Network is unreachable"

Have you read the *err file?

It seems you have network connection on the login/master/control node,
but no network conneciton on the computing/slave nodes.

High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

3#
发表于 Post on 2024-11-7 10:17:57 | 只看该作者 Only view this author
head/master有网,
computing/slave node没有网.

而且机器还是异构: head/slave机器硬件不同.

这个时候, 多数集群上, 会限定用户登录节点.
或者仅当用户在节点有任务的时候, 才可以去节点.

如果节点限定single-ssh-session-only模式,
你应该没法办给slave node拿到网络的, 常见的模式都不行的.


不限定single-ssh-session模式, 还是有办法的.

识别GPU做编译, 应该是选择SM而已... 所以可以采用docker等镜像方案, 在别处编译完毕, 再拿到平台上.

如果平台不支持docker/apptainer/singulairty, 那也没法用.

High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 06:55 , Processed in 0.176700 second(s), 24 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list