计算化学公社

 找回密码 Forget password
 注册 Register
Views: 4173|回复 Reply: 14
打印 Print 上一主题 Last thread 下一主题 Next thread

[VASP] mpirun没反应。“hydra_pmi_proxy”

[复制链接 Copy URL]

15

帖子

0

威望

135

eV
积分
150

Level 3 能力者

使用的是Intel Parallel Studio XE Cluster Edition 2019编译的vasp6以及quantum espresso 6.8。
一直能正常使用mpirun -np ...
从昨天开始突然就出现怪事,mpirun -np ...输入后,没有反应也没有报错。(mpirun -np XXX: vasp和QE都没反应)
在正常使用到不正常的时间段,我没有安装或者卸载什么东西,也没有在系统层面更改设置,就很奇怪。

我单独用vasp_std却能跑起来。(应该与这些程序无关,就是并行方面,或者intelmpi部分出问题了)
查看下进程,出现了个hydra_pmi_proxy的东西,如图:
这是htop查看到的


这是top查看到的



每次mpirun -np XXX之后,都出现一个新的hydra_pmi_proxy进程,比如我反复开了5次mpirun,就出现了5个hydra_pmi_proxy进程,需要kill才能结束掉。(mpiexec也一样)

网上查过hydra_pmi_proxy,没得到什么情报(捂脸)。

把intel编译器卸载,然后再安装,依然没解决问题。


发生肾么事了,求解释。
How to fix it? 麻烦大佬支招。


2301

帖子

1

威望

5477

eV
积分
7798

Level 6 (一方通行)

2#
发表于 Post on 2022-7-20 22:26:23 | 只看该作者 Only view this author
你有没有修改过
~/.bashrc

/etc/profile之类的?

有没有开启firewalls, selinux, apparmor之类?

最近有没有静默运行过dnf/yum/apt update之类?

另, 啥系统?

High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

15

帖子

0

威望

135

eV
积分
150

Level 3 能力者

3#
 楼主 Author| 发表于 Post on 2022-7-20 22:37:49 | 只看该作者 Only view this author
abin 发表于 2022-7-20 22:26
你有没有修改过
~/.bashrc

你好~!
没修改过bashrc和profile哦(一开始也检查过,没奇怪的变化和改动)
也没开各种防火墙,网络方面,也就用了todesk远程控制小服务器(一直用,也没出问题)
查了下进程,应该也没有在运行的dnf/yum/apt update

top截图:


另外,系统是ubuntu2020。

2301

帖子

1

威望

5477

eV
积分
7798

Level 6 (一方通行)

4#
发表于 Post on 2022-7-20 23:12:42 | 只看该作者 Only view this author
排查起来看运气了……
Ubuntu2020,没这个版本吧?

新版本的ubuntu ,系统静默有移动升级。

apt/yum/dnf应该没有运行过吧。
看你这句能原样照抄,可以推测,系统如有自动升级,
你也不晓得……

你要是如此肯定,系统近期啥都没做过,
就忽然作妖了,
那重新刷系统吧,这个最简单了。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

15

帖子

0

威望

135

eV
积分
150

Level 3 能力者

5#
 楼主 Author| 发表于 Post on 2022-7-20 23:25:20 | 只看该作者 Only view this author
abin 发表于 2022-7-20 23:12
排查起来看运气了……
Ubuntu2020,没这个版本吧?

具体的话,就是20.04.4LTS
apt那几个确实不懂。以前在centos用过yum安装,ubuntu用apt-get。这些软件安装或者系统升级,不主动输入命令也会自己动吗...?
重装系统吗?就是觉得非常麻烦,所以先看看能不能通过小修补解决问题

2301

帖子

1

威望

5477

eV
积分
7798

Level 6 (一方通行)

6#
发表于 Post on 2022-7-21 08:27:36 | 只看该作者 Only view this author
Ubuntu如果设定不当, 会自动升级系统.

这玩意排查起来比较麻烦.
前几天恰好遇到类似问题, 就是自动升级之后, 系统有几个MPI版本, 还做了傻透顶的全局设定.

花时间慢慢排查吧.
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

20

帖子

0

威望

385

eV
积分
405

Level 3 能力者

7#
发表于 Post on 2022-7-21 10:44:45 | 只看该作者 Only view this author
就是ubuntu更新的问题,具体在哪还没找到,重装intel mpi 搞定

10

帖子

0

威望

77

eV
积分
87

Level 2 能力者

8#
发表于 Post on 2022-7-21 18:33:22 | 只看该作者 Only view this author
我也是遇到同样问题请问,重装Intel MPI是直接重装整个Intel Parallel Studio XE Cluster Edition 2019么?然后重装后需要重新编译QE么?

279

帖子

2

威望

4423

eV
积分
4742

Level 6 (一方通行)

打脸只许打一次

9#
发表于 Post on 2022-7-21 22:48:43 | 只看该作者 Only view this author
请输入 which mpiexec 以及 which ifort 并给出你的bashrc截图。

10

帖子

0

威望

77

eV
积分
87

Level 2 能力者

10#
发表于 Post on 2022-7-21 23:39:07 | 只看该作者 Only view this author
本帖最后由 tanzicong 于 2022-7-21 23:49 编辑

ifort, mpiexec截图如下,


bashrc 截图如下,

捕获.PNG (108.7 KB, 下载次数 Times of downloads: 16)

捕获.PNG

1

帖子

0

威望

719

eV
积分
720

Level 4 (黑子)

11#
发表于 Post on 2022-7-22 23:18:22 | 只看该作者 Only view this author
遇到这个问题加一 ,一直运行没问题的oneapi 2021.4 在杀掉一个slurm任务之后 突然开始运行mpirun无输出,但后台有一个“mpiexec.hydra”一直在运行(但这个程序貌似和mpirun是等价的几乎)
尝试运行自身的check(mpirun --version)也没有输出 说明和计算程序编译无关 单纯源于mpirun本身运行的问题
尝试用安装包repair以及删了重装问题依然存在
用strace定位了一下mpirun的运行
与另一台正常机器对比只发现有多种mpiexec.hydra存在
  1. stat("/usr/local/go/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  2. stat("/home/room/Software/vaspkit.1.3.0/bin//mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  3. stat("/home/room/anaconda3/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  4. stat("/opt/intel/oneapi/compiler/2021.4.0/linux/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  5. stat("/home/room/.local/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  6. stat("/usr/local/go/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  7. stat("/home/room/Software/vaspkit.1.3.0/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  8. stat("/home/room/anaconda3/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  9. stat("/opt/intel/oneapi/compiler/2021.4.0/linux/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  10. stat("/opt/intel/oneapi/vtune/2021.7.1/bin64/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  11. stat("/opt/intel/oneapi/vpl/2021.6.0/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  12. stat("/opt/intel/oneapi/mpi/2021.4.0/libfabric/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  13. stat("/opt/intel/oneapi/mpi/2021.4.0/bin/mpiexec.hydra", {st_mode=S_IFREG|0755, st_size=3637909, ...}) = 0
  14. clone(child_stack=NULL, flags=CLONE_CHILD_CLEARTID|CLONE_CHILD_SETTID|SIGCHLD, child_tidptr=0x7fb61efc9e50) = 234142
  15. wait4(-1,
复制代码

尝试注释掉与oneapi无关的mpiexec环境变量也没有效果,希望后面有经验的能推测一下可能原因~

1

帖子

0

威望

35

eV
积分
36

Level 2 能力者

12#
发表于 Post on 2022-7-27 09:04:21 | 只看该作者 Only view this author
遇到了完全相同的问题,楼主解决了吗。
感觉像是系统自动更新导致的,但是找不到原因。

175

帖子

0

威望

3271

eV
积分
3446

Level 5 (御坂)

13#
发表于 Post on 2022-7-27 16:06:38 | 只看该作者 Only view this author
我也遇到了,看来是系统升级的问题了

1

帖子

0

威望

5

eV
积分
6

Level 1 能力者

14#
发表于 Post on 2023-5-18 13:31:27 | 只看该作者 Only view this author
可能和kernel版本有关,也许和某些内核不匹配。 参考https://community.intel.com/t5/I ... on-Gold/m-p/1366781
我的Xeon Scalable CPU中,部分节点在5.17.4版内核上,不能正常工作,当将内核切换回5.14.7之后,就可正常工作。
但是另外一个cpu型号的节点上使用5.17.4版内核,确没有此故障。
我的节点系统环境: centos7

切换内核方法:启动时选择较老的内核。或者编辑grup配置文件。

10

帖子

0

威望

514

eV
积分
524

Level 4 (黑子)

15#
发表于 Post on 2023-7-31 16:51:20 | 只看该作者 Only view this author
请问具体的过程应该怎么解决,在不重装系统的情况下

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-26 07:36 , Processed in 0.237284 second(s), 31 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list