计算化学公社

标题: mpirun没反应。“hydra_pmi_proxy” [打印本页]

作者
Author:
wendawei    时间: 2022-7-20 21:37
标题: mpirun没反应。“hydra_pmi_proxy”
使用的是Intel Parallel Studio XE Cluster Edition 2019编译的vasp6以及quantum espresso 6.8。
一直能正常使用mpirun -np ...
从昨天开始突然就出现怪事,mpirun -np ...输入后,没有反应也没有报错。(mpirun -np XXX: vasp和QE都没反应)
在正常使用到不正常的时间段,我没有安装或者卸载什么东西,也没有在系统层面更改设置,就很奇怪。

我单独用vasp_std却能跑起来。(应该与这些程序无关,就是并行方面,或者intelmpi部分出问题了)
查看下进程,出现了个hydra_pmi_proxy的东西,如图:
这是htop查看到的
(, 下载次数 Times of downloads: 5)

这是top查看到的

(, 下载次数 Times of downloads: 6)

每次mpirun -np XXX之后,都出现一个新的hydra_pmi_proxy进程,比如我反复开了5次mpirun,就出现了5个hydra_pmi_proxy进程,需要kill才能结束掉。(mpiexec也一样)

网上查过hydra_pmi_proxy,没得到什么情报(捂脸)。

把intel编译器卸载,然后再安装,依然没解决问题。


发生肾么事了,求解释。
How to fix it? 麻烦大佬支招。



作者
Author:
abin    时间: 2022-7-20 22:26
你有没有修改过
~/.bashrc

/etc/profile之类的?

有没有开启firewalls, selinux, apparmor之类?

最近有没有静默运行过dnf/yum/apt update之类?

另, 啥系统?


作者
Author:
wendawei    时间: 2022-7-20 22:37
abin 发表于 2022-7-20 22:26
你有没有修改过
~/.bashrc

你好~!
没修改过bashrc和profile哦(一开始也检查过,没奇怪的变化和改动)
也没开各种防火墙,网络方面,也就用了todesk远程控制小服务器(一直用,也没出问题)
查了下进程,应该也没有在运行的dnf/yum/apt update

top截图:
(, 下载次数 Times of downloads: 4)

另外,系统是ubuntu2020。

作者
Author:
abin    时间: 2022-7-20 23:12
排查起来看运气了……
Ubuntu2020,没这个版本吧?

新版本的ubuntu ,系统静默有移动升级。

apt/yum/dnf应该没有运行过吧。
看你这句能原样照抄,可以推测,系统如有自动升级,
你也不晓得……

你要是如此肯定,系统近期啥都没做过,
就忽然作妖了,
那重新刷系统吧,这个最简单了。

作者
Author:
wendawei    时间: 2022-7-20 23:25
abin 发表于 2022-7-20 23:12
排查起来看运气了……
Ubuntu2020,没这个版本吧?

具体的话,就是20.04.4LTS
apt那几个确实不懂。以前在centos用过yum安装,ubuntu用apt-get。这些软件安装或者系统升级,不主动输入命令也会自己动吗...?
重装系统吗?就是觉得非常麻烦,所以先看看能不能通过小修补解决问题
作者
Author:
abin    时间: 2022-7-21 08:27
Ubuntu如果设定不当, 会自动升级系统.

这玩意排查起来比较麻烦.
前几天恰好遇到类似问题, 就是自动升级之后, 系统有几个MPI版本, 还做了傻透顶的全局设定.

花时间慢慢排查吧.
作者
Author:
ilovelr    时间: 2022-7-21 10:44
就是ubuntu更新的问题,具体在哪还没找到,重装intel mpi 搞定
作者
Author:
tanzicong    时间: 2022-7-21 18:33
我也是遇到同样问题请问,重装Intel MPI是直接重装整个Intel Parallel Studio XE Cluster Edition 2019么?然后重装后需要重新编译QE么?
作者
Author:
wypkdhd    时间: 2022-7-21 22:48
请输入 which mpiexec 以及 which ifort 并给出你的bashrc截图。
作者
Author:
tanzicong    时间: 2022-7-21 23:39
本帖最后由 tanzicong 于 2022-7-21 23:49 编辑

ifort, mpiexec截图如下,
[attach]52826[/attach]

bashrc 截图如下,
(, 下载次数 Times of downloads: 15) (, 下载次数 Times of downloads: 5) (, 下载次数 Times of downloads: 5)
作者
Author:
neetsaki    时间: 2022-7-22 23:18
遇到这个问题加一 ,一直运行没问题的oneapi 2021.4 在杀掉一个slurm任务之后 突然开始运行mpirun无输出,但后台有一个“mpiexec.hydra”一直在运行(但这个程序貌似和mpirun是等价的几乎)
尝试运行自身的check(mpirun --version)也没有输出 说明和计算程序编译无关 单纯源于mpirun本身运行的问题
尝试用安装包repair以及删了重装问题依然存在
用strace定位了一下mpirun的运行
与另一台正常机器对比只发现有多种mpiexec.hydra存在
  1. stat("/usr/local/go/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  2. stat("/home/room/Software/vaspkit.1.3.0/bin//mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  3. stat("/home/room/anaconda3/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  4. stat("/opt/intel/oneapi/compiler/2021.4.0/linux/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  5. stat("/home/room/.local/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  6. stat("/usr/local/go/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  7. stat("/home/room/Software/vaspkit.1.3.0/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  8. stat("/home/room/anaconda3/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  9. stat("/opt/intel/oneapi/compiler/2021.4.0/linux/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  10. stat("/opt/intel/oneapi/vtune/2021.7.1/bin64/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  11. stat("/opt/intel/oneapi/vpl/2021.6.0/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  12. stat("/opt/intel/oneapi/mpi/2021.4.0/libfabric/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  13. stat("/opt/intel/oneapi/mpi/2021.4.0/bin/mpiexec.hydra", {st_mode=S_IFREG|0755, st_size=3637909, ...}) = 0
  14. clone(child_stack=NULL, flags=CLONE_CHILD_CLEARTID|CLONE_CHILD_SETTID|SIGCHLD, child_tidptr=0x7fb61efc9e50) = 234142
  15. wait4(-1,
复制代码

尝试注释掉与oneapi无关的mpiexec环境变量也没有效果,希望后面有经验的能推测一下可能原因~
作者
Author:
ShidaZhang2022    时间: 2022-7-27 09:04
遇到了完全相同的问题,楼主解决了吗。
感觉像是系统自动更新导致的,但是找不到原因。
作者
Author:
ghifi37    时间: 2022-7-27 16:06
我也遇到了,看来是系统升级的问题了
作者
Author:
bolin    时间: 2023-5-18 13:31
可能和kernel版本有关,也许和某些内核不匹配。 参考https://community.intel.com/t5/I ... on-Gold/m-p/1366781
我的Xeon Scalable CPU中,部分节点在5.17.4版内核上,不能正常工作,当将内核切换回5.14.7之后,就可正常工作。
但是另外一个cpu型号的节点上使用5.17.4版内核,确没有此故障。
我的节点系统环境: centos7

切换内核方法:启动时选择较老的内核。或者编辑grup配置文件。
作者
Author:
Soul    时间: 2023-7-31 16:51
请问具体的过程应该怎么解决,在不重装系统的情况下




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3