计算化学公社

 找回密码 Forget password
 注册 Register

mpirun没反应。“hydra_pmi_proxy”

查看数: 4171 | 评论数: 14 | 收藏 Add to favorites 4
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2022-7-20 21:37

正文摘要:

使用的是Intel Parallel Studio XE Cluster Edition 2019编译的vasp6以及quantum espresso 6.8。 一直能正常使用mpirun -np ... 从昨天开始突然就出现怪事,mpirun -np ...输入后,没有反应也没有报错。(mpirun - ...

回复 Reply

Soul 发表于 Post on 2023-7-31 16:51:20
请问具体的过程应该怎么解决,在不重装系统的情况下
bolin 发表于 Post on 2023-5-18 13:31:27
可能和kernel版本有关,也许和某些内核不匹配。 参考https://community.intel.com/t5/I ... on-Gold/m-p/1366781
我的Xeon Scalable CPU中,部分节点在5.17.4版内核上,不能正常工作,当将内核切换回5.14.7之后,就可正常工作。
但是另外一个cpu型号的节点上使用5.17.4版内核,确没有此故障。
我的节点系统环境: centos7

切换内核方法:启动时选择较老的内核。或者编辑grup配置文件。
ghifi37 发表于 Post on 2022-7-27 16:06:38
我也遇到了,看来是系统升级的问题了
ShidaZhang2022 发表于 Post on 2022-7-27 09:04:21
遇到了完全相同的问题,楼主解决了吗。
感觉像是系统自动更新导致的,但是找不到原因。
neetsaki 发表于 Post on 2022-7-22 23:18:22
遇到这个问题加一 ,一直运行没问题的oneapi 2021.4 在杀掉一个slurm任务之后 突然开始运行mpirun无输出,但后台有一个“mpiexec.hydra”一直在运行(但这个程序貌似和mpirun是等价的几乎)
尝试运行自身的check(mpirun --version)也没有输出 说明和计算程序编译无关 单纯源于mpirun本身运行的问题
尝试用安装包repair以及删了重装问题依然存在
用strace定位了一下mpirun的运行
与另一台正常机器对比只发现有多种mpiexec.hydra存在
  1. stat("/usr/local/go/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  2. stat("/home/room/Software/vaspkit.1.3.0/bin//mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  3. stat("/home/room/anaconda3/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  4. stat("/opt/intel/oneapi/compiler/2021.4.0/linux/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  5. stat("/home/room/.local/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  6. stat("/usr/local/go/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  7. stat("/home/room/Software/vaspkit.1.3.0/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  8. stat("/home/room/anaconda3/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  9. stat("/opt/intel/oneapi/compiler/2021.4.0/linux/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  10. stat("/opt/intel/oneapi/vtune/2021.7.1/bin64/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  11. stat("/opt/intel/oneapi/vpl/2021.6.0/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  12. stat("/opt/intel/oneapi/mpi/2021.4.0/libfabric/bin/mpiexec.hydra", 0x7ffd56d14120) = -1 ENOENT (No such file or directory)
  13. stat("/opt/intel/oneapi/mpi/2021.4.0/bin/mpiexec.hydra", {st_mode=S_IFREG|0755, st_size=3637909, ...}) = 0
  14. clone(child_stack=NULL, flags=CLONE_CHILD_CLEARTID|CLONE_CHILD_SETTID|SIGCHLD, child_tidptr=0x7fb61efc9e50) = 234142
  15. wait4(-1,
复制代码

尝试注释掉与oneapi无关的mpiexec环境变量也没有效果,希望后面有经验的能推测一下可能原因~
tanzicong 发表于 Post on 2022-7-21 23:39:07
本帖最后由 tanzicong 于 2022-7-21 23:49 编辑

ifort, mpiexec截图如下,


bashrc 截图如下,

捕获.PNG (108.7 KB, 下载次数 Times of downloads: 15)

捕获.PNG
wypkdhd 发表于 Post on 2022-7-21 22:48:43
请输入 which mpiexec 以及 which ifort 并给出你的bashrc截图。
tanzicong 发表于 Post on 2022-7-21 18:33:22
我也是遇到同样问题请问,重装Intel MPI是直接重装整个Intel Parallel Studio XE Cluster Edition 2019么?然后重装后需要重新编译QE么?
ilovelr 发表于 Post on 2022-7-21 10:44:45
就是ubuntu更新的问题,具体在哪还没找到,重装intel mpi 搞定
abin 发表于 Post on 2022-7-21 08:27:36
Ubuntu如果设定不当, 会自动升级系统.

这玩意排查起来比较麻烦.
前几天恰好遇到类似问题, 就是自动升级之后, 系统有几个MPI版本, 还做了傻透顶的全局设定.

花时间慢慢排查吧.
wendawei 发表于 Post on 2022-7-20 23:25:20
abin 发表于 2022-7-20 23:12
排查起来看运气了……
Ubuntu2020,没这个版本吧?

具体的话,就是20.04.4LTS
apt那几个确实不懂。以前在centos用过yum安装,ubuntu用apt-get。这些软件安装或者系统升级,不主动输入命令也会自己动吗...?
重装系统吗?就是觉得非常麻烦,所以先看看能不能通过小修补解决问题
abin 发表于 Post on 2022-7-20 23:12:42
排查起来看运气了……
Ubuntu2020,没这个版本吧?

新版本的ubuntu ,系统静默有移动升级。

apt/yum/dnf应该没有运行过吧。
看你这句能原样照抄,可以推测,系统如有自动升级,
你也不晓得……

你要是如此肯定,系统近期啥都没做过,
就忽然作妖了,
那重新刷系统吧,这个最简单了。
abin 发表于 Post on 2022-7-20 22:26:23
你有没有修改过
~/.bashrc

/etc/profile之类的?

有没有开启firewalls, selinux, apparmor之类?

最近有没有静默运行过dnf/yum/apt update之类?

另, 啥系统?

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-26 07:26 , Processed in 0.260366 second(s), 33 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list