计算化学公社

 找回密码 Forget password
 注册 Register
Views: 1985|回复 Reply: 21
打印 Print 上一主题 Last thread 下一主题 Next thread

[任务提交/队列管理] slurm提交vasp作业,作业会堆到同样的核心上

[复制链接 Copy URL]

29

帖子

0

威望

443

eV
积分
472

Level 3 能力者

本帖最后由 lue611 于 2024-4-20 17:32 编辑

cpu9654,用aocc+aocl+openmpi5.0.2编译的vasp,系统ubuntu22.04,提交作业脚本如下:
#!/bin/bash
#SBATCH -J vasp
#SBATCH -p debug
#SBATCH -N 1
#SBATCH -n 64
#SBATCH -o %j.out
#SBATCH -e %j.err
ulimit -s unlimited

mpirun vasp_gam

交了一个后是正常计算,cpu占用也是100%(其实也有点奇怪,为什么不会两个cpu分别堆32核?)
交了两个作业后,cpu占用还是0~63号核心,每个作业占用变成了50%,明显就是堆一起去了啊,而且作业的速度慢了十倍以上
求助各位大佬这是什么情况,如何解决?

捕获.PNG (370.7 KB, 下载次数 Times of downloads: 52)

捕获.PNG

2.PNG (325.53 KB, 下载次数 Times of downloads: 57)

2.PNG

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

2#
发表于 Post on 2024-3-22 10:14:05 | 只看该作者 Only view this author
cgroup 设定有问题呗。

cgroup v1 v2的问题,查手册吧。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

3#
发表于 Post on 2024-3-22 13:04:28 | 只看该作者 Only view this author
补充一下,AMD平台,尤其是双路平台,
要想发挥真正的性能,是需要一些特殊设定的。

和程序也有关系。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

29

帖子

0

威望

443

eV
积分
472

Level 3 能力者

4#
 楼主 Author| 发表于 Post on 2024-3-23 09:45:22 | 只看该作者 Only view this author
abin 发表于 2024-3-22 10:14
cgroup 设定有问题呗。

cgroup v1 v2的问题,查手册吧。

很奇怪的现象:自己写了个c++小程序,用slurm运行,能正常分配核心,但是到vasp就不行
我在怀疑是不是vasp和amd有兼容性问题

186

帖子

1

威望

505

eV
积分
711

Level 4 (黑子)

5#
发表于 Post on 2024-3-23 15:51:20 | 只看该作者 Only view this author
你的MPI是用的什么实现?有没有PMI/PMIx支持?编译时链接的和运行时用的是一套实现吗?

29

帖子

0

威望

443

eV
积分
472

Level 3 能力者

6#
 楼主 Author| 发表于 Post on 2024-3-23 21:10:17 | 只看该作者 Only view this author
啊不错的飞过海 发表于 2024-3-23 15:51
你的MPI是用的什么实现?有没有PMI/PMIx支持?编译时链接的和运行时用的是一套实现吗?

对不起,看不懂你在说什么。。。

186

帖子

1

威望

505

eV
积分
711

Level 4 (黑子)

7#
发表于 Post on 2024-3-25 17:15:35 | 只看该作者 Only view this author
lue611 发表于 2024-3-23 21:10
对不起,看不懂你在说什么。。。

呃,你用的是intel mpi、openmpi还是mpich? 自己编译的还是别人的,如果是自己编译的那么configure时候有没有写slurm位置?

29

帖子

0

威望

443

eV
积分
472

Level 3 能力者

8#
 楼主 Author| 发表于 Post on 2024-4-10 10:20:08 | 只看该作者 Only view this author
更新一下,amd工程师说是openmpi和amd有兼容性问题。。。千万别推amd了,人麻了

20

帖子

0

威望

363

eV
积分
383

Level 3 能力者

9#
发表于 Post on 2024-4-10 11:01:33 | 只看该作者 Only view this author
lue611 发表于 2024-3-25 17:40
搞定了感谢,mpirun --map-by numa就可以了

你好,我最近也遇到相同的问题,请问这行命令是如何使用呢?例如我想用24核计算vasp 那我的命令行应该输入:mpirun --map-by numa -np 24 vasp_std& 是这样子操作么,期望得到解答。

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

10#
发表于 Post on 2024-4-10 12:11:24 | 只看该作者 Only view this author
本帖最后由 abin 于 2024-4-10 12:16 编辑
lue611 发表于 2024-4-10 10:20
更新一下,amd工程师说是openmpi和amd有兼容性问题。。。千万别推amd了,人麻了

主板会有设定,
可以将两颗处理器,划定为几个numa 域。

如果slurm位置没有问题,
使用per-socket ,也就是一个任务,分配一个物理处理器,
可能就没有问题了。


另一方面,AMD双路平台,一套价格不低,
意味着利润空间不低……
如果有利,商业合作当然愿意选择利润空间高的做推广。
这很符合市场行为。


per-socket 应该是总在脚本中……
具体看一下手册。我可能有拼写错误。

一般而言,除部分设定之外,调度系统是以用户脚本中的设定为准的。

评分 Rate

参与人数
Participants 1
eV +1 收起 理由
Reason
lue611 + 1 谢谢

查看全部评分 View all ratings

High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

29

帖子

0

威望

443

eV
积分
472

Level 3 能力者

11#
 楼主 Author| 发表于 Post on 2024-4-10 17:56:43 | 只看该作者 Only view this author
Sunjeaser 发表于 2024-4-10 11:01
你好,我最近也遇到相同的问题,请问这行命令是如何使用呢?例如我想用24核计算vasp 那我的命令行应该输 ...

以为搞定了实际没搞定,就是amdcpu的兼容性太垃圾,暂时无解

846

帖子

16

威望

4634

eV
积分
5800

Level 6 (一方通行)

小屁孩

12#
发表于 Post on 2024-4-11 23:38:29 | 只看该作者 Only view this author
这个问题我已经解决,方法非常简单,不需要任何非常规操作。实际上本来就不应该有这个问题。只不过鉴于某些人的信口胡诌和搞扩大化,我不会轻易公开解决办法。
- 向着虚无前进 -

29

帖子

0

威望

443

eV
积分
472

Level 3 能力者

13#
 楼主 Author| 发表于 Post on 2024-4-13 10:29:14 | 只看该作者 Only view this author
本帖最后由 lue611 于 2024-4-13 10:43 编辑
Entropy.S.I 发表于 2024-4-11 23:38
这个问题我已经解决,方法非常简单,不需要任何非常规操作。实际上本来就不应该有这个问题。只不过鉴于某些 ...

要不要给你截图证明确实是amd工程师说的?

我发现你回复我的每个帖子都只是装了个逼然后就跑了,啥干货也没有,而我虽然菜提不出解决方法吧,但是好歹把自己的经历分享出来了,并且指出了问题

上次我诚心提问你还骂我一句intel信徒,也没告诉我什么干货


846

帖子

16

威望

4634

eV
积分
5800

Level 6 (一方通行)

小屁孩

14#
发表于 Post on 2024-4-13 12:12:53 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2024-4-13 12:16 编辑
lue611 发表于 2024-4-13 10:29
要不要给你截图证明确实是amd工程师说的?

我发现你回复我的每个帖子都只是装了个逼然后就跑了,啥干 ...

压根不是ompi和CPU的问题,和CPU一点关系都没有。对你这种信口胡诌之人我没兴趣分享技术,更没有义务分享我靠自己本事研究出的解决方案。分享不分享只看心情,别人我可能会分享,但不会给你分享。
“AMD工程师”分三六九等,你能轻易联系到的都不是有技术实力的人,甚至可能只是某个外包/代理商的人,给几个糊弄外行的借口就敷衍过去了。我又不是没接触过这些人。
- 向着虚无前进 -

29

帖子

0

威望

443

eV
积分
472

Level 3 能力者

15#
 楼主 Author| 发表于 Post on 2024-4-13 17:24:55 | 只看该作者 Only view this author
Entropy.S.I 发表于 2024-4-13 12:12
压根不是ompi和CPU的问题,和CPU一点关系都没有。对你这种信口胡诌之人我没兴趣分享技术,更没有义务分享 ...

amd工程师是厂商联系的,他们的公司规模不算小,肯定能联系到比你水平强的
然后是,厂商在amd和intel上一起测试,发现就是amd机子会堆核心
再然后,我用oneapi在amd上编译vasp,发现问题解决,不堆核心
是个正常人都会怀疑openmpi和amd好吧

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 21:56 , Processed in 0.233274 second(s), 25 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list