计算化学公社

 找回密码 Forget password
 注册 Register
Views: 1344|回复 Reply: 16
打印 Print 上一主题 Last thread 下一主题 Next thread

[GROMACS] 纯水单个温敏蛋白体系跑nvt系综1000ns md平衡提交超算出现水分子不可以settled错误

[复制链接 Copy URL]

12

帖子

0

威望

25

eV
积分
37

Level 2 能力者

本帖最后由 okle666666 于 2023-4-23 18:56 编辑

体系 :8*8*8单个温敏蛋白体系 在不同温度下模拟 基本上每组温度体系都会出错 水分子数目16431 TIP3P

过程:先能量最小化然后npt1ns1fs平衡 接着mdnvt系综采用2fs1000ns或1fs1000ns

均出现报错:提交最终md任务到超算 16节点512核均出现以下报错超算数据输出  补充说明:用8节点256核也会出错 这边cpu资源很多,GPU算会出现1天50ns 1000ns要20天而且资源不充分 多GPU配合更加排不上队 要算很多组温度体系 cpu资源更加充分 而不是跑一组测试 GPU好但是不符合我的目前计算资源环境


补充4图2fs 1000ns 2days 16节点512核计算完的数据输出 对于速度问题??



err.png (107.85 KB, 下载次数 Times of downloads: 17)

err

err

超算输出.png (63.76 KB, 下载次数 Times of downloads: 17)

超算数据界面

超算数据界面

md.png (306.79 KB, 下载次数 Times of downloads: 19)

md.mdp文件图

md.mdp文件图

体系.png (268.97 KB, 下载次数 Times of downloads: 17)

体系

体系

module list.png (41.43 KB, 下载次数 Times of downloads: 18)

module list

module list

会有一个报错文件但是可以算完.png (552.25 KB, 下载次数 Times of downloads: 18)

算可以但是有这个文件输出err

算可以但是有这个文件输出err

结尾log.png (616.57 KB, 下载次数 Times of downloads: 19)

成功计算完log

成功计算完log

slurm.png (153.18 KB, 下载次数 Times of downloads: 18)

slurm

slurm

cpu.png (26.75 KB, 下载次数 Times of downloads: 16)

cpu.png

md.mdp

2.21 KB, 下载次数 Times of downloads: 1

mdp文件

9712877.err

3.38 KB, 下载次数 Times of downloads: 0

报错文件

12

帖子

0

威望

25

eV
积分
37

Level 2 能力者

2#
 楼主 Author| 发表于 Post on 2023-4-23 17:38:08 | 只看该作者 Only view this author
有时候1fs反复提交几次直到一次成功算下去
但是这也太难受了

878

帖子

17

威望

5433

eV
积分
6651

Level 6 (一方通行)

小屁孩

3#
发表于 Post on 2023-4-23 17:53:55 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2023-4-23 17:58 编辑

我遇到过类似的情况,在CPU集群上跑崩,在GPU上什么事也没有。

用GPU跑,效率高,CPU留给真正需要的人用,跑个GMX经典MD还吃掉几百个节点,实在是暴殄天物。你这体系用过时GPU比如2080Ti跑,2天多点也跑完1微秒了。

- 向着虚无前进 -

12

帖子

0

威望

25

eV
积分
37

Level 2 能力者

4#
 楼主 Author| 发表于 Post on 2023-4-23 17:56:10 | 只看该作者 Only view this author
Entropy.S.I 发表于 2023-4-23 17:53
我遇到过类似的情况,在CPU集群上跑崩,在GPU上什么事也没有。

用GPU跑,效率高,CPU留给真正需要的人用 ...

说错了16个节点 512核
你说的gpu我也用过 很少出错 但是排不上队资源很少 这边优先推荐cpu 我们这边cpu用不完

878

帖子

17

威望

5433

eV
积分
6651

Level 6 (一方通行)

小屁孩

5#
发表于 Post on 2023-4-23 18:01:16 | 只看该作者 Only view this author
okle666666 发表于 2023-4-23 17:56
说错了16个节点 512核
你说的gpu我也用过 很少出错 但是排不上队资源很少 这边优先推荐cpu 我们这边cpu ...

节点数少用点,5万多原子的体系,边际效应来得很早,节点用多了也不会快很多,徒增不稳定性
- 向着虚无前进 -

12

帖子

0

威望

25

eV
积分
37

Level 2 能力者

6#
 楼主 Author| 发表于 Post on 2023-4-23 18:09:21 | 只看该作者 Only view this author
1fs 16节点512核要3.5days 如果节点更少 恐怕计算时间要更久 8节点256核估计要5天起步 目前充分多提交几次 等算输出稳定了是可以的 而且要很多组温度体系计算 目前想满足长时间少一些分子数的体系 就是为了可以2天左右时间算完 这种情况越到很多次了
谢谢你的回答 很苦恼这些东西 配合计算 也许欲速不达

878

帖子

17

威望

5433

eV
积分
6651

Level 6 (一方通行)

小屁孩

7#
发表于 Post on 2023-4-23 18:14:07 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2023-4-23 18:29 编辑
okle666666 发表于 2023-4-23 18:09
1fs 16节点512核要3.5days 如果节点更少 恐怕计算时间要更久 8节点256核估计要5天起步 目前充分多提交几次  ...

这速度显然不合理,要么GMX编译有问题,要么节点间通信有问题。我用过双路Xeon 6336Y的节点,单节点48核,3个节点速度就超过2080Ti了。

update: 没必要用1fs,2fs足够,你遇到的不稳定靠调小dt没啥用。不过即使dt用1fs,你说的速度也明显不正常,建议先测试1~4个节点的性能,跑10万steps,看看多少ns/day。
- 向着虚无前进 -

12

帖子

0

威望

25

eV
积分
37

Level 2 能力者

8#
 楼主 Author| 发表于 Post on 2023-4-23 18:38:30 | 只看该作者 Only view this author
这个体系 16节点 512核心 5万多的原子体系 48h算完2fs 步数5亿步 1000ns 合理吗

202304231837289623..png (552.25 KB, 下载次数 Times of downloads: 18)

202304231837289623..png

878

帖子

17

威望

5433

eV
积分
6651

Level 6 (一方通行)

小屁孩

9#
发表于 Post on 2023-4-23 18:47:03 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2023-4-23 19:14 编辑
okle666666 发表于 2023-4-23 18:38
这个体系 16节点 512核心 5万多的原子体系 48h算完2fs 步数5亿步 1000ns 合理吗

不知道你的CPU是什么,但是显然不合理,我前面说的双路6336Y节点,3个节点(144核)就能达到接近300ns/d
另外,log里面也已经明确提示了负载不均衡,所以应该尝试用较少节点,比如从1节点开始,直到增加节点数速度基本不增加
- 向着虚无前进 -

12

帖子

0

威望

25

eV
积分
37

Level 2 能力者

10#
 楼主 Author| 发表于 Post on 2023-4-23 19:37:01 | 只看该作者 Only view this author
Entropy.S.I 发表于 2023-4-23 18:47
不知道你的CPU是什么,但是显然不合理,我前面说的双路6336Y节点,3个节点(144核)就能达到接近300ns/d
...

找到最合适的节点 多谢多谢

12

帖子

0

威望

25

eV
积分
37

Level 2 能力者

11#
 楼主 Author| 发表于 Post on 2023-4-23 23:08:51 | 只看该作者 Only view this author
6个节点跑,有些组体系也会莫名其妙崩 cpu并行毛病这么多吗 就这种简单体系 难道还是体系参数设置或者系综选择?

12

帖子

0

威望

25

eV
积分
37

Level 2 能力者

12#
 楼主 Author| 发表于 Post on 2023-4-24 14:18:39 | 只看该作者 Only view this author
有人知道后面怎么办可以不出错吗
cpu并行计算

12

帖子

0

威望

25

eV
积分
37

Level 2 能力者

13#
 楼主 Author| 发表于 Post on 2023-4-24 14:28:54 | 只看该作者 Only view this author
兄弟们 这个体系跑nvt是不是不行 这才是关键 npt系综好像不出问题

202304241428161103..png (427.22 KB, 下载次数 Times of downloads: 19)

202304241428161103..png

12

帖子

0

威望

25

eV
积分
37

Level 2 能力者

14#
 楼主 Author| 发表于 Post on 2023-4-24 14:51:35 | 只看该作者 Only view this author
Entropy.S.I 发表于 2023-4-23 18:47
不知道你的CPU是什么,但是显然不合理,我前面说的双路6336Y节点,3个节点(144核)就能达到接近300ns/d
...

老师 对于温敏蛋白的这种体系 要做不同温度下蛋白rg 是不是应该用npt呢 目前跑一组npt 1000ns rmsd波动性比nvt系综更大 所以很疑惑

12

帖子

0

威望

25

eV
积分
37

Level 2 能力者

15#
 楼主 Author| 发表于 Post on 2023-4-24 15:27:28 | 只看该作者 Only view this author
npt系综跑起来波动性比nvt大

202304241526392419..png (110.25 KB, 下载次数 Times of downloads: 20)

202304241526392419..png

202304241526557851..png (69.8 KB, 下载次数 Times of downloads: 19)

202304241526557851..png

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2026-2-19 18:52 , Processed in 0.210246 second(s), 23 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list