计算化学公社

标题: 纯水单个温敏蛋白体系跑nvt系综1000ns md平衡提交超算出现水分子不可以settled错误 [打印本页]

作者
Author:
okle666666    时间: 2023-4-23 17:34
标题: 纯水单个温敏蛋白体系跑nvt系综1000ns md平衡提交超算出现水分子不可以settled错误
本帖最后由 okle666666 于 2023-4-23 18:56 编辑

体系 :8*8*8单个温敏蛋白体系 在不同温度下模拟 基本上每组温度体系都会出错 水分子数目16431 TIP3P

过程:先能量最小化然后npt1ns1fs平衡 接着mdnvt系综采用2fs1000ns或1fs1000ns

均出现报错:提交最终md任务到超算 16节点512核均出现以下报错超算数据输出  补充说明:用8节点256核也会出错 这边cpu资源很多,GPU算会出现1天50ns 1000ns要20天而且资源不充分 多GPU配合更加排不上队 要算很多组温度体系 cpu资源更加充分 而不是跑一组测试 GPU好但是不符合我的目前计算资源环境


补充4图2fs 1000ns 2days 16节点512核计算完的数据输出 对于速度问题??




作者
Author:
okle666666    时间: 2023-4-23 17:38
有时候1fs反复提交几次直到一次成功算下去
但是这也太难受了
作者
Author:
Entropy.S.I    时间: 2023-4-23 17:53
本帖最后由 Entropy.S.I 于 2023-4-23 17:58 编辑

我遇到过类似的情况,在CPU集群上跑崩,在GPU上什么事也没有。

用GPU跑,效率高,CPU留给真正需要的人用,跑个GMX经典MD还吃掉几百个节点,实在是暴殄天物。你这体系用过时GPU比如2080Ti跑,2天多点也跑完1微秒了。


作者
Author:
okle666666    时间: 2023-4-23 17:56
Entropy.S.I 发表于 2023-4-23 17:53
我遇到过类似的情况,在CPU集群上跑崩,在GPU上什么事也没有。

用GPU跑,效率高,CPU留给真正需要的人用 ...

说错了16个节点 512核
你说的gpu我也用过 很少出错 但是排不上队资源很少 这边优先推荐cpu 我们这边cpu用不完
作者
Author:
Entropy.S.I    时间: 2023-4-23 18:01
okle666666 发表于 2023-4-23 17:56
说错了16个节点 512核
你说的gpu我也用过 很少出错 但是排不上队资源很少 这边优先推荐cpu 我们这边cpu ...

节点数少用点,5万多原子的体系,边际效应来得很早,节点用多了也不会快很多,徒增不稳定性
作者
Author:
okle666666    时间: 2023-4-23 18:09
1fs 16节点512核要3.5days 如果节点更少 恐怕计算时间要更久 8节点256核估计要5天起步 目前充分多提交几次 等算输出稳定了是可以的 而且要很多组温度体系计算 目前想满足长时间少一些分子数的体系 就是为了可以2天左右时间算完 这种情况越到很多次了
谢谢你的回答 很苦恼这些东西 配合计算 也许欲速不达

作者
Author:
Entropy.S.I    时间: 2023-4-23 18:14
本帖最后由 Entropy.S.I 于 2023-4-23 18:29 编辑
okle666666 发表于 2023-4-23 18:09
1fs 16节点512核要3.5days 如果节点更少 恐怕计算时间要更久 8节点256核估计要5天起步 目前充分多提交几次  ...

这速度显然不合理,要么GMX编译有问题,要么节点间通信有问题。我用过双路Xeon 6336Y的节点,单节点48核,3个节点速度就超过2080Ti了。

update: 没必要用1fs,2fs足够,你遇到的不稳定靠调小dt没啥用。不过即使dt用1fs,你说的速度也明显不正常,建议先测试1~4个节点的性能,跑10万steps,看看多少ns/day。

作者
Author:
okle666666    时间: 2023-4-23 18:38
这个体系 16节点 512核心 5万多的原子体系 48h算完2fs 步数5亿步 1000ns 合理吗
作者
Author:
Entropy.S.I    时间: 2023-4-23 18:47
本帖最后由 Entropy.S.I 于 2023-4-23 19:14 编辑
okle666666 发表于 2023-4-23 18:38
这个体系 16节点 512核心 5万多的原子体系 48h算完2fs 步数5亿步 1000ns 合理吗

不知道你的CPU是什么,但是显然不合理,我前面说的双路6336Y节点,3个节点(144核)就能达到接近300ns/d
另外,log里面也已经明确提示了负载不均衡,所以应该尝试用较少节点,比如从1节点开始,直到增加节点数速度基本不增加

作者
Author:
okle666666    时间: 2023-4-23 19:37
Entropy.S.I 发表于 2023-4-23 18:47
不知道你的CPU是什么,但是显然不合理,我前面说的双路6336Y节点,3个节点(144核)就能达到接近300ns/d
...

找到最合适的节点 多谢多谢
作者
Author:
okle666666    时间: 2023-4-23 23:08
6个节点跑,有些组体系也会莫名其妙崩 cpu并行毛病这么多吗 就这种简单体系 难道还是体系参数设置或者系综选择?
作者
Author:
okle666666    时间: 2023-4-24 14:18
有人知道后面怎么办可以不出错吗
cpu并行计算

作者
Author:
okle666666    时间: 2023-4-24 14:28
兄弟们 这个体系跑nvt是不是不行 这才是关键 npt系综好像不出问题

作者
Author:
okle666666    时间: 2023-4-24 14:51
Entropy.S.I 发表于 2023-4-23 18:47
不知道你的CPU是什么,但是显然不合理,我前面说的双路6336Y节点,3个节点(144核)就能达到接近300ns/d
...

老师 对于温敏蛋白的这种体系 要做不同温度下蛋白rg 是不是应该用npt呢 目前跑一组npt 1000ns rmsd波动性比nvt系综更大 所以很疑惑
作者
Author:
okle666666    时间: 2023-4-24 15:27
npt系综跑起来波动性比nvt大
作者
Author:
Entropy.S.I    时间: 2023-4-24 16:44
okle666666 发表于 2023-4-24 14:51
老师 对于温敏蛋白的这种体系 要做不同温度下蛋白rg 是不是应该用npt呢 目前跑一组npt 1000ns rmsd波动性 ...

NPT涉及到控压,RMSD比NVT大一些很正常。尽量用NPT,我之前还以为你要模拟超过100℃的情况才特意选用NVT…
作者
Author:
okle666666    时间: 2023-4-24 17:30
Entropy.S.I 发表于 2023-4-24 16:44
NPT涉及到控压,RMSD比NVT大一些很正常。尽量用NPT,我之前还以为你要模拟超过100℃的情况才特意选用NVT ...

好的3q老师




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3