计算化学公社

 找回密码 Forget password
 注册 Register
Views: 2486|回复 Reply: 10
打印 Print 上一主题 Last thread 下一主题 Next thread

[GROMACS] 机器学习力场运用到DNA体系的分子动力学

[复制链接 Copy URL]

46

帖子

0

威望

380

eV
积分
426

Level 3 能力者

大家好,我们想用DeePMD-kit进行机器学习力场的训练,运用到Gromacs中,计算DNA体系的分子动力学。

但是机器学习力场需要数据集以及大量的训练时间

现在有两种办法,一种是使用深势科技的DPA大模型进行少量数据微调(https://zhuanlan.zhihu.com/p/555832644)(仅仅是减少训练时间,还是需要数据集),一种是使用别人已经训练好并且开源的机器学习力场,

我们更倾向于后者,请问大家有读过这方面的文献吗,我在deepmd的文章引用网站中(https://deepmodeling.com/blog/papers/deepmd-kit/)没找到(感觉机器学习力场运用到生物体系的文章很少)。或者说大家有更好的解决办法吗?


图片1.png (458.15 KB, 下载次数 Times of downloads: 15)

图片1.png

561

帖子

0

威望

3410

eV
积分
3971

Level 5 (御坂)

2#
发表于 Post on 2024-3-11 12:43:25 | 只看该作者 Only view this author
本帖最后由 k64_cc 于 2024-3-11 12:45 编辑

针对预训练大模型进行fine-tune,至少也需要万级别的能量和力。如果真的不想训,ANI、MACE之类的可以直接拿来用。

但是你这个选题最大的问题其实是,你确定你要研究的问题真的需要NNP来描述吗?为什么你们觉得现在的分子力场无法解决你们的问题呢?已有的开源力场模型解决了你们需要的问题吗?生物大分子的构象问题,就算全原子经典力场MD跑长时间的轨迹,都没法很好解决,以至于学界还在研究CG一类更大尺度的方法。用NNP跑生物大分子,真的能在理想的尺度内看到你们感兴趣的变化吗?我不太确定,或许可以先调研一下。

另外,溶液下的问题,因为水的直接参与,单纯提高势能面精度用处不大。NNP/MM一类的方法会比纯NNP跑溶液体系好很多。

46

帖子

0

威望

380

eV
积分
426

Level 3 能力者

3#
 楼主 Author| 发表于 Post on 2024-3-11 14:14:43 | 只看该作者 Only view this author
k64_cc 发表于 2024-3-11 12:43
针对预训练大模型进行fine-tune,至少也需要万级别的能量和力。如果真的不想训,ANI、MACE之类的可以直接拿 ...

感谢您的指导,我再进行思考和调研

216

帖子

4

威望

1508

eV
积分
1804

Level 5 (御坂)

4#
发表于 Post on 2024-3-11 14:17:18 | 只看该作者 Only view this author
确实没必要用ML,除非你是做力场开发的,但是现在做transferable力场的ANI MACE其实已经做的蛮不错的了

73

帖子

0

威望

2041

eV
积分
2114

Level 5 (御坂)

究极懒狗

5#
发表于 Post on 2024-3-11 14:41:28 | 只看该作者 Only view this author
我日常会用DeepMD-kit来训练固体的机器学习势,前两天还去绅士科技开会讨论了下,我的看法如下:
1. 如果要微调finetuning,那么建议用最近发布的DPA-2,不要用DPA-1。优点:DPA2预训练模型的数据集很大,且DPA-2的可表示能力很强。起码在我关注的体系上,DPA-2表现还可以。缺点:DPA-2非常耗时,而且DPA-2不能跑MD,必需先做蒸馏(详情可以阅读DPA-2的paper)
2. 机器学习势的预训练大模型虽然号称“大模型”,实则和大语言模型的参数了差了几个数量级,去做微调完全不需要上万的DFT数据。DPA-2的paper里面强调:用他们的模型做finetuning可以节约好几个数量级的数据,可能上千个数据就行了。
3. DP的深度学习势函数好像在生物体系上表现并不理想。我本人不太懂生物体系,但是确实有不少人在关注NNP/MM的方法。

46

帖子

0

威望

380

eV
积分
426

Level 3 能力者

6#
 楼主 Author| 发表于 Post on 2024-3-11 16:50:28 | 只看该作者 Only view this author
Aletyx 发表于 2024-3-11 14:41
我日常会用DeepMD-kit来训练固体的机器学习势,前两天还去绅士科技开会讨论了下,我的看法如下:
1. 如果 ...

谢谢您的指导,我想请问您的第三个观点有具体论文支持吗?

561

帖子

0

威望

3410

eV
积分
3971

Level 5 (御坂)

7#
发表于 Post on 2024-3-11 18:12:57 | 只看该作者 Only view this author
本帖最后由 k64_cc 于 2024-3-11 18:14 编辑
Aletyx 发表于 2024-3-11 14:41
我日常会用DeepMD-kit来训练固体的机器学习势,前两天还去绅士科技开会讨论了下,我的看法如下:
1. 如果 ...

固体确实不需要,有机体系就难说了。核酸的结构还是颇有些复杂的。

73

帖子

0

威望

2041

eV
积分
2114

Level 5 (御坂)

究极懒狗

8#
发表于 Post on 2024-3-11 21:22:45 | 只看该作者 Only view this author
zhouchen 发表于 2024-3-11 16:50
谢谢您的指导,我想请问您的第三个观点有具体论文支持吗?

开会的时候听别人说的(也有可能是我听错了)。
此外,我个人感觉生物体系准备训练数据是非常麻烦的,因为体系大、原子数多、分子量大,用DFT去直接算好像不太现实。

6万

帖子

99

威望

6万

eV
积分
125190

管理员

公社社长

9#
发表于 Post on 2024-3-12 10:04:09 | 只看该作者 Only view this author
DNA体系的分子动力学根本轮不到用机器学习势,也派不上用场

验证一种势函数模拟生物分子的准确性,首先就得对往往原子数非常多的生物分子跑很长时间的(几百ns甚至>=微妙尺度)的动力学,根本不是相对于经典力场昂贵太多的机器学习势能跑得了的。而且主流的经典力场模拟DNA本来就已经很好了,也根本不需要用机器学习势。而且也绝对不代表机器学习势能把DFT或更高级别的势能面重现好,就能代表这样的机器学习势实际跑生物分子能够有多准确、比现有的专一性且久经考验的经典的分子力场更强(还牵扯到与溶剂的误差抵消。而且生物大分子构象对势能面精度极其敏感,对DFT程度的势能面重现好也只能算是个起点,还需要实际动力学跑的结果与NMR实验得到的构象数据作为参照反反复复优化)。

机器学习要用在该用的地方,即真正能发挥机器学习的价值、解决以往解决不了的问题的地方,不可盲目为了机器学习而机器学习,不是什么地方都有空间能让机器学习势插一脚。
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办极高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入北京科音微信公众号获取北京科音培训的最新消息,并避免错过网上有价值的计算化学文章!
欢迎加入人气极高、专业性特别强的理论与计算化学综合交流群思想家公社QQ群(群号见此链接),合计达一万多人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大、极为流行的量子化学波函数分析程序)
Google Scholar:https://scholar.google.com/citations?user=tiKE0qkAAAAJ
ResearchGate:https://www.researchgate.net/profile/Tian_Lu

75

帖子

0

威望

2111

eV
积分
2186

Level 5 (御坂)

10#
发表于 Post on 2024-3-12 16:09:46 | 只看该作者 Only view this author
水和复杂有机体系的目前都不怎么样,甚至都比不过经典力场(无论速度和精度,经典力场虽然看似粗糙,但是实际只要参数调整足够好,因为拟合实验数据,往往还是非常不错的)。目前机器学习,大部分还是在固体领域效果不错。

46

帖子

0

威望

380

eV
积分
426

Level 3 能力者

11#
 楼主 Author| 发表于 Post on 2024-3-12 20:24:18 | 只看该作者 Only view this author
sobereva 发表于 2024-3-12 10:04
DNA体系的分子动力学根本轮不到用机器学习势,也派不上用场

验证一种势函数模拟生物分子的准确性,首先 ...

明白了,谢谢sob老师

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2026-2-26 16:16 , Processed in 0.188378 second(s), 23 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list