|
|
本帖最后由 AxiEJohn 于 2026-5-19 19:25 编辑
MAPLE(MAchine learning Potential for Landscape Exploration)程序介绍——基于机器学习势函数(MLIP)的计算化学一站式工具,原生支持几何优化、过渡态搜索、IRC、频率分析与分子动力学(内含多张GIF)
Introduction to MAPLE(MAchine learning Potential for Landscape Exploration): an MLIP-native computational chemistrytoolkit for geometry optimization, transition-state search, IRC, frequencyanalysis, and molecular dynamics
注:本文计算流程在笔者的RTX 4060 笔记本 GPU上整体wall time 295.0 s,这是MLIP的优势。
Written by AxiEJohn; First release: 2026-05-17
承接上文:
MAPLE: 机器学习力场计算化学平台 http://bbs.keinsci.com/forum.php?mod=viewthread&tid=57731&fromuid=64457(出处: 计算化学公社)
一、引言最近几年机器学习原子间势函数(machine-learning interatomic potential,简称 MLIP,或称机器学习力场 MLFF)的发展非常迅猛。早些年的 MLIP 多需要针对具体体系自己采样、训练,门槛极高,因此并未在量子化学界普及。但随着 ANI、AIMNet2、MACE、MACE-OFF、UMA 等通用预训练模型相继问世——尤其是 MACE-OMol、UMA 等基于 OMol25 或多域大规模数据训练的模型——MLIP 对落在训练域内的主族有机分子和部分有机金属/材料体系,UMA、MACE-OMol 等通用 MLIP 已开始接近其中等到高阶 DFT 训练标签的精度、速度比传统 DFT 快 2–4 个数量级,但具体反应和元素组合仍必须用小体系 DFT benchmark 校验。
笔者读到 Sobereva 老师在《2024 年计算化学公社举办的计算化学程序和 DFT 泛函的流行程度投票结果》(http://sobereva.com/706 )中对 ωB97M-V、PBE、B3LYP 等泛函的总结时颇有感触——计算化学日常工作流里跑得最多的几个任务(几何优化、过渡态搜索、IRC、构象采样),其实并不需要一直坚持“每步都用DFT算能量和梯度”。如果用一个训练良好的 MLIP 来代替这些任务里的能量/梯度评估,再在关键单点上做高精度 DFT精修,整体效率可以提升一个甚至两个数量级。
然而对量化研究者来说,从已熟悉的 Gaussian/ORCA 工作流切换到 MLIP,最大的两个门槛是:
(1) 现成模型想直接拿来用特麻烦。 ANI、AIMNet2、MACE-OFF 这些预训练模型大多是 PyTorch 模型,需要通过 Python API 调用,学习成本还是比较高的,得折腾不少时间。对习惯了直接用Gaussian/ORCA等用户而言,光是把模型整好、算个单点都要折腾半天。
(2) 任务覆盖零碎。 单纯算个单点不够。日常工作流需要几何优化、过渡态搜索、IRC、频率分析、势能面扫描……这些功能虽然在 ASE 里都有,但要把它们和 MLIP 接起来、再让 NEB/P-RFO/IRC 等算法跑通,本身就是一件工程量不小的事情。
本帖介绍的 MAPLE 程序就是为了解决这两个麻烦之处而开发的开源工具。简单地说,MAPLE 是一个 MLIP 原生的计算化学工具包,内部封装了 ANI / AIMNet2 / MACE / MACE-OFF / MACEPol / UMA 等流行模型,对外提供与 Gaussian 风格类似的纯文本输入文件接口,把几何优化、过渡态搜索、IRC、频率分析、势能面扫描统统打包到一个命令里。
二、MAPLE 当前支持的任务和方法按计算类型分类如下(以 enhance 分支 v0.1.2 为准;具体关键字见 maple/function/read/command_control.py):
[td] 任务类型
| #task(method=...) 关键字
| 几何优化 #opt
| lbfgs(默认)、rfo、sd、cg、sdcg
| 过渡态搜索 #ts
| neb(可附 refine=cineb/refine=nebts)、prfo、dimer、string(可附 refine=stringts)、autoneb
| 反应路径 #irc
| 积分器 gs / lqa / hpc / eulerpc
| 振动分析 #freq
| mw(默认,质量加权)/ nonmw / both;RRHO 热化学量含 Grimme/Truhlar/Minenkov 低频校正
| 势能面扫描 #scan
| 1D 到多维;底层与 #opt 同(relaxed 模式)
| 分子动力学 #md
| 系综 nve / nvt / npt;恒温器 Langevin/Bussi/Nosé-Hoover;恒压 c-rescale (目前还在完善中,PBC的支持还在更新中)
| MLIP 模型 #model
| ani1x / ani2x / ani1ccx / ani1xnr / aimnet2 / aimnet2nse / maceoff23s/m/l / maceomol / macepols/m/l / egret / uma
| 额外功能
| D4 色散校正(仅 ANI 系列)、GBSA 隐式溶剂、周期性边界(#pbc)(还在完善中)、轨迹重启、DCD 输出
| 可以看到,MAPLE 已经覆盖了 Sobereva 老师在其经典博文《过渡态、反应路径的计算方法及相关问题》(http://sobereva.com/44)中提到的几乎所有过渡态/IRC 算法。读者如果已经熟悉这些算法的物理含义,迁移到 MAPLE 几乎没有额外学习成本——区别只在于底层是 MLIP 在算能量和梯度,而不是 DFT。
值得一提的是,相比 DFT,MLIP 下获得 Hessian 或 Hessian-vector product 的代价低得多,因此 P-RFO、Dimer、频率分析等步骤可以更频繁地使用;但 Hessian 的物理可靠性强烈依赖模型和体系,最终仍必须通过频率模式和 IRC 连通性验证。Sobereva 老师在《量子化学计算中帮助几何优化收敛的常用方法》(http://sobereva.com/164)中讨论过的很多 Hessian 初猜与更新策略,在 MLIP 场景下仍有借鉴意义;不同之处在于,MLIP 让更频繁地评估 Hessian / Hessian-vector product 在计算成本上更可承受。
三、使用示例:丁二烯 + 乙烯的 Diels–Alder 反应全流程(基于本人机子实测)下面用经典的 Diels–Alder 反应(s-cis 1,3-丁二烯 + 乙烯 → 环己烯)演示 MAPLE 的完整工作流:反应物/产物预优化 → P-RFO 搜索同步过渡态 → 频率分析验证 → IRC 双向验证连通性。
本节所有数据都是笔者在本机实际跑出来的真实输出,硬件/版本环境:
- GPU:NVIDIA RTX 4060 Laptop(8 GB VRAM)
- CUDA 13.0,PyTorch cu118
- MAPLE 0.1.2,enhance 分支
- MLIP 模型:uma(size=uma-s-1p1, task=omol) —— UMA 是 Meta FAIR Chemistry 的 Universal Models for Atoms 系列,训练覆盖 molecules、materials、catalysts 等多个任务域;本例使用其中面向 organic molecules 的 omol task,其 DFT 标签层级为 ωB97M-V/def2-TZVPD。MAPLE 文档中 uma-s-1p1 为默认兼容性 checkpoint,约 6.6M active parameters / ~150M total parameters, 在小分子有机体系与反应相关构型上覆盖较广.(需要注意的是,UMA 官方模型卡对中国等地区有使用/分发限制,国内用户实际复现时可能需要换用 AIMNet2、MACE-OMol、MACE-OFF 等可获取模型。)
- 体系:16 原子,闭壳层,电荷 0 / 自旋多重度 1
3.1 反应物预优化MAPLE的输入文件是纯文本格式,开头几行以 # 起头的指令规定计算细节,再下面是 XYZ 格式的几何或 XYZ /path/to/file.xyz 外部引用。R_opt.inp:
- #model=uma(size=uma-s-1p1,task=omol)
- #opt(method=lbfgs,level=tight)
- #device=gpu0
- XYZ 0 1 /home/axie/MAPLE/Tutorial/OPT/diels_alder/r_opt/reactant.xyz
复制代码
reactant.xyz
(605 Bytes, 下载次数 Times of downloads: 0)
反应物的初始猜测(左)与 L-BFGS 优化结果(右)— 均由 maple_visual_lab.py通过 VMD/Tachyon 渲染
几点说明:
- #model=uma(...) 后面括号里的 task=omol 指 Open Molecules 子模型,专为有机小分子优化;如果做晶体/界面计算可改成 task=omat、task=oc20 等。
- XYZ 0 1 /path/to/file.xyz 中开头的 0 1 是电荷和自旋多重度(中性闭壳层)。如果是阴离子单重态写 -1 1,自由基写 0 2,依此类推。
- level=tight 收紧收敛限至 maxF = 0.00085 Eh/Å(默认 medium 是 0.00285),后续 freq 不会被残余受力污染。
reactant.xyz 是 s-cis 丁二烯(xy 平面内)+ 乙烯(z ≈ 3.0 Å 上方)的人工初猜复合物。执行:- maple R_opt.inp R_opt.out
复制代码
实测:
- Energy: -234.525473 Convergence criteria Is converged
- Maximum Force: 0.000488 0.000850 Yes
- RMS Force: 0.000212 0.000550 Yes
- Maximum Displacement: 0.000406 0.001100 Yes
- RMS Displacement: 0.000187 0.000750 Yes
- LBFGS converged at iteration 62.
- Total wall time: 18.503 s
复制代码
产物(环己烯) 优化也使用相同模板,最终能量 −234.595946 Eh,40 步 L-BFGS,实际耗时 13.1 s。
- #model=uma(size=uma-s-1p1,task=omol)
- #opt(method=lbfgs,level=tight)
- #device=gpu0
- XYZ 0 1 /home/axie/MAPLE/Tutorial/OPT/diels_alder/p_opt/product.xyz
复制代码
product.xyz
(577 Bytes, 下载次数 Times of downloads: 0)
产物的初始猜测(左)与 L-BFGS 优化结果(右) — 环己烯 half-chair 构象
- maple P_opt.inp P_opt.out
复制代码- Energy: -234.595945 Convergence criteria Is converged
- Maximum Force: 0.000667 0.000850 Yes
- RMS Force: 0.000185 0.000550 Yes
- Maximum Displacement: 0.000891 0.001100 Yes
- RMS Displacement: 0.000412 0.000750 Yes
- LBFGS converged at iteration 40.
- Total wall time: 13.064 s
复制代码
反应电子能差:
ΔE_rxn= E(P) − E(R) = (−234.595946 − (−234.525473)) Eh = -0.070473 × 627.5094kcal/mol= −44.2 kcal/mol
这个数值与实验反应焓 ΔH (298 K) ≈ −40 kcal/mol 非常接近(注:这个电子能反应热与实验反应焓量级一致,但二者不是严格同一物理量:本节是 MLIP 0 K 电子能,实验 ΔH(298 K) 还包含 ZPE/热校正和标准态定义。严格比较应在相同反应物定义下加入频率热校正,并最好用 DFT 单点复核。)。这说明本例中 UMA-omol 给出了与已知热化学量级一致的结果,但不能单独作为模型普适精度的证明。
反应物(62 步)与产物(40 步)L-BFGS 优化的能量/受力收敛曲线。两个体系均一次性收敛到 level=tight,整个 OPT 过程在桌面 GPU 上分别耗时 18.5 s 与 13.1 s
![]() ![]()
反应物(左)与产物(右)的优化轨迹 GIF — 由我手搓的 maple_visual_lab.py通过 VMD/Tachyon 渲染。左侧 3D 视图带原子编号;右侧能量曲线上红点随轨迹同步移动
3.2 用 P-RFO 搜索同步过渡态D-A是经典的协同同步环加成反应(C2v 对称的同步 TS,两个 C—C 形成键等长 ~2.2 Å),P-RFO(Partitioned-RFO)从一个化学合理的 TS 初猜出发收敛到一阶鞍点效率最高。笔者按文献 D-A TS 几何(C—C 形成键 ~2.30 Å,diene 中心 C-C 略伸长至 ~1.43 Å,C2v 对称)手搓 ts_guess.xyz,输入:
- #model=uma(size=uma-s-1p1,task=omol)
- #ts(method=prfo)
- #device=gpu0
- XYZ 0 1 /home/axie/MAPLE/Tutorial/OPT/diels_alder/prfo/ts_guess.xyz
复制代码
ts_guess.xyz
(514 Bytes, 下载次数 Times of downloads: 0)
TS 初猜(左)与 P-RFO 收敛后的过渡态(右) — 经典的"同步协同 D-A TS"
实测:
- Normal Termination
- Iteration 17 Energy = -234.493874 Eh
- Maximum Force: 0.000000 0.002850 Yes
- RMS Force: 0.000000 0.001900 Yes
- Total wall time: 167.919 s
复制代码
17 步 P-RFO、167.9 s 实际耗时收敛到一阶鞍点(其中 8 s 是 UMA 模型加载,实际优化 160 s)。
正向反应能垒:
ΔE‡= E(TS) − E(R) = (−234.493874 − (−234.525473)) Eh = 19.8 kcal/mol
这与文献 CCSD(T) / B3LYP-D3 在 def2-TZVPP 上给出的 D-A 能垒 ~22–25 kcal/mol 非常接近(注:这只是单个模型、单个反应的 case study,不能直接推出模型对所有 D-A 反应都具有该精度)。
最终鞍点几何(截取关键键长):
[td] 键
| TS 实测值
| 预期物理量
| 形成键 C0–C10
| 2.222 Å
| ~2.2 Å (同步)
| 形成键 C3–C11
| 2.222 Å
| 与上严格相等 → 严格 C2v 同步
| 丁二烯中心 C1–C2
| 1.402 Å
| 1.34 (反) ↔ 1.50 (产) 之间,介于双/单
| 乙烯残余 C10–C11
| 1.377 Å
| 1.33 (反) ↔ 1.54 (产) 之间,部分单键
| C0–C1, C2–C3
| 1.372 Å (对称)
| 类似中部
| 两根 C—C 形成键严格等长 (2.222 Å),几何严格 C2v——经典的“同步协同 D-A TS”。P-RFO 每步需要 Hessian,传统 DFT 下计算 Hessian 是巨大的开销,所以 Gaussian 默认走的是“初始 Hessian 估计 + BFGS 更新”的近似路线(这也是 Sobereva 老师在博文 164 中讲到 calcfc/calcall 时反复提到的)。在 MAPLE 中由于 MLIP 提供半解析甚至解析的 Hessian,每步精确 Hessian 几乎不增加耗时,P-RFO 因此可以充分发挥其鲁棒性。
![]()
TS 初猜的经验:D-A TS 比较"温和",P-RFO 对初猜要求不高,只要形成键距离落在 ~2.0–2.5 Å 范围且对称,基本一次就能收敛。对于更复杂的过渡态(迁移反应、电环化、多步级联),如果手搓初猜不容易,可以先用 #ts(method=neb,refine=cineb) 从反应物和产物两端跑 CI-NEB(10–15 个镜像,max_iter=500),取得到的 HEI(最高能量镜像)作为 P-RFO 初猜——MAPLE 的 NEB 会自动把 HEI 写到 *_hei.xyz,可以直接接力。
3.3 频率分析验证 TS
- #model=uma(size=uma-s-1p1,task=omol)
- #freq
- #device=gpu0
- XYZ 0 1 /home/axie/MAPLE/Tutorial/OPT/diels_alder/prfo/prfo_uma_prfo_ts.xyz
复制代码
prfo_uma_prfo_ts.xyz
(762 Bytes, 下载次数 Times of downloads: 0)
实测:
- Imaginary frequencies (ν < -5.0 cm⁻¹): 1
- Real frequencies (ν > 5.0 cm⁻¹): 41
- 0: 0.00 cm**-1
- 1: 0.00 cm**-1
- 2: 0.00 cm**-1
- 3: 0.00 cm**-1
- 4: 0.00 cm**-1
- 5: 0.00 cm**-1
- 6: -627.43 cm**-1 ***imaginary mode***
- 7: 141.75 cm**-1
- 8: 236.29 cm**-1
- ...
- Total wall time: 21.629 s
复制代码
有且只有 1 个虚频,−627.43 cm⁻¹,这正是 D-A TS 的典型虚频范围(文献 −400 ~ −700 cm⁻¹)。其余 41 个实频均 > 0,体系确为一阶鞍点。21.6 s 完成频率 + RRHO 热化学——传统 DFT 同样的体系在 8 核 CPU 上要十几分钟。
虚频模式(用 VMD/Molden 查看 mode 6)应当是两个 C—C 形成键的同步对称伸缩——既然 C0–C10 与 C3–C11 在几何上严格等长,模式上也应当严格同步。这正是同步协同 D-A 的特征。
![]()
3.4 IRC 双向验证连通性
- #model=uma(size=uma-s-1p1,task=omol)
- #irc(method=hpc)
- #device=gpu0
- XYZ 0 1 /home/axie/MAPLE/Tutorial/OPT/diels_alder/prfo/prfo_uma_prfo_ts.xyz
复制代码
prfo_uma_prfo_ts.xyz
(762 Bytes, 下载次数 Times of downloads: 0)
MAPLE的 IRC 支持四种积分器:GS(二阶Gonzalez-Schlegel)、LQA(局部二次近似)、HPC(Hessian预测-校正)、EulerPC(欧拉预测-校正)。HPC 即 Gaussian 中默认的 IRC 积分器。步长 step_length_bohr(默认 0.10 bohr)和单方向最大步数 max_steps(默认 50)在本例的小体系下都不需要显式覆盖。如果反应路径较长或势能面较平,可以加 #irc(method=hpc,max_steps=200,step_length_bohr=0.05) 之类。
实测:
- *** THE HPC-IRC HAS CONVERGED *** (FORWARD)
- *** THE HPC-IRC HAS CONVERGED *** (BACKWARD)
- Step E(Eh) dE(kcal/mol)
- 1 -234.595732 0.000000 <- 正向端点
- ...
- 24 -234.494015 63.828286 <= TS
- ...
- 57 -234.525539 44.046791 <- 反向端点
- Total wall time: 53.5 s
复制代码
57 步全连通、实际耗时 53.5 s。IRC 的三个输出文件:
- irc_uma_forward.xyz:从 TS 出发沿一个虚频方向的全部步态轨迹
- irc_uma_backward.xyz:从 TS 出发沿另一方向的全部步态轨迹
- irc_uma_full.xyz:上面两段合并的完整 R → TS → P 轨迹(VMD/PyMOL 直接打开播放即可)
![]()
IRC 双向再 OPT 端点(VMD/Tachyon 渲染)— 左:pre-reactive R 复合物(−234.526 Eh);右:环己烯产物(−234.596 Eh)。两端能量与 §3.1 独立优化结果严格一致,形成完整的"PRFO+ freq + IRC + 端点 OPT"
端点结构提取与再优化:按 Sobereva 老师在博文 400 中的提醒:“IRC 两端的点不会恰好是极小点,需要再做一次几何优化才能严格对应反应物/产物结构”。做法是把 irc_uma_forward.xyz 和 irc_uma_backward.xyz 的最后一帧取出,再各跑一次 #opt(method=lbfgs,level=tight)。实测:
[td] IRC 端点
| 端点能量 (Eh)
| 端点再 OPT 后 (Eh)
| 关键距离 (Å)
| 拓扑判定
| 正向 → P 侧
| −234.595732
| −234.595945
| C0–C10 = 1.539, C3–C11 = 1.538
| 环己烯产物
| 反向 → R 侧
| −234.525539
| −234.526176
| C0–C10 = 3.531, C3–C11 = 3.515
| pre-reactive R 复合物
| TS(IRC step 24)
| −234.494015
| —
| —
| 与 P-RFO 鞍点差 0.09 kcal/mol
|
注意 MAPLE 的“forward / backward”与化学的“反应物侧 / 产物侧”不存在固定对应——这取决于初始虚频方向的随机相位。本例 forward 落到 P 侧、backward 落到 R 侧; 但 forward/backward 与化学反应方向没有固定对应,最终仍应以端点优化后的拓扑和能量判断。
IRC 同时严谨地连回了反应物和产物两端,与 P-RFO 找到的 TS 一致:正反应能垒 19.8 kcal/mol、反应能 −44.2 kcal/mol 由 PRFO + IRC + 端点 OPT 三条独立路径互相交叉验证。
3.5 整体耗时
[td]步骤 | 实际耗时 | 输出 | | 3.1 反应物预优化 | 18.5 s | R 优化结构、E_R = −234.525473 Eh | 3.1 产物预优化 | 13.1 s | P 优化结构、E_P = −234.595945 Eh | 3.2 P-RFO 精修 TS | 167.9 s | 同步 TS, ΔE‡ = 19.8 kcal/mol, C—C 形成 2.22 Å × 2 | 3.3 频率分析 | 21.6 s | 1 虚频 −627.43 cm⁻¹, 41 实频 | 3.4 IRC(双向) | 53.5 s | 57 步全连通,full/forward/backward 三个轨迹文件 | 3.4 IRC 端点 OPT(正向) | 10.8 s | 环己烯(−234.595945 Eh,与 P 严格一致) | 3.4 IRC 端点 OPT(反向) | 9.6 s | pre-reactive R 复合物(−234.526176 Eh) | 完整流程合计 | 295.0 s (~4.9 分钟) | R → TS → freq → IRC → 端点 OPT |
对应 DFT (B3LYP-D3BJ/6-31G(d) 或 ωB97X-D/def2-TZVPP) 同样的流程在 8 核 CPU 上通常需要 1–2 小时;MAPLE 在桌面 GPU 上跑完只要 不到 5 分钟,加速比 ~20–30×——而且这是在 8 GB VRAM 移动级 GPU 上跑的。如果换成桌面级 4090 (24 GB) 或服务器级 A100/H100,时间还可以再压缩一个量级,加速比就能到 200× 以上(瞎猜)。
四、性能与精度的"边界条件"——本次实测的几条体会经过本节的实战,笔者想强调以下几点真实使用 MLIP 时容易遇到的"坑":
1. 模型与体系的匹配比模型大小更重要。
笔者最初尝试用 maceoff23m(MACE-OFF23 medium,主要在 SPICE 平衡态数据上训练)跑这个 D-A 反应,反复出现非物理鞍点:形成键 ~2.8 或 ~3.8 Å、虚频 −82 cm⁻¹、或者 P-RFO 直接把同步 TS 初猜推回到分离态。在本例测试中,MACE-OFF23m 对 D-A TS 区域表现不佳,可能与其训练集主要面向有机分子平衡/近衡构型、而非专门反应路径/成键断键过程有关。选模型务必先看训练数据是否覆盖你的反应类型。
2. NEB 的初猜路径质量决定一切。
本节没有展示 NEB 是因为 D-A 的 P-RFO 初猜很容易手搓;但对其他反应若用 NEB,第一关卡是 R 与 P 的原子顺序必须一致——否则 IDPP 插值会把原子互相穿插,最终 HEI 跑到 +100 kcal/mol 以上的非物理结构。简单做法是在 R 优化完之后用脚本(或 OpenBabel --orderbysym)按 R 的顺序重排 P 文件。
3. 找到鞍点之后必须做频率分析。
P-RFO给出"收敛"的结构不一定是合理的过渡态——可能是高阶鞍点、错误反应通道,或者数值上的伪鞍点。只有 freq 报告"1 虚频 + 模式对应反应坐标"才算 TS 验证完毕。本例中 −627.43 cm⁻¹、对应 C—C 同步伸缩,符合 D-A 协同机理的预期。
4. IRC 双向验证连通性是过渡态合理性的金标准。
本例 IRC 正反两端分别落到 P (差 0.13 kcal/mol) 和 R (差 0.04 kcal/mol),能直接读出正反两个方向的反应能垒,与单独的 PRFO/OPT 结果交叉一致——这是判断 TS "是不是你要找的那个" 最强的证据。MLIP 让 IRC 几乎"免费"(47.6 s 跑 57 步),笔者强烈建议每个 TS 都做这一步。
5. 模型对单点能精度有差异,关键能量建议用DFT 复核。
UMA-omol在本例中给出 ΔE‡ = 19.8、ΔE_rxn = −44.2,与文献参考相当一致;但对你自己的体系,最稳的做法仍是 MLIP找完关键结构后用 DFT/CCSD(T) 在 R、TS、P 三点做单点能精修,再用精修后的能量算最终的活化能和反应能。MAPLE 的角色是"快速找到正确的几何构型与反应通路",最终能量交给DFT算。
五、适用范围与边界笔者希望明确指出 MAPLE / MLIP 当前的适用场景,以免读者误用:
适合(推荐使用):
- 主族元素(H, C, N, O, F, Si, P, S, Cl, Br, I 等)的有机分子、有机金属化合物。元素和电荷/自旋支持强烈依赖具体模型。ANI-2x 与 MACE-OFF23 主要适合 H/C/N/O/F/S/Cl 等有机体系;MACE-OMol 覆盖 H, Li, B, C, N, O, F, Na, Mg, Si, P, S, Cl, K, Ca, Br, I;UMA 覆盖更广,但不同 task 的 DFT 层级和适用体系不同。电荷/自旋方面,UMA 仅在 omol task 下明确支持 charge/spin;MACE/EGRET 文档写明默认 neutral singlet。
- 构象搜索、几何优化、过渡态搜索、IRC、常规热化学(反应焓、反应自由能、活化能)——前提是模型训练域涵盖目标体系/反应类型。做反应优先用 UMA-omol、MACE-OMol25、ANI-1xnr 等"含反应数据"的模型。
- 闭壳层基态计算,以及合理范围内的电荷态(电荷与自旋支持取决于模型。AIMNet2 支持中性和带电体系;UMA 在 OMol task 下可使用 charge/spin 信息;MACE-OFF、MACE-OMol、ANI 系列通常应按中性/单重态或其文档限定使用;输入坐标块前写 0 1 / -1 1 / 0 2 等指定电荷与多重度)。
- 单点能精度要求达到中等 DFT 级别即可的应用——UMA-omol 在 GMTKN55 等 benchmark 上通常优于 GFN2-xTB,接近 ωB97X-D/def2-TZVPP 水平。
边界与注意事项:
- 反应类型必须落在模型训练域内。SPICE-only 训练的 MACE-OFF 在 TS 区域容易失效;做反应优先用 OMol25/ANI-1xnr 训练的模型。
- 过渡金属配合物:UMA 大模型对 d-block 有较好覆盖;其它 MLIP 用前务必先在小体系上验证。
- 电子激发态、单/三重态间隙:现有通用 MLIP 几乎都只训练基态,做激发态依然要回到 TDDFT/CASSCF。MAPLE 不能取代 ORCA 的 TDDFT。
- 强相关、自由基反应中的开壳层多参考问题:MLIP 训练数据多基于 DFT 单参考,超出训练分布时可能给出"看似合理但实际错误"的能量。
- 稀有元素:周期表后排过渡金属、镧系/锕系、超原子价化合物等,MLIP 训练集覆盖有限。
笔者的建议:
- 先用 MLIP 做大规模的构象/势能面探索和初步定位关键结构,再用 DFT 在关键点上做精校单点能。
- 找到 TS 后必做 freq+ IRC。
- 如果 MLIP 预测的机理与你 DFT 经验不一致,先用第二个独立模型(如 UMA 和 MACE-OMol25 对比)做交叉验证,不要轻易接受单一模型的结论。
- 这种 “MLIP 快速筛选 + DFT 精修”的混合工作流是目前计算化学领域最被认可的策略,最近一两年发表在 Nat. Comput. Sci.、JCTC、ChemRxiv 上的相关文章已经非常多。
六、结语MAPLE 是一个相对较新的项目(v0.1.0 于 2025 年 12 月首发,目前最新版 v0.1.2),但因为底层使用 PyTorch + ASE 这套成熟生态,开发节奏很快,作者也积极接受社区反馈和贡献(期待你们的意见和建议!)。
笔者非常希望我国计算化学界对 MLIP 工具的接受度能持续提升——毕竟我们花在等 DFT 跑完的时间,本来可以用来做更多的化学思考、读更多的文献、想更多的体系。如果读者有兴趣尝试 MAPLE,建议:
- 先在自己最熟悉的小体系上做一遍:跑一遍 opt + freq,把 MLIP 给的几何、虚频、键长键角与你之前的 DFT 结果对比一下,建立对 MLIP 精度的直觉。
- 重点验证关键能量(如反应能垒、相对自由能),看看 MLIP 给出的值是否在你能接受的误差范围内。本例 ΔE‡ = 19.8、ΔE_rxn = −44.2 kcal/mol,与文献相当吻合,可作为 UMA-omol 在 D-A 类反应上的精度参考。
- 在生产工作流中采用混合策略:用 MAPLE 做几何优化、TS 搜索、IRC、构象采样;用 Gaussian / ORCA 在关键单点上做精修。
任何使用问题、bug、改进建议都欢迎到 GitHub Issues(https://github.com/ClickFF/MAPLE/issues )或者MAPLE交流企鹅群757103155反馈!后续笔者会陆续更新更详细的教程。
敬请期待,也欢迎大家在本帖留言交流使用体验、提建议、报 bug。
参考文献
- MAPLE 主页:https://www.maplechem.org/
- MAPLE GitHub:https://github.com/ClickFF/MAPLE
- MAPLE 论文:https://doi.org/10.1039/D6SC01279E
- Sobereva 老师博文《过渡态、反应路径的计算方法及相关问题》:http://sobereva.com/44
- Sobereva 老师博文《在 Gaussian 中计算 IRC 的方法和常见问题》:http://sobereva.com/400
- Sobereva 老师博文《量子化学计算中帮助几何优化收敛的常用方法》:http://sobereva.com/164
- Open Molecules 2025 / OMol25: Levine D. S. et al. The Open Molecules 2025 (OMol25) Dataset, Evaluations, and Models DOI: 10.48550/arXiv.2505.08762.
UMA: Liu R. et al. UMA: Wood B. M. et al. UMA: A Family of Universal Models for Atoms. DOI: 10.48550/arXiv.2506.23971.
- ANI-1xnr (reactive ML): A transferable reactive force field for C, H, N, O elementsDOI: 10.1038/s41557-023-01427-3
- AIMNet2: AIMNet2: a neural network potential to meet your neutral, charged, organic, and elemental-organic needs DOI:10.1039/D4SC08572H
- MACE: Batatia I. et al. MACE: Higher Order Equivariant Message Passing Neural Networks for Fast and Accurate Force Fields. NeurIPS 2022 / arXiv:2206.07697.
- MACE-OFF23: Kovács D. P. et al. MACE-OFF: Short-Range Transferable Machine Learning Force Fields for Organic Molecules. JACS, 2025. DOI: 10.1021/jacs.4c07099.
|
评分 Rate
-
查看全部评分 View all ratings
|