生物分子co-folding工具boltz-2试用心得 (2025年9月)

student0618 · 发表于 Post on 2025-9-29 21:55:47

本帖最后由 student0618 于 2025-10-21 23:02 编辑

0. 前言

说起直接用蛋白/核酸序列/SMILES直接作结构预测、又可以用作蛋白-蛋白/蛋白-核酸/蛋白-小分子建模的工具，目前最热门的可说是的AlphaFold 3 (AF3) 和 RoseTTafold-All Atom。

其中，AF3号称最准确，甚至很多文献现在都用AF3作标准/目标。可是AF3它的条款限制极多也有些混乱，使它的用途有限，尤其是一些产学合作相关项目不能用。(AF3 在线/本地版还分几个不同条款，详见V. 备注。它的在线服务器、本地source code、本地下载model weight、甚至是程序output的使用条款都分一个文件；下载AF3 model parameters到本地还要填写google form申请。)

再者，AF3和RoseTTafold-AA这两个工具要在本地使用门槛较高，需要NVIDIA GPU、较新的CUDA、及至少500-700GB的储存空间。这增加了一般研究者在有限的预算下想利用co-folding方法作前期研究的难度(如用作虚拟筛选等目的)。

Boltz-2 是MIT及Recursion开发的开源免费模型，给建模/对接等任务提供一个比AF3等更亲民、更有弹性的选择。和AF3一样，它是用机器学习co-folding预测蛋白结构、蛋白-蛋白/核酸结合、生物分子-小分子结合等。在这以上，boltz-2的目的是达到接近AF3 的准确度同时、加上蛋白-小分子affinity prediction，令小分子筛选可以直接用cofolding 方法预测结合模式、同时预测FEP+准确度的binding affinity。提供了除pTM/iPTM等confidence metrics以外的判断蛋白-小分子co-folding预测结果的选择。

由于boltz-2的工作流将multi-sequence alignment (MSA) 分到第三方MSA server，省去了下载database的储存空间；提供cpu/gpu 选项也使它可以适用于更多硬件，预算有限的研究者更易使用。

使用条款方面，boltz是开源MIT license的，可商用，也特意明文写出"can be freely used for both academic and commercial purposes"，对研究显然更友善、提供更多弹性。

以下分享这几个月试用boltz-2的一些心得，给对这开源工具有兴趣的人作参考。时间所限，只会写大概的流程；也没办法有系统地测速度。详细使用说明和benchmark请参阅github上的instructions及文章。

I. 软件

网址

https://boltz.bio/boltz2

github repo (包括最新的版本+文档+输入模板)

https://github.com/jwohlwend/boltz

原文还没在期刊发表，preprint在bioRxiv

boltz-2 https://doi.org/10.1101/2025.06.14.659707
boltz-1 https://doi.org/10.1101/2024.11.19.624167

II. 安装流程

参考 https://github.com/jwohlwend/bol ... v-file#installation，大致流程如下：

建立一个新的python 3.12 的conda 环境并activate
使用最新版本的话从github安装：git clone https://github.com/jwohlwend/boltz ，然后根据README内容使用恰当的pip install指令
安装成功用 boltz predict --help 可以看到使用说明

值得一提的是Model weight及data的下载：

首次运行boltz时，它会自动下载+解压约 8GB至 --cache 指定的目录 (预设 ~/.boltz)。建议先跑个很小的job来下载。
集群安装要注意计算节点能不能连到外网，不然最好先自行下载model checkpoint 及小分子database (下载url 可以在github repo的src/boltz/main.py 代码内找) 。
选用 boltz-2 时自动下载到 --cache 目录的有3个文件 (boltz2_aff.ckpt boltz2_conf.ckpt mols.tar) 及1个目录 (mols/ )，mols/ 目录下有>45,000 pkl 文件。
下载成功的话，以后再跑时 --cache 指定同一目录就不会再下载了，boltz会自动调用。

如果使用 MSA server 功能需要登入用信息或API key，预设是用ColabFold 的MMseqs2。不想通过boltz用在线MSA server的用户可以自己提供msa结果(yaml 输入文件指定msa 的path)，或者选择不用msa直接predict (准确度较低)。

其他使用方法及示例可参考官方文档及github的Example文件。预测结果给的output说明在prediction.md文档也写得很清楚，就不重复了。
https://github.com/jwohlwend/boltz/blob/main/docs/prediction.md

III. 试用感想 (2025年9月)
(2025年10月注：自行提供的msa有bug, 见 http://bbs.keinsci.com/forum.php ... 52658&fromuid=64740 及 https://github.com/jwohlwend/boltz/issues/587)
github的examples用一个cpu跑也可以几小时内跑完，4090 gpu跑几分钟。以examples目录的affinity.yaml (修改了以使用分开预备的的msa文件) 爲例：

CPU: total 45mins (structure prediction 30mins19sec + Affinity prediction 14min2sec)
GPU: total ~2mins

我没时间测更大的体系，也没试通过boltz自动使用MSA server 作sequence alignment，只试了分开下预备的MSA (不想在测试用的电脑放任何密码和API key)。yaml输入文件也算是清晰明瞭，基本用法也不难用。不过更高级的设定如指定口袋放小分子等我还没试。

boltz-2 目前也有不少限制，如：

提供pdb/cif 模板作prediction只支持蛋白模板。
它最主要的卖点 Affinity prediction目前只支援单蛋白-小分子，小分子最好少于56原子，最多128原子。
不支援部分金属的Ligand、affinity不支援核酸(说明文档写不会报错但不要信核酸-小分子的affinity)，因此很可惜我的项目没法用了。
较少Training data的人工设计核酸序列还是用专门预测核酸的方法更好，如用通常结合二维结构预测再用pairing predict 三维结构的工具，传统/AI工具都有，近年也有不少benchmark 文献提到相关AI/template-based方法 (不过大部分其他工具还是有限制商业用途就是了)。
没有自带配套的作图工具。
其他限制可参考bioRxiv的preprint或最新的文档

IV.结语
以上分享了一些使用boltz-2的心得。没有很仔细、很全面，如有错漏也请不吝赐正。

V. 备注：关于 AF3的使用条款

AF3条款极多，也有点乱。重点总结如下(如有错漏请指正)：

无论在线还是本地版：

限制只可用于非商业用途
不可用AF3结果作training data
必须恰当引用他们2024年的nature (https://doi.org/10.1038/s41586-024-07487-w)。

在线版的条款还加上：

不可把结果用在Automated system 如autodock。

完整AF3使用条款参考：
AF3 server

AF3在线服务器使用条款

本地版所有使用条款

k64_cc · 发表于 Post on 2025-10-3 09:38:19

本帖最后由 k64_cc 于 2025-10-3 09:40 编辑

做核酸体系的话，建议还是仔细看看pose。它的原子级表征只做重原子，不做氢，以至于把H-bond donor和acceptor这种物理特征非常明确的feature给学混淆了。生物大分子这种结构与质子态关系明显的case尚且还行，但是小分子的pose给得都挺搞笑的。

student0618 · 发表于 Post on 2025-10-3 11:37:03

本帖最后由 student0618 于 2025-10-3 11:43 编辑

k64_cc 发表于 2025-10-3 09:38
做核酸体系的话，建议还是仔细看看pose。它的原子级表征只做重原子，不做氢，以至于把H-bond donor和accept ...

很认同，我后来还是试了一下，一个应是pi-stacking叠在base之间的小分子，它放4个base中间硬要给hbond 了。毕竟目前可供training的核酸-小分子的实验结构远比蛋白-小分子少。

不过那个人工合成的核酸结构一开始它的Hairpin结构pairing已经不对 (就是我原帖说最好用专门方法的体系)，所以本来没试加小分子。如果他支持核酸用 Template/二级结构可能好些。

k64_cc · 发表于 Post on 2025-10-8 16:00:42

student0618 发表于 2025-10-3 11:37
很认同，我后来还是试了一下，一个应是pi-stacking叠在base之间的小分子，它放4个base中间硬要给hbond 了 ...

是这样，不过template其实没啥必要，template是从PDB里切片段来拼，这些片段训练集里也都有的。想用二级结构的话用Boltz给的那个constraint功能即可，写在输入文件里就行。

另外一个小trick是，小分子很多时候其实会靠pi-pi stacking/氢键/halogen bond，替代口袋里成pair的碱基的一部分功能，导致碱基unpair。因此我们发现Boltz建模的时候，把口袋附近的二级结构限制去掉，效果会显著变好。

樊樊樊 · 发表于 Post on 2025-10-8 17:55:48

楼主我想请问一下，AF3在线版不支持自定义小分子，本地部署后支持蛋白+自己提供小分子的文件吗？我去看了教程没有提到该问题。我没这个条件进行本地部署但是比较好奇。

student0618 · 发表于 Post on 2025-10-8 18:12:33

本帖最后由 student0618 于 2025-10-9 11:38 编辑

樊樊樊发表于 2025-10-8 17:55
楼主我想请问一下，AF3在线版不支持自定义小分子，本地部署后支持蛋白+自己提供小分子的文件吗？我去看了教 ...

见AF3离线版input documentation (https://github.com/google-deepmind/alphafold3/blob/main/docs/input.md)

AF3离线版目前限制为用SMILES不能处理两个字母的元素，见https://github.com/google-deepmi ... ocs/known_issues.md

不过由于他条款太麻烦，我也没有试过。

student0618 · 发表于 Post on 2025-10-8 18:31:40

本帖最后由 student0618 于 2025-10-9 12:18 编辑

k64_cc 发表于 2025-10-8 16:00
是这样，不过template其实没啥必要，template是从PDB里切片段来拼，这些片段训练集里也都有的。想用二级 ...

谢谢！我试试constraint那边set二级结构。

这边我说Template 是一组特定增强采样方法MD跑出来、pocket打开了的conformations，本来想看看能不能用boltz-2对比一下新开发方法预测的binding poses。人工合成一个很短的hairpin 结构，可能按MD结果试几个二级结构看看。

樊樊樊 · 发表于 Post on 2025-10-9 10:11:05

student0618 发表于 2025-10-8 18:12
见AF3离线版input documentation (https://github.com/google-deepmind/alphafold3/blob/main/docs/input ...

十分感谢

zhangwhale · 发表于 Post on 2025-10-20 10:15:38

楼主好，我测试时一直报Warning: MSA does not match input sequence, creating dummy.即便设置msa：empty或测试作者给出材料也会出现这一警告，请问有遇见这一情况吗

lauowan · 发表于 Post on 2025-10-20 12:29:15

请问老师，boltz2对于配置要求高吗？个人电脑装的虚拟机能算吗（对速度没有要求）？还是最好在服务器上算？谢谢

student0618 · 发表于 Post on 2025-10-21 22:53:30

lauowan 发表于 2025-10-20 12:29
请问老师，boltz2对于配置要求高吗？个人电脑装的虚拟机能算吗（对速度没有要求）？还是最好在服务器上算？ ...

抱歉，我没用过虚拟机，但用单核只用cpu跑感觉还行，不过要注意Memory用量(测试的case少于30GB)。

就是用gpu跑几分钟，CPU 跑一小时的分别。某天半夜在主节点试跑也跑得完。

student0618 · 发表于 Post on 2025-10-21 22:57:59

本帖最后由 student0618 于 2025-10-21 23:06 编辑

zhangwhale 发表于 2025-10-20 10:15
楼主好，我测试时一直报Warning: MSA does not match input sequence, creating dummy.即便设置msa：empty ...

后来测试发现自己提供的msa也有这问题，见到github上也有人提issue了(https://github.com/jwohlwend/boltz/issues/587) 可能要等开发者修。我先在一楼补充。

我用empty没事。

		自动登录 Automatic login	找回密码 Forget password
密码 Password			注册 Register

[蛋白质建模] 生物分子co-folding工具boltz-2试用心得 (2025年9月)

评分 Rate

评分 Rate

评分 Rate

浏览过的版块