计算化学公社

 找回密码 Forget password
 注册 Register
Views: 2050|回复 Reply: 11
打印 Print 上一主题 Last thread 下一主题 Next thread

[蛋白质建模] 生物分子co-folding工具boltz-2试用心得 (2025年9月)

[复制链接 Copy URL]

849

帖子

4

威望

1920

eV
积分
2849

Level 5 (御坂)

A Student

本帖最后由 student0618 于 2025-10-21 23:02 编辑

0. 前言

说起直接用蛋白/核酸序列/SMILES直接作结构预测、又可以用作蛋白-蛋白/蛋白-核酸/蛋白-小分子建模的工具, 目前最热门的可说是的AlphaFold 3 (AF3) 和 RoseTTafold-All Atom。

其中,AF3号称最准确,甚至很多文献现在都用AF3作标准/目标。可是AF3它的条款限制极多也有些混乱,使它的用途有限,尤其是一些产学合作相关项目不能用。(AF3 在线/本地版还分几个不同条款,详见V. 备注。它的在线服务器、本地source code、本地下载model weight、甚至是程序output的使用条款都分一个文件;下载AF3 model parameters到本地还要填写google form申请。)

再者,AF3和RoseTTafold-AA这两个工具要在本地使用门槛较高,需要NVIDIA GPU、较新的CUDA、及至少500-700GB的储存空间。这增加了一般研究者在有限的预算下想利用co-folding方法作前期研究的难度(如用作虚拟筛选等目的)。

Boltz-2 是MIT及Recursion开发的开源免费模型,给建模/对接等任务提供一个比AF3等更亲民、更有弹性的选择。和AF3一样,它是用机器学习co-folding预测蛋白结构、蛋白-蛋白/核酸结合、生物分子-小分子结合等。在这以上,boltz-2的目的是达到接近AF3 的准确度同时、加上蛋白-小分子affinity prediction,令小分子筛选可以直接用cofolding 方法预测结合模式、同时预测FEP+准确度的binding affinity。提供了除pTM/iPTM等confidence metrics以外的判断蛋白-小分子co-folding预测结果的选择。

由于boltz-2的工作流将multi-sequence alignment (MSA) 分到第三方MSA server,省去了下载database的储存空间;提供cpu/gpu 选项也使它可以适用于更多硬件,预算有限的研究者更易使用。

使用条款方面,boltz是开源MIT license的,可商用,也特意明文写出"can be freely used for both academic and commercial purposes",对研究显然更友善、提供更多弹性。

以下分享这几个月试用boltz-2的一些心得,给对这开源工具有兴趣的人作参考。时间所限,只会写大概的流程;也没办法有系统地测速度。详细使用说明和benchmark请参阅github上的instructions及文章。


I. 软件

网址
  • https://boltz.bio/boltz2

github repo (包括最新的版本+文档+输入模板)

原文还没在期刊发表,preprint在bioRxiv


II. 安装流程

参考 https://github.com/jwohlwend/bol ... v-file#installation,大致流程如下:

  • 建立一个新的python 3.12 的conda 环境并activate
  • 使用最新版本的话从github安装:git clone https://github.com/jwohlwend/boltz ,然后根据README内容使用恰当的pip install指令
  • 安装成功用 boltz predict --help 可以看到使用说明

值得一提的是Model weight及data的下载:
  • 首次运行boltz时,它会自动下载+解压约 8GB至 --cache 指定的目录 (预设 ~/.boltz)。建议先跑个很小的job来下载。
  • 集群安装要注意计算节点能不能连到外网,不然最好先自行下载model checkpoint 及小分子database (下载url 可以在github repo的src/boltz/main.py 代码内找) 。
  • 选用 boltz-2 时自动下载到 --cache 目录的有3个文件 (boltz2_aff.ckpt boltz2_conf.ckpt mols.tar) 及1个目录 (mols/ ),mols/ 目录下有>45,000 pkl 文件。
  • 下载成功的话,以后再跑时 --cache 指定同一目录就不会再下载了,boltz会自动调用。

如果使用 MSA server 功能需要登入用信息或API key,预设是用ColabFold 的MMseqs2。不想通过boltz用在线MSA server的用户可以自己提供msa结果(yaml 输入文件指定msa 的path),或者选择不用msa直接predict (准确度较低)。

其他使用方法及示例可参考官方文档及github的Example文件。预测结果给的output说明在prediction.md文档也写得很清楚,就不重复了。
https://github.com/jwohlwend/boltz/blob/main/docs/prediction.md


III. 试用感想 (2025年9月)
(2025年10月注:自行提供的msa有bug, 见 http://bbs.keinsci.com/forum.php ... 52658&fromuid=64740https://github.com/jwohlwend/boltz/issues/587)
github的examples用一个cpu跑也可以几小时内跑完,4090 gpu跑几分钟。以examples目录的affinity.yaml (修改了以使用分开预备的的msa文件) 爲例:
  • CPU: total 45mins (structure prediction 30mins19sec + Affinity prediction 14min2sec)
  • GPU: total ~2mins

我没时间测更大的体系,也没试通过boltz自动使用MSA server 作sequence alignment,只试了分开下预备的MSA (不想在测试用的电脑放任何密码和API key)。yaml输入文件也算是清晰明瞭,基本用法也不难用。不过更高级的设定如指定口袋放小分子等我还没试。

boltz-2 目前也有不少限制,如:
  • 提供pdb/cif 模板作prediction只支持蛋白模板。
  • 它最主要的卖点 Affinity prediction目前只支援单蛋白-小分子,小分子最好少于56原子,最多128原子。
  • 不支援部分金属的Ligand、affinity不支援核酸(说明文档写不会报错但不要信核酸-小分子的affinity),因此很可惜我的项目没法用了。
  • 较少Training data的人工设计核酸序列还是用专门预测核酸的方法更好,如用通常结合二维结构预测再用pairing predict 三维结构的工具,传统/AI工具都有,近年也有不少benchmark 文献提到相关AI/template-based方法 (不过大部分其他工具还是有限制商业用途就是了)。
  • 没有自带配套的作图工具。
  • 其他限制可参考bioRxiv的preprint或最新的文档


IV.结语
以上分享了一些使用boltz-2的心得。没有很仔细、很全面,如有错漏也请不吝赐正。


V. 备注:关于 AF3的使用条款

AF3条款极多,也有点乱。重点总结如下(如有错漏请指正):

无论在线还是本地版:

在线版的条款还加上:
  • 不可把结果用在Automated system 如autodock。

完整AF3使用条款参考:
AF3 server
本地版所有使用条款

评分 Rate

参与人数
Participants 5
威望 +1 eV +18 收起 理由
Reason
夜航星 + 4 感谢您的分享与探索,这为我的研究与学习带.
sayhello + 4 GJ!
wyf22 + 5 赞!
zsu007 + 5 谢谢分享
sobereva + 1

查看全部评分 View all ratings

敬仰一针见血的指责,厌倦别有用心的赞美。

561

帖子

0

威望

3410

eV
积分
3971

Level 5 (御坂)

2#
发表于 Post on 2025-10-3 09:38:19 | 只看该作者 Only view this author
本帖最后由 k64_cc 于 2025-10-3 09:40 编辑

做核酸体系的话,建议还是仔细看看pose。它的原子级表征只做重原子,不做氢,以至于把H-bond donor和acceptor这种物理特征非常明确的feature给学混淆了。生物大分子这种结构与质子态关系明显的case尚且还行,但是小分子的pose给得都挺搞笑的。

评分 Rate

参与人数
Participants 1
eV +3 收起 理由
Reason
student0618 + 3 谢谢分享

查看全部评分 View all ratings

849

帖子

4

威望

1920

eV
积分
2849

Level 5 (御坂)

A Student

3#
 楼主 Author| 发表于 Post on 2025-10-3 11:37:03 | 只看该作者 Only view this author
本帖最后由 student0618 于 2025-10-3 11:43 编辑
k64_cc 发表于 2025-10-3 09:38
做核酸体系的话,建议还是仔细看看pose。它的原子级表征只做重原子,不做氢,以至于把H-bond donor和accept ...

很认同,我后来还是试了一下,一个应是pi-stacking叠在base之间的小分子,它放4个base中间硬要给hbond 了。毕竟目前可供training的核酸-小分子的实验结构远比蛋白-小分子少。

不过那个人工合成的核酸结构一开始它的Hairpin结构pairing已经不对 (就是我原帖说最好用专门方法的体系),所以本来没试加小分子。如果他支持核酸用 Template/二级结构可能好些。
敬仰一针见血的指责,厌倦别有用心的赞美。

561

帖子

0

威望

3410

eV
积分
3971

Level 5 (御坂)

4#
发表于 Post on 2025-10-8 16:00:42 | 只看该作者 Only view this author
student0618 发表于 2025-10-3 11:37
很认同,我后来还是试了一下,一个应是pi-stacking叠在base之间的小分子,它放4个base中间硬要给hbond 了 ...

是这样,不过template其实没啥必要,template是从PDB里切片段来拼,这些片段训练集里也都有的。想用二级结构的话用Boltz给的那个constraint功能即可,写在输入文件里就行。

另外一个小trick是,小分子很多时候其实会靠pi-pi stacking/氢键/halogen bond,替代口袋里成pair的碱基的一部分功能,导致碱基unpair。因此我们发现Boltz建模的时候,把口袋附近的二级结构限制去掉,效果会显著变好。

评分 Rate

参与人数
Participants 1
eV +5 收起 理由
Reason
student0618 + 5 谢谢分享

查看全部评分 View all ratings

21

帖子

0

威望

174

eV
积分
195

Level 3 能力者

5#
发表于 Post on 2025-10-8 17:55:48 | 只看该作者 Only view this author
楼主我想请问一下,AF3在线版不支持自定义小分子,本地部署后支持蛋白+自己提供小分子的文件吗?我去看了教程没有提到该问题。我没这个条件进行本地部署但是比较好奇。

849

帖子

4

威望

1920

eV
积分
2849

Level 5 (御坂)

A Student

6#
 楼主 Author| 发表于 Post on 2025-10-8 18:12:33 | 只看该作者 Only view this author
本帖最后由 student0618 于 2025-10-9 11:38 编辑
樊樊樊 发表于 2025-10-8 17:55
楼主我想请问一下,AF3在线版不支持自定义小分子,本地部署后支持蛋白+自己提供小分子的文件吗?我去看了教 ...

见AF3离线版input documentation (https://github.com/google-deepmind/alphafold3/blob/main/docs/input.md)



AF3离线版目前限制为用SMILES不能处理两个字母的元素,见https://github.com/google-deepmi ... ocs/known_issues.md


不过由于他条款太麻烦,我也没有试过。
敬仰一针见血的指责,厌倦别有用心的赞美。

849

帖子

4

威望

1920

eV
积分
2849

Level 5 (御坂)

A Student

7#
 楼主 Author| 发表于 Post on 2025-10-8 18:31:40 | 只看该作者 Only view this author
本帖最后由 student0618 于 2025-10-9 12:18 编辑
k64_cc 发表于 2025-10-8 16:00
是这样,不过template其实没啥必要,template是从PDB里切片段来拼,这些片段训练集里也都有的。想用二级 ...

谢谢!我试试constraint那边set二级结构。

这边我说Template 是一组特定增强采样方法MD跑出来、pocket打开了的conformations,本来想看看能不能用boltz-2对比一下新开发方法预测的binding poses。人工合成一个很短的hairpin 结构,可能按MD结果试几个二级结构看看。
敬仰一针见血的指责,厌倦别有用心的赞美。

21

帖子

0

威望

174

eV
积分
195

Level 3 能力者

8#
发表于 Post on 2025-10-9 10:11:05 | 只看该作者 Only view this author
student0618 发表于 2025-10-8 18:12
见AF3离线版input documentation (https://github.com/google-deepmind/alphafold3/blob/main/docs/input ...

十分感谢

1

帖子

0

威望

25

eV
积分
26

Level 2 能力者

9#
发表于 Post on 2025-10-20 10:15:38 | 只看该作者 Only view this author
楼主好,我测试时一直报Warning: MSA does not match input sequence, creating dummy.即便设置msa:empty或测试作者给出材料也会出现这一警告,请问有遇见这一情况吗

5

帖子

0

威望

51

eV
积分
56

Level 2 能力者

10#
发表于 Post on 2025-10-20 12:29:15 | 只看该作者 Only view this author
请问老师,boltz2对于配置要求高吗?个人电脑装的虚拟机能算吗(对速度没有要求)?还是最好在服务器上算?谢谢

849

帖子

4

威望

1920

eV
积分
2849

Level 5 (御坂)

A Student

11#
 楼主 Author| 发表于 Post on 2025-10-21 22:53:30 | 只看该作者 Only view this author
lauowan 发表于 2025-10-20 12:29
请问老师,boltz2对于配置要求高吗?个人电脑装的虚拟机能算吗(对速度没有要求)?还是最好在服务器上算? ...

抱歉,我没用过虚拟机,但用单核只用cpu跑感觉还行,不过要注意Memory用量(测试的case少于30GB)。

就是用gpu跑几分钟,CPU 跑一小时的分别。某天半夜在主节点试跑也跑得完。
敬仰一针见血的指责,厌倦别有用心的赞美。

849

帖子

4

威望

1920

eV
积分
2849

Level 5 (御坂)

A Student

12#
 楼主 Author| 发表于 Post on 2025-10-21 22:57:59 | 只看该作者 Only view this author
本帖最后由 student0618 于 2025-10-21 23:06 编辑
zhangwhale 发表于 2025-10-20 10:15
楼主好,我测试时一直报Warning: MSA does not match input sequence, creating dummy.即便设置msa:empty ...

后来测试发现自己提供的msa也有这问题,见到github上也有人提issue了(https://github.com/jwohlwend/boltz/issues/587) 可能要等开发者修。我先在一楼补充。

我用empty没事。
敬仰一针见血的指责,厌倦别有用心的赞美。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2026-1-25 20:39 , Processed in 0.253895 second(s), 25 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list