“第10届量子化学波函数分析与Multiwfn程序培训班将于5月4-8日于北京举办,这是一次性完整、系统学习波函数分析的各种理论知识和全面掌握强大的Multiwfn波函数分析程序使用的最不可错过的机会!请点击此链接查看详情和报名方式,欢迎参加!

“第18届北京科音分子动力学与GROMACS培训班” 将于5月23-26日于北京举办。这是一次性全面、系统学习分子动力学模拟知识和最流行的分子动力学程序GROMACS的关键机会!报名正在进行中,请点击此链接查看详情,欢迎参加!

计算化学公社

 找回密码 Forget password
 注册 Register
Views: 3439|回复 Reply: 21
打印 Print 上一主题 Last thread 下一主题 Next thread

[蛋白质建模] 生物分子co-folding工具boltz-2试用心得 (2025年9月)

[复制链接 Copy URL]

989

帖子

4

威望

2331

eV
积分
3400

Level 5 (御坂)

A Student

跳转到指定楼层 Go to specific reply
楼主
本帖最后由 student0618 于 2025-10-21 23:02 编辑

0. 前言

说起直接用蛋白/核酸序列/SMILES直接作结构预测、又可以用作蛋白-蛋白/蛋白-核酸/蛋白-小分子建模的工具, 目前最热门的可说是的AlphaFold 3 (AF3) 和 RoseTTafold-All Atom。

其中,AF3号称最准确,甚至很多文献现在都用AF3作标准/目标。可是AF3它的条款限制极多也有些混乱,使它的用途有限,尤其是一些产学合作相关项目不能用。(AF3 在线/本地版还分几个不同条款,详见V. 备注。它的在线服务器、本地source code、本地下载model weight、甚至是程序output的使用条款都分一个文件;下载AF3 model parameters到本地还要填写google form申请。)

再者,AF3和RoseTTafold-AA这两个工具要在本地使用门槛较高,需要NVIDIA GPU、较新的CUDA、及至少500-700GB的储存空间。这增加了一般研究者在有限的预算下想利用co-folding方法作前期研究的难度(如用作虚拟筛选等目的)。

Boltz-2 是MIT及Recursion开发的开源免费模型,给建模/对接等任务提供一个比AF3等更亲民、更有弹性的选择。和AF3一样,它是用机器学习co-folding预测蛋白结构、蛋白-蛋白/核酸结合、生物分子-小分子结合等。在这以上,boltz-2的目的是达到接近AF3 的准确度同时、加上蛋白-小分子affinity prediction,令小分子筛选可以直接用cofolding 方法预测结合模式、同时预测FEP+准确度的binding affinity。提供了除pTM/iPTM等confidence metrics以外的判断蛋白-小分子co-folding预测结果的选择。

由于boltz-2的工作流将multi-sequence alignment (MSA) 分到第三方MSA server,省去了下载database的储存空间;提供cpu/gpu 选项也使它可以适用于更多硬件,预算有限的研究者更易使用。

使用条款方面,boltz是开源MIT license的,可商用,也特意明文写出"can be freely used for both academic and commercial purposes",对研究显然更友善、提供更多弹性。

以下分享这几个月试用boltz-2的一些心得,给对这开源工具有兴趣的人作参考。时间所限,只会写大概的流程;也没办法有系统地测速度。详细使用说明和benchmark请参阅github上的instructions及文章。


I. 软件

网址
  • https://boltz.bio/boltz2

github repo (包括最新的版本+文档+输入模板)

原文还没在期刊发表,preprint在bioRxiv


II. 安装流程

参考 https://github.com/jwohlwend/bol ... v-file#installation,大致流程如下:

  • 建立一个新的python 3.12 的conda 环境并activate
  • 使用最新版本的话从github安装:git clone https://github.com/jwohlwend/boltz ,然后根据README内容使用恰当的pip install指令
  • 安装成功用 boltz predict --help 可以看到使用说明

值得一提的是Model weight及data的下载:
  • 首次运行boltz时,它会自动下载+解压约 8GB至 --cache 指定的目录 (预设 ~/.boltz)。建议先跑个很小的job来下载。
  • 集群安装要注意计算节点能不能连到外网,不然最好先自行下载model checkpoint 及小分子database (下载url 可以在github repo的src/boltz/main.py 代码内找) 。
  • 选用 boltz-2 时自动下载到 --cache 目录的有3个文件 (boltz2_aff.ckpt boltz2_conf.ckpt mols.tar) 及1个目录 (mols/ ),mols/ 目录下有>45,000 pkl 文件。
  • 下载成功的话,以后再跑时 --cache 指定同一目录就不会再下载了,boltz会自动调用。

如果使用 MSA server 功能需要登入用信息或API key,预设是用ColabFold 的MMseqs2。不想通过boltz用在线MSA server的用户可以自己提供msa结果(yaml 输入文件指定msa 的path),或者选择不用msa直接predict (准确度较低)。

其他使用方法及示例可参考官方文档及github的Example文件。预测结果给的output说明在prediction.md文档也写得很清楚,就不重复了。
https://github.com/jwohlwend/boltz/blob/main/docs/prediction.md


III. 试用感想 (2025年9月)
(2025年10月注:自行提供的msa有bug, 见 http://bbs.keinsci.com/forum.php ... 52658&fromuid=64740https://github.com/jwohlwend/boltz/issues/587)
github的examples用一个cpu跑也可以几小时内跑完,4090 gpu跑几分钟。以examples目录的affinity.yaml (修改了以使用分开预备的的msa文件) 爲例:
  • CPU: total 45mins (structure prediction 30mins19sec + Affinity prediction 14min2sec)
  • GPU: total ~2mins

我没时间测更大的体系,也没试通过boltz自动使用MSA server 作sequence alignment,只试了分开下预备的MSA (不想在测试用的电脑放任何密码和API key)。yaml输入文件也算是清晰明瞭,基本用法也不难用。不过更高级的设定如指定口袋放小分子等我还没试。

boltz-2 目前也有不少限制,如:
  • 提供pdb/cif 模板作prediction只支持蛋白模板。
  • 它最主要的卖点 Affinity prediction目前只支援单蛋白-小分子,小分子最好少于56原子,最多128原子。
  • 不支援部分金属的Ligand、affinity不支援核酸(说明文档写不会报错但不要信核酸-小分子的affinity),因此很可惜我的项目没法用了。
  • 较少Training data的人工设计核酸序列还是用专门预测核酸的方法更好,如用通常结合二维结构预测再用pairing predict 三维结构的工具,传统/AI工具都有,近年也有不少benchmark 文献提到相关AI/template-based方法 (不过大部分其他工具还是有限制商业用途就是了)。
  • 没有自带配套的作图工具。
  • 其他限制可参考bioRxiv的preprint或最新的文档


IV.结语
以上分享了一些使用boltz-2的心得。没有很仔细、很全面,如有错漏也请不吝赐正。


V. 备注:关于 AF3的使用条款

AF3条款极多,也有点乱。重点总结如下(如有错漏请指正):

无论在线还是本地版:

在线版的条款还加上:
  • 不可把结果用在Automated system 如autodock。

完整AF3使用条款参考:
AF3 server
本地版所有使用条款

评分 Rate

参与人数
Participants 5
威望 +1 eV +18 收起 理由
Reason
夜航星 + 4 感谢您的分享与探索,这为我的研究与学习带.
sayhello + 4 GJ!
wyf22 + 5 赞!
zsu007 + 5 谢谢分享
sobereva + 1

查看全部评分 View all ratings

敬仰一针见血的指责,厌倦别有用心的赞美。

87

帖子

0

威望

651

eV
积分
738

Level 4 (黑子)

22#
发表于 Post on 7 day ago | 只看该作者 Only view this author
楼主你好,请问一下我在用Boltz2的时候,只要加上templates字段就一直报错:IndexError: list index out of range
Failed to process t1.yaml. Skipping. Error: list index out of range.  我的小分子是结合在两条链蛋白组成的口袋中。请问您能抽空帮我看一下是什么问题吗,万分感谢
我使用的命令是boltz predict t1.yaml --use_msa_server   boltz是2.2.1版本

vav1_pymol2.pdb.zip

130.3 KB, 下载次数 Times of downloads: 0

t1.yaml

890 Bytes, 下载次数 Times of downloads: 0

2

帖子

0

威望

13

eV
积分
15

Level 1 能力者

21#
发表于 Post on 2026-3-14 23:49:15 | 只看该作者 Only view this author
官方的example也不能跑,我觉得是超算平台开的国际带宽不起作用,MSA没有连接上,本地部署MSA是怎么做的呢?我没有在git hub上找到...

989

帖子

4

威望

2331

eV
积分
3400

Level 5 (御坂)

A Student

20#
 楼主 Author| 发表于 Post on 2026-3-13 23:48:24 | 只看该作者 Only view this author
wl00 发表于 2026-3-13 22:50
楼主您好,我现在在测试蛋白和小分子的对接,最近了解了boltz-2,是不是boltz-2比af3要更好一些?但是我在 ...

预测得是否比较好这点我还没仔细看较新的文章,可以找找相关测试。
个人认为boltz-2比af3优势是它的使用条款更实际,适用更多类型的项目。

这问题没更多资讯很难解答,先试试官方的example能不能跑?
敬仰一针见血的指责,厌倦别有用心的赞美。

2

帖子

0

威望

13

eV
积分
15

Level 1 能力者

19#
发表于 Post on 2026-3-13 22:50:09 | 只看该作者 Only view this author
楼主您好,我现在在测试蛋白和小分子的对接,最近了解了boltz-2,是不是boltz-2比af3要更好一些?但是我在运行的时候出现了Running structure prediction for 1 input.
Predicting DataLoader 0:   0%|          | 0/1 [00:08<?, ?it/s]^C然后任务就终止了,不知道是哪里出了问题,还望博主解答一下

989

帖子

4

威望

2331

eV
积分
3400

Level 5 (御坂)

A Student

18#
 楼主 Author| 发表于 Post on 2026-3-9 11:18:23 | 只看该作者 Only view this author
happy青青 发表于 2026-3-9 09:57
谢谢你的分享,针对第二点 "Affinity结果对binding pose 不敏感,就算pose很烂affinity也可以很好"
这也太 ...

这篇文章的作者也有同一疑惑,
On the negative side, the affinity predictions are insensitive
to the quality of ligand poses, which often deviate significantly
from the expected ground-truth.
We could not rationally explain how Boltz-2 manages to achieve good binary
classification of binders vs nonbinders, in the absence of
statistical correlation between predicted and experimental
binding affinities, and from poor ligand poses.
这问题应该要留待Boltz-2开发者解答了。


敬仰一针见血的指责,厌倦别有用心的赞美。

5

帖子

0

威望

83

eV
积分
88

Level 2 能力者

17#
发表于 Post on 2026-3-9 09:57:16 | 只看该作者 Only view this author
谢谢你的分享,针对第二点 "Affinity结果对binding pose 不敏感,就算pose很烂affinity也可以很好"
这也太疑惑了吧,难道说这种打分给出的affinity不怎么参考对接的pose?这和我理解的通过判断 受体配体是否形成各种键来打分 的理念 差别很大啊。

989

帖子

4

威望

2331

eV
积分
3400

Level 5 (御坂)

A Student

16#
 楼主 Author| 发表于 Post on 2026-3-3 21:30:16 | 只看该作者 Only view this author
本帖最后由 student0618 于 2026-3-4 02:45 编辑
happy青青 发表于 2026-3-3 20:02
巧了这篇文献我昨天也看到了,但没有理解里面的核心思想

先前快速读一遍的理解如下:

1. Affinity prediction 表现理想,对和training system很不同的体系也能分辨出active和inactive的分子;
2. Affinity结果对binding pose 不敏感,就算pose很烂affinity也可以很好;
3. 因此,这affinity的物理意义成疑。

我所理解Boltz-2的pose prediction和affinity 模型是分开的,论文的质疑算是合理。
敬仰一针见血的指责,厌倦别有用心的赞美。

5

帖子

0

威望

83

eV
积分
88

Level 2 能力者

15#
发表于 Post on 2026-3-3 20:02:59 | 只看该作者 Only view this author
巧了这篇文献我昨天也看到了,但没有理解里面的核心思想

989

帖子

4

威望

2331

eV
积分
3400

Level 5 (御坂)

A Student

14#
 楼主 Author| 发表于 Post on 2026-3-3 02:53:08 | 只看该作者 Only view this author
happy青青 发表于 2026-3-2 10:26
话说boltz-2对蛋白-小分子的预测亲和力怎么样? 号称都是媲美FEP的级别了

可以搜一下相关的评论或测试的论文,如 https://pubs.acs.org/doi/10.1021/acs.jcim.5c02630 。(这篇我收藏了但还没仔细看)

我通常想摸鱼时找个软件试玩来顺手 (灌水) 写心得的,不少写完就没怎么用了。欢迎大家补充讨论。
敬仰一针见血的指责,厌倦别有用心的赞美。

5

帖子

0

威望

83

eV
积分
88

Level 2 能力者

13#
发表于 Post on 2026-3-2 10:26:17 | 只看该作者 Only view this author
话说boltz-2对蛋白-小分子的预测亲和力怎么样? 号称都是媲美FEP的级别了

989

帖子

4

威望

2331

eV
积分
3400

Level 5 (御坂)

A Student

12#
 楼主 Author| 发表于 Post on 2025-10-21 22:57:59 | 只看该作者 Only view this author
本帖最后由 student0618 于 2025-10-21 23:06 编辑
zhangwhale 发表于 2025-10-20 10:15
楼主好,我测试时一直报Warning: MSA does not match input sequence, creating dummy.即便设置msa:empty ...

后来测试发现自己提供的msa也有这问题,见到github上也有人提issue了(https://github.com/jwohlwend/boltz/issues/587) 可能要等开发者修。我先在一楼补充。

我用empty没事。
敬仰一针见血的指责,厌倦别有用心的赞美。

989

帖子

4

威望

2331

eV
积分
3400

Level 5 (御坂)

A Student

11#
 楼主 Author| 发表于 Post on 2025-10-21 22:53:30 | 只看该作者 Only view this author
lauowan 发表于 2025-10-20 12:29
请问老师,boltz2对于配置要求高吗?个人电脑装的虚拟机能算吗(对速度没有要求)?还是最好在服务器上算? ...

抱歉,我没用过虚拟机,但用单核只用cpu跑感觉还行,不过要注意Memory用量(测试的case少于30GB)。

就是用gpu跑几分钟,CPU 跑一小时的分别。某天半夜在主节点试跑也跑得完。
敬仰一针见血的指责,厌倦别有用心的赞美。

5

帖子

0

威望

51

eV
积分
56

Level 2 能力者

10#
发表于 Post on 2025-10-20 12:29:15 | 只看该作者 Only view this author
请问老师,boltz2对于配置要求高吗?个人电脑装的虚拟机能算吗(对速度没有要求)?还是最好在服务器上算?谢谢

1

帖子

0

威望

25

eV
积分
26

Level 2 能力者

9#
发表于 Post on 2025-10-20 10:15:38 | 只看该作者 Only view this author
楼主好,我测试时一直报Warning: MSA does not match input sequence, creating dummy.即便设置msa:empty或测试作者给出材料也会出现这一警告,请问有遇见这一情况吗

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2026-4-13 17:49 , Processed in 0.231130 second(s), 32 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list