|
|
本帖最后由 student0618 于 2025-10-21 23:02 编辑
0. 前言
说起直接用蛋白/核酸序列/SMILES直接作结构预测、又可以用作蛋白-蛋白/蛋白-核酸/蛋白-小分子建模的工具, 目前最热门的可说是的AlphaFold 3 (AF3) 和 RoseTTafold-All Atom。
其中,AF3号称最准确,甚至很多文献现在都用AF3作标准/目标。可是AF3它的条款限制极多也有些混乱,使它的用途有限,尤其是一些产学合作相关项目不能用。(AF3 在线/本地版还分几个不同条款,详见V. 备注。它的在线服务器、本地source code、本地下载model weight、甚至是程序output的使用条款都分一个文件;下载AF3 model parameters到本地还要填写google form申请。)
再者,AF3和RoseTTafold-AA这两个工具要在本地使用门槛较高,需要NVIDIA GPU、较新的CUDA、及至少500-700GB的储存空间。这增加了一般研究者在有限的预算下想利用co-folding方法作前期研究的难度(如用作虚拟筛选等目的)。
Boltz-2 是MIT及Recursion开发的开源免费模型,给建模/对接等任务提供一个比AF3等更亲民、更有弹性的选择。和AF3一样,它是用机器学习co-folding预测蛋白结构、蛋白-蛋白/核酸结合、生物分子-小分子结合等。在这以上,boltz-2的目的是达到接近AF3 的准确度同时、加上蛋白-小分子affinity prediction,令小分子筛选可以直接用cofolding 方法预测结合模式、同时预测FEP+准确度的binding affinity。提供了除pTM/iPTM等confidence metrics以外的判断蛋白-小分子co-folding预测结果的选择。
由于boltz-2的工作流将multi-sequence alignment (MSA) 分到第三方MSA server,省去了下载database的储存空间;提供cpu/gpu 选项也使它可以适用于更多硬件,预算有限的研究者更易使用。
使用条款方面,boltz是开源MIT license的,可商用,也特意明文写出"can be freely used for both academic and commercial purposes",对研究显然更友善、提供更多弹性。
以下分享这几个月试用boltz-2的一些心得,给对这开源工具有兴趣的人作参考。时间所限,只会写大概的流程;也没办法有系统地测速度。详细使用说明和benchmark请参阅github上的instructions及文章。
I. 软件
网址
github repo (包括最新的版本+文档+输入模板)
原文还没在期刊发表,preprint在bioRxiv
II. 安装流程
参考 https://github.com/jwohlwend/bol ... v-file#installation,大致流程如下:
值得一提的是Model weight及data的下载:
- 首次运行boltz时,它会自动下载+解压约 8GB至 --cache 指定的目录 (预设 ~/.boltz)。建议先跑个很小的job来下载。
- 集群安装要注意计算节点能不能连到外网,不然最好先自行下载model checkpoint 及小分子database (下载url 可以在github repo的src/boltz/main.py 代码内找) 。
- 选用 boltz-2 时自动下载到 --cache 目录的有3个文件 (boltz2_aff.ckpt boltz2_conf.ckpt mols.tar) 及1个目录 (mols/ ),mols/ 目录下有>45,000 pkl 文件。
- 下载成功的话,以后再跑时 --cache 指定同一目录就不会再下载了,boltz会自动调用。
如果使用 MSA server 功能需要登入用信息或API key,预设是用ColabFold 的MMseqs2。不想通过boltz用在线MSA server的用户可以自己提供msa结果(yaml 输入文件指定msa 的path),或者选择不用msa直接predict (准确度较低)。
其他使用方法及示例可参考官方文档及github的Example文件。预测结果给的output说明在prediction.md文档也写得很清楚,就不重复了。
https://github.com/jwohlwend/boltz/blob/main/docs/prediction.md
III. 试用感想 (2025年9月)
(2025年10月注:自行提供的msa有bug, 见 http://bbs.keinsci.com/forum.php ... 52658&fromuid=64740 及 https://github.com/jwohlwend/boltz/issues/587)
github的examples用一个cpu跑也可以几小时内跑完,4090 gpu跑几分钟。以examples目录的affinity.yaml (修改了以使用分开预备的的msa文件) 爲例:
- CPU: total 45mins (structure prediction 30mins19sec + Affinity prediction 14min2sec)
- GPU: total ~2mins
我没时间测更大的体系,也没试通过boltz自动使用MSA server 作sequence alignment,只试了分开下预备的MSA (不想在测试用的电脑放任何密码和API key)。yaml输入文件也算是清晰明瞭,基本用法也不难用。不过更高级的设定如指定口袋放小分子等我还没试。
boltz-2 目前也有不少限制,如:
- 提供pdb/cif 模板作prediction只支持蛋白模板。
- 它最主要的卖点 Affinity prediction目前只支援单蛋白-小分子,小分子最好少于56原子,最多128原子。
- 不支援部分金属的Ligand、affinity不支援核酸(说明文档写不会报错但不要信核酸-小分子的affinity),因此很可惜我的项目没法用了。
- 较少Training data的人工设计核酸序列还是用专门预测核酸的方法更好,如用通常结合二维结构预测再用pairing predict 三维结构的工具,传统/AI工具都有,近年也有不少benchmark 文献提到相关AI/template-based方法 (不过大部分其他工具还是有限制商业用途就是了)。
- 没有自带配套的作图工具。
- 其他限制可参考bioRxiv的preprint或最新的文档
IV.结语
以上分享了一些使用boltz-2的心得。没有很仔细、很全面,如有错漏也请不吝赐正。
V. 备注:关于 AF3的使用条款
AF3条款极多,也有点乱。重点总结如下(如有错漏请指正):
无论在线还是本地版:
在线版的条款还加上:
- 不可把结果用在Automated system 如autodock。
完整AF3使用条款参考:
AF3 server
本地版所有使用条款
|
评分 Rate
-
查看全部评分 View all ratings
|