本帖最后由 farfarcheng 于 2023-10-31 18:00 编辑
Apps 作为轻量级的 AI for Science 应用,能够实现快速、易用的算法开发和功能验证。本期我们在「Apps 专栏」给大家带来的是高精度蛋白结构预测工具 Uni-Fold,欢迎大家点击阅读原文体验。本文将简单介绍 Uni-Fold 算法,及其对应的 App 使用教程。
高精度蛋白结构预测工具 Uni-Fold
蛋白质是组成生命体的重要物质基础。不同的蛋白质通过折叠构成形态各异的三维结构,执行多种多样的生理功能。长期以来,从氨基酸序列到对应蛋白质三维结构的预测问题被认为是生物学领域最具有挑战性的问题之一。在过去几十年的研究中,科学家们为探测蛋白质结构发展出三大实验手段:X射线晶体学、核磁共振和冷冻电镜。但实验方法成本高、周期长。目前人类已知有数十亿蛋白质序列,通过实验还原出结构的却只有十几万。生物学发展因此颇受掣肘。
近年来AI的发展为解决这一问题带来了新的可能。Uni-Fold 是深势科技于2021年推出的高精度蛋白质结构预测模型。在 Google DeepMind 推出的 AlphaFold 基础上,深势科技团队成功突破技术壁垒,使用 PyTorch 复现了 AlphaFold2 及其完整训练过程,并从训练数据、模型结构、代码实现等多方面进行了优化与改进。经过不断迭代,目前 Uni-Fold 已达到预测精度超越 AlphaFold、推理速度显著提升、端到端训练速度提升超1倍的成就 [1]。
Uni-Fold与AlphaFold的精度对比 [1]
目前的 Uni-Fold 支持蛋白质单体与复合物的高精度结构预测。同时,对于具有旋转对称性的蛋白质同源高聚体,Uni-Fold 提供预测方案 UF-Symmetry [2],使结构预测复杂度与聚体数目无关,从数量级上提升了此类任务的预测速度。此外,Uni-Fold@Apps 采用MSA搜索方案 MMSeqs2,极大的提升了同源序列搜索的效率。对于一般的预测任务,Uni-Fold@Apps 在数分钟左右即可返回预测结果。
Uni-Fold预测的超大同源多聚体结构,用时仅需数分钟
Uni-Fold@Apps
目前,Uni-Fold 已在 Bohrium® Apps开放试用。你可以在线提交您关心的氨基酸序列,体验 Uni-Fold 快速、强大的蛋白质结构预测能力。上线伊始,Uni-Fold 为用户免除所有 License 费用,用户只需支付运行产生的低廉算力费用(对于1000个残基的单个预测目标,算力费用约为0.5元)。
下面,我们简单介绍 Uni-Fold App的使用流程:
2. 输入待预测的序列,指定对称群。对于多聚体,使用分号分隔不同链。对于非对称蛋白,请保持对称群(symmetry group)选项为C1;对于同源多聚体,请正确指定您需要的对称群(目前仅支持C类对称群)。
3. 配置其他参数。对于新手用户,只需保持默认参数即可。
4. 完成剩余的任务提交流程,等待任务运行,获取结果。
5. 在结果中找到以 pdb 结尾的蛋白质结构文件后点击查看。
阅读原文加入「Uni-Fold 交流群」,与算法开发团队碰撞你的思考。
关于 Bohrium® Apps
Bohrium® Apps 是深势科技通过 MLOps 等新一代开发工具和基础设施,让算法代码可以快速上线为易用的应用,让新想法的验证效率从几个月缩短到几天。 开发者只需简单地修改算法运行入口的 Argument Parser 相关代码,便可以自动生成算法运行所需的丰富用户界面以及完整的 Job 管理运行、用户管理、数据管理、模型管理、性能评估、付费授权和结果可视化等周边全整套功能。
对于 App 用户来说,简单四个步骤提交任务,便可快速返回结果: 1. IO Options:配置输入文件 2. Job Options:设置变量 3. System Options:配置系统级参数 4. Review:所有配置参数的摘要
|