计算化学公社

 找回密码 Forget password
 注册 Register
Views: 3758|回复 Reply: 3
打印 Print 上一主题 Last thread 下一主题 Next thread

[蛋白质建模] Uni-Mol:基于三维结构的分子表征预训练模型(内含案例)

[复制链接 Copy URL]

6

帖子

0

威望

127

eV
积分
133

Level 2 能力者

本帖最后由 farfarcheng 于 2023-6-15 17:20 编辑

定量构效关系(QSAR)模型

定量构效关系(Quantitative Structure-Activity Relationship,QSAR)是一种研究化合物的化学结构与生物活性之间定量关系的方法,是计算机辅助药物设计(Computer-Aided Drug Design, CADD)中最为重要的工具之一。QSAR旨在建立数学模型,构建分子结构与其生化、物化性质关系,帮助药物科学家对新的药物分子的性质开展合理预测。

构建一个有效的QSAR模型涉及到若干步骤:
  • 构建合理的分子表征(Molecular Representation),将分子结构转化为计算机可读的数值表示;
  • 选择适合分子表征的机器学习模型,并使用已有的分子-性质数据训练模型
  • 使用训练好的机器学习模型,对未测定性质的分子进行性质预测


QSAR模型的发展也正是随着分子表征的演进,以及对应机器学习模型的升级而不断变化。


基于三维结构的分子表征预训练模型「Uni-Mol」

在药物研发领域中,QSAR建模面临的一个主要挑战是数据量有限。由于药物活性数据的获取成本高且实验难度大,这导致了标签数据不足的情况。数据量不足会影响模型的预测能力,因为模型可能难以捕捉到足够的信息来描述化合物结构和生物活性之间的关系。面临这种有标签数据不足的情况,在机器学习发展地更为成熟的领域,例如自然语言处理(NLP)和计算机视觉(CV)中,预训练-微调(Pretrain-Finetune)模式已经成为了通用的解决方案。预训练是指在大量无标签数据对模型通过自监督学习进行预先训练,使模型获得一些基本信息和通用能力,然后再在有限的有标签数据上进行监督学习来微调模型,使模型在具体问题上具备特定问题的推理能力。

例如,我想进行猫狗的图片识别,但是我没有很多猫狗的有标签数据。于是我可以先用大量的没有标签的图片预训练模型,先让模型学到点线面轮廓的基本知识,然后再把猫狗图片给模型做有监督训练,这时候,模型可能就能基于轮廓信息,快速学习到什么是猫什么是狗的信息了。

预训练方法可以充分利用大量容易获取的无标签数据的信息,提高模型的泛化能力和预测性能。在QSAR建模中,我们同样可以借鉴预训练的思想来解决数据数量和数据质量问题。

2022 年 5 月,一款开源的 [1] 基于分子三维结构的通用分子表征学习框架 Uni-Mol 正式发表,论文被机器学习顶会 ICLR 2023 接收[2]。与过往的基于一维序列或二维图结构的分子表征框架不同的是,Uni-Mol 直接利用分子三维结构作为模型输入。Uni-Mol 性能优越、模型泛化能力强,在小分子性质预测、蛋白靶点预测、蛋白-配体复合物构象预测、量子化学性质预测、MOF 材料吸附性能预测、OLED 发光材料性能预测等任务上都超越了现有的解决方案。
图|Uni-Mol在下游任务上与原先SOTA的比对

Uni-Mol案例Collections

Uni-Mol 是一个基于 Transformer 开发的深度学习模型,安装环境和部署应用并不容易,这对于想要开展 Uni-Mol 的快速实践,尝试和应用Uni-Mol的使用者来说无疑有着很大的门槛。在这里,我想分享一个Notebook 案例,带大家“手把手”的应用 Uni-Mol 这一强大的工具:「定量构效关系(QSAR)模型从0到1 & Uni-Mol入门实践」

由于 Notebook 较多,我们整理了Uni-Mol Notebooks Collection 并上传至了 Notebook 案例广场,你可以在案例广场通过搜索「Uni-Mol」来快速找到 Uni-Mol 系列 Notebooks。


欢迎关注我们的公众号NBHub,感兴趣的童鞋可以查看原文




11

帖子

0

威望

223

eV
积分
234

Level 3 能力者

2#
发表于 Post on 2023-12-29 14:55:59 | 只看该作者 Only view this author
楼主,https://nb.bohrium.dp.tech/detail/9919429887?utm_source=zhihu,在这个链接上点击【开始连接】,浏览器一直没反应,试了MICROSPDT EDGE,google, 360,都不行。手机的话,可以跳转到镜像选择那儿。这种情况该怎么办?

6

帖子

0

威望

127

eV
积分
133

Level 2 能力者

3#
 楼主 Author| 发表于 Post on 2024-1-3 17:55:51 | 只看该作者 Only view this author
smk 发表于 2023-12-29 14:55
楼主,https://nb.bohrium.dp.tech/detail/9919429887?utm_source=zhihu,在这个链接上点击【开始连接】, ...

我刚刚试了一下,浏览器是可以正常连接的哎,你这边现在还有这种情况嘛?

1

帖子

0

威望

25

eV
积分
26

Level 2 能力者

4#
发表于 Post on 2024-6-9 22:54:34 | 只看该作者 Only view this author
您好,看了您发的unimol的教程,想做一个回归任务,但是我不知道里面的评价指标如何修改?比如交叉熵该改成什么(因为uni-core只有两个选择cross_entropy,masked_lm)?

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2026-2-22 18:24 , Processed in 0.190608 second(s), 29 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list