计算化学公社

标题: 使用MolAICal进行蛋白质-肽分子对接教程—也适用于蛋白质-蛋白质对接 [打印本页]

作者
Author: MolAICal 时间: yesterday 04:21
标题: 使用MolAICal进行蛋白质-肽分子对接教程—也适用于蛋白质-蛋白质对接
本帖最后由 MolAICal 于 2026-1-24 19:15 编辑

由于发帖字数限制-->本教程省略了部分参数，同时对于蛋白-核酸分子对接，详细的教程见：https://molaical.gitlab.io/cntutorial.html 或 https://molaical.github.io/tutorial.html

1. 引言

MolAICal可以使用开源的LightDock并通过MM/GBSA或MM/PBSA方法进一步提高生物大分子对接的准确性。LightDock是一个开源(GPL-3.0许可证)的对接框架，用于蛋白质-蛋白质、蛋白质-肽、蛋白质-RNA和蛋白质-DNA复合物。它特别擅长处理柔性且具有挑战性的案例(例如，瞬时相互作用、低亲和力复合物，或需要主链/侧链柔性的系统)，并作为一个可扩展平台用于测试新的评分函数、约束条件或优化策略。LightDock采用了萤火虫群优化(GSO)算法，这是一种最初为多模态函数优化开发的受生物启发的群体智能方法。本教程使用胰高血糖素样肽-1受体(GLP-1R)和艾塞那肽(exendin-4)(第一个获FDA批准的GLP-1R激动剂)作为示范实例(PDB ID: 7LLL.pdb)。

本教程仅适用于在Linux操作系统上完成！ 只有部分软件可以在Windows上完成。用户可以通过SSH shell或其他工具在Linux和Windows之间传输文件，以便更好地观察运行结果。

2. 材料2.1. 软件需求

1) MolAICal: https://molaical.github.io or https://molaical.gitlab.io

2) NAMD (CPU版本):https://www.ks.uiuc.edu/Research/namd/
(注意: 本教程可以使用NAMD 2.x、3.x或更高版本运行。例如，如果您使用NAMD 3.x版本，命令"namd3"将替代本教程中的命令"namd2"。对于更高版本的NAMD，用户可以使用与前面示例类似的替换方式。)

3) PyMol: https://github.com/cgohlke/pymol-open-source-wheels

4) VMD: https://www.ks.uiuc.edu/Research/vmd

2.2. 示例文件

1) 所有必要的教程文件可从以下网址下载:

https://gitee.com/molaical/tutorials/tree/master/022-protein_pp_docking

3. 操作流程3.1. 分子准备

为了解决Linux中的库依赖问题，Linux版本的MolAICal(Windows 版本的MolAICal没有采用容器)采用了基于容器的方法。如果需要调用外部程序，建议在MolAICal容器内安装这些程序。如果不需要外部程序，可以忽略此步骤。本教程需要外部程序NAMD和VMD，具体步骤如下：

1. 首先，将文件复制到MolAICal 容器中

# 进入容器文件系统（将进入 "/root" 目录）
#> molaical.exe -eset shell in
# 将 VMD 和 NAMD 安装包从本地机器复制到容器中，'cp' 命令的第一部分（源路径）位于本地主机，第二部分（目标路径）在容器内；VMD 和 NAMD 软件包可通过以下命令移入容器。
#> cp /home/user/<本地文件> /root/soft
# 退出容器文件系统
#> exit

复制代码

2. 其次，进入 MolAICal 容器的虚拟环境

#> molaical.exe -eset sys run molaical

复制代码

注：molaical 是容器名称。

3. 在MolAICal 容器虚拟环境中安装软件的方式与在本地主机上安装相同。以下以安装 VMD 和 NAMD 为例：

1) 安装 NAMD：

解压NAMD 文件（假设解压后的文件夹名为 namdcpu），然后使用以下命令将其路径告知MolAICal：

#> molaical.exe -call set -n NAMD -p "/root/soft/namdcpu/namd3"

复制代码

注：请将上述 VMD 和 NAMD 的路径替换为您系统中的实际路径。-n 后面的 "VMD" 和 "NAMD"（大小写不敏感）是固定的标识符。为确保MM/GBSA 结果的可重复性，建议使用 NAMD 的 CPU版本，因为CUDA 版本中的 seed 参数似乎对结果可重复性无效。

2) 安装 VMD：

按以下步骤操作：

解压 VMD 文件：

#> tar -xzvf vmd-xxx.tar.gz

复制代码

注：请将上述路径替换为您系统中的实际路径。

修改 VMD 解压目录中名为configure的文件中的安装路径：

# 默认值：
$install_bin_dir="/usr/local/bin";
$install_library_dir="/usr/local/lib/$install_name";
# 修改为：
$install_bin_dir="/root/soft/vmd193/bin";
$install_library_dir="/root/soft/vmd193/lib/$install_name";

复制代码

安装 VMD：

#> cd vmd-xxx
#> ./configure LINUXAMD64
#> cd src
#> make install

复制代码

注：请运行 ./configure 并根据所用计算机选择正确的类型，此处为 "LINUXAMD64"。

然后使用以下命令将 VMD 路径告知 MolAICal：

#> molaical.exe -call set -n VMD -p "/root/soft/vmd193/bin/vmd"

复制代码

至此，NAMD和 VMD在MolAICal 容器内的安装与配置已完成。为防止MolAICal出现问题时丢失已安装的程序（例如VMD和NAMD），请参阅附录1中的第3步。

4. 记得使用exit命令退出MolAICal虚拟环境，返回本地计算机进行计算（主要是为了省去拷贝文件的步骤，在容器内运行也行，但需要从本地计算机向MolAICal容器中拷贝数据。）

#> exit

复制代码

假设用户已使用以下说明在MolAICal中配置了VMD和NAMD的内部命令:

<blockquote>#> molaical.exe -call set -n VMD -p "/root/soft/vmd193/bin/vmd"

复制代码

注意: 请将上面VMD和NAMD的路径替换为用户系统上的实际路径。"-n"后面的字符串"VMD"和"NAMD"(不区分大小写)对于VMD和NAMD的路径是固定的。为了确保MM/GBSA结果的可重现性，建议使用NAMD的CPU版本，因为在NAMD的CUDA版本中，"seed"参数对可重现性似乎无效。请注意，Windows版与Linux版的MolAICal配置存在差异：Linux版本采用基于udocker容器的技术方案，需在容器内部完成设置，而Windows版本则无需此步骤。

打开教程材料文件夹"022-protein_pp_docking":

#> cd 022-protein_pp_docking

复制代码

运行群体（swarm）生成的设置(添加参数: -membrane):

#> molaical.exe -call run -c ldock -i lightdock3_setup.py mempro.pdb P_peptide.pdb -membrane --noxt --noh --now -sp -rst restraints.list

复制代码

注意:-transmembrane:参数"–transmembrane"具有与"–membrane"相反的功能。启用时，此标志考虑受体伙伴沿Z轴对齐，并过滤掉不在膜内的群体。

3.4. 分子对接模拟

其次，运行模拟:

#> molaical.exe -call run -c ldock -i lightdock3.py setup.json 100 -s fastdfire -c 12 -min

复制代码

'-call': 与外部程序或命令交互。其值可以是'set'或'run'。'set'表示设置外部程序的环境，包括名称和路径。'run'表示调用外部程序，可以从设置的环境文件中搜索程序的路径。
-c: 如果其值为"ldock"，它将通过调用"LightDock"运行分子对接(蛋白质-蛋白质、蛋白质-肽、蛋白质-DNA或蛋白质-RNA)。
"lightdock3.py"后的第一个和第二个参数分别是设置步骤生成的配置文件和模拟的步数(这里是100步)。
-s，SCORING_FUNCTION: 使用此标志的默认评分函数(DFIRE，快速C实现fastdfire)。接受评分函数的名称或包含多个评分函数名称和权重的文件。
-c，CORES: 默认情况下，使用硬件上可用的CPU核心总数来运行模拟，但可以通过此选项指定不同数量的CPU核心。
-min: 启用时，-min 选项将使用 SciPy 的 scipy.optimize.fmin_powell 算法，在‌每个群优化步骤中对最高分粒子执行局部最小化。

3.5. 生成模型、聚类、排名和过滤

模拟完成后，MolAICal调用脚本生成模型、聚类、排名和过滤结果，如下所示:

#> molaical.exe -call run -c sfile -i lrank.sh 1::=mempro.pdb 2::=P_peptide.pdb 3::=R 4::=P 5::=15 6::=restraints.list 13::=0.7

复制代码

'-call': 与外部程序或命令交互。其值可以是'set'或'run'。'set'表示设置外部程序的环境，包括名称和路径。'run'表示调用外部程序，可以从设置的环境文件中搜索程序的路径。
'::=': 这里，它用于按指定顺序为参数赋值。
'-c':如果其值为"sfile"，它将运行MolAICal的VMD脚本。
'1::=': 这是第一个输入分子(受体)的路径。必需参数。
'2::=': 这是第二个输入分子(配体)的路径。必需参数。
'3::=': 受体伙伴(第一个分子)上的链。默认值是'R'。
'4::=': 配体伙伴(第二个分子)上的链。默认值是'P'。
'5::=': 使用的CPU核心数。默认值是12。
'6::=':包含约束的文件。默认值是'restraints.list'。
'13::=': 过滤步骤中至少具有此分数的原生接触的结构。默认值是0.4。为了识别与受体活性位点中更多关键残基结合的配体，此处将约束比例设置为0.7。
其他参数使用默认值。更多信息，请参见MolAICal手册。

聚类和过滤过程完成后，将生成一个名为"filtered"的新目录。该目录保存所有符合默认70%过滤标准的预测结构。在其中，将找到一个名为"rank_filtered.list"的文件，该文件根据LightDock DFIRE(fastdfire)分数对这些结构进行排名，其中更高(更正)的分数表示更好的排名。

表1

Name	Score	Percentages
swarm_75_173.pdb	31.008	0.714
swarm_60_55.pdb	30.682	0.786
s_swarm_22_3.pdb	25.149	0.400
swarm_97_172.pdb	19.769	0.786

注意: 与> 13::=0.7对应的百分比通过len(contacts_receptor& restraints_receptor) + len(contacts_ligand & restraints_ligand) /(len(restraints_receptor) + len(restraints_ligand))计算。分子命名格式：swarm_{id_swarm}_{id_glowworm}.pdb，其中："id_swarm" 对应"setup"阶段生成的swarm文件夹名称；"id_glowworm" 指该swarm文件夹内PDB格式的分子名称。

将"R_P_complex.pdb"(天然结合构象)和表1中的分子加载到PyMol中，将"R_P_complex.pdb"与所需的分子对齐(对齐方法见图 1)。对接姿势明显重现了与参考结构("R_P_complex.pdb")的结构相似性。

表1显示了对接结果的分数。表1中的"s_swarm_22_3.pdb"候选化合物通过膜插入深度的变化生成，作为本教程中比较分析的案例。

此外，用户可以将最佳的一个或指定排名靠前的一些分子放入新文件夹"filtered/candidates"，命令如下:

#> molaical.exe -call run -c sfile -i mrank.py -ft 1

复制代码

-t: 复制到候选者的顶部分子数量(默认: 0)

(, 下载次数 Times of downloads: 0)

图 1

3.6. 用于进一步优化的MM/GBSA计算

MolAICal计算MM/GBSA和MM/PBSA结合自由能。根据文献证据和经验验证，MM/GBSA在蛋白质-蛋白质和蛋白质-配体对接系统中表现出优于MM/PBSA的性能。然而，这并不意味着MM/GBSA在所有系统中都普遍优于MM/PBSA。我们建议研究人员根据其特定的生物分子系统和计算目标选择最佳方法。在这里，工作流程采用MM/GBSA计算对接姿势的结合亲和力，天然复合物结构'R_P_complex.pdb'作为比较MM/GBSA计算中的基准参考。

#> molaical.exe -call run -c sfile -i mmgbpbsa_batch.sh 1::=R 2::=P

复制代码

'-call': 与外部程序或命令交互。其值可以是'set'或'run'。'set'表示设置外部程序的环境，包括名称和路径。'run'表示调用外部程序，可以从设置的环境文件中搜索程序的路径。
'::=': 这里，它用于按指定顺序为参数赋值。
'-c':如果其值为"sfile"，它将运行MolAICal的VMD脚本。
'1::=': 第一个分子的链。默认值是'R'。
'2::=': 第二个分子的链。默认值是'P'。
其他参数使用默认值。更多信息，请参见MolAICal手册。

注意：

1）首次运行时将自动生成参数文件"cal_mmgbpbsa.sh"。若该文件已存在，‌后续运行不会覆盖‌，以目录中现有版本为准。用户可自定义 "cal_mmgbpbsa.sh" 中的参数，此脚本遵循 MolAICal 格式，支持‌逐行批量执行MolAICal 命令‌（命令行通常以 molaical.exe 开头）

2）MolAICal目前仅支持标准蛋白质残基和核酸的MM/GBSA与MM/PBSA自动计算。对于小分子和非标准氨基酸，需额外使用CHARMM力场，可通过修改目录中的"cal_mmgbpbsa.sh"脚本并添加"-top"和"-ff"等参数实现。同时，如果需要MM/PBSA计算，修改"cal_mmgbpbsa.sh"第5行的注释即可切换到MM/PBSA的计算。更多细节请参考MolAICal手册及对应的MM/GBSA和/MM/PBSA教程。

对'./mmgbpbsa/candidates'中的所需分子进行排名或提取，命令如下:

1. 仅打印MM/GB/PBSA的排名结果

#>molaical.exe -call run -c sfile -i mrank.py

复制代码

2. 将结果排名靠前的2个分子复制到'./mmgbpbsa/candidates'

#> molaical.exe -call run -c sfile -i mrank.py -t 2

复制代码

-t: 复制到候选者的顶部分子数量(默认: 0)

它将显示如下结果:

Name G_binding (kcal/mol) ± SE SD

-------------------------------------------------------------------------------------------------------------------------

R_P_complex.pdb -48.4655 +/- 0.0140 0.0989

swarm_97_172.pdb -37.9548 +/- 0.0408 0.2884

swarm_60_55.pdb -37.1118 +/- 0.0227 0.1605

swarm_75_173.pdb -36.8318 +/- 0.0047 0.0334

s_swarm_22_3.pdb -11.4960 +/- 0.0164 0.1163

在一般情况下，G_binding的值越负越好。"R_P_complex.pdb"是天然构象。这表明MM/GBSA是评估两个分子之间结合亲和力的良好方法。

注意：本教程提供详细的多步骤指导，‌主要用于教学目的‌。教程中的步骤已更新，但示例结果未同步刷新；若你的输出与教程不同，以你的实际结果为准。

若程序被异常终止（例如通过键盘快捷键 "Ctrl+C" 或其他非标准方式），大量残留进程将持续失控运行。为解决此问题，用户可执行以下命令，删除当前目录下所有关联进程：

#> molaical.exe -eset pdclean

复制代码

重要提示：

重复执行：需多次运行此命令以确保彻底清除相关进程。
严重警告：该操作会同时终止同目录下其他正在运行的程序进程。
执行前必须严格验证：
若当前目录存在多个运行中的程序，须明确确认哪些目录关联进程可安全删除。
切勿在共享目录/生产环境目录中执行此命令，除非经过充分风险评估与明确验证。

欢迎光临计算化学公社 (http://bbs.keinsci.com/)