计算化学公社

标题: 使用MolAICal进行药物的QSAR计算 [打印本页]

作者
Author: MolAICal 时间: 2020-8-12 20:18
标题: 使用MolAICal进行药物的QSAR计算
本帖最后由 MolAICal 于 2020-9-1 01:05 编辑

使用MolAICal进行药物的QSAR计算

更多教程（含英文教程）请见如下：

MolAICal官方主页：https://molaical.github.io

MolAICal 文章介绍：https://doi.org/10.1093/bib/bbaa161

MolAICal中文博客：https://molaical.github.io/cntutorial.html

MolAICal blogspot：https://qblab.blogspot.com

1.简介

药物的定量构象关系(QSAR)包含线性回归和分类，在本教程中选用STAT3蛋白靶点的药物分子作为研究对象；STAT3是治疗癌症的一个重要蛋白靶点，研究STAT3药物的属性，有助于设计合理的抗癌药物。

2.工具

2.1. 所需软件

1)MolAICal: https://molaical.github.io

2)DRAGON: http://www.talete.mi.it/index.htm

注意：除了用DRAGON算药物分子的描述符外，DRAGON属于商业软件，你可以使用任何合适的软件算分子的描述符。

2.2. 操作所需的示例文件

1)本教程所需的教程文件可以从以下网址下载:

https://github.com/MolAICal/tutorials/tree/master/006-QSAR

3.步骤

3.1. 计算分子描述符

1) 打开DRAGON软件，然后在文件夹“006-QSAR/ligands”中导入配体文件（如图1所示），本教程的配体文件是.hin格式的文件，.hin格式的文件是经过HyperChem软件优化过后的默认文件格式。你也可以优化自己的配体分子，然后保存成Sybyl Mol2格式的文件用于进一步的计算。

(, 下载次数 Times of downloads: 69)

图1. 使用DRAGON计算分子描述符

注意：你可以在这个数据库中检索蛋白受体的配体分子: www.guidetopharmacology.org等。

2) 将药物分子描述符保存并命名为“QSARMolDes.txt” (如图2所示)。

(, 下载次数 Times of downloads: 90)

图2. 保存并命名文件为“QSARMolDes.txt”

3) 使用Excel打开“QSARMolDes.txt”文件并设置相关参数（如图3所示）。

(, 下载次数 Times of downloads: 83)

图3. 在Excel中设置QSAR的参数

你必须在“QSARMolDes.txt”中严格按照格式设置参数，在第二行的第一个数字是用于QSAR计算的配体分子数；在第三行上的字符“on”代表指定了训练集和验证集，第四行是训练集的序号，第五行是验证集的序号，此序号对应文件“QSARMolDes.txt”底下配体的序号（如图3所示）。如果第三行是”off”，则使用留一验证法（LOO）进行QSAR的计算，在这种情况下，第四、五行的数字可以省略，MolAICal自动使用留一法指定训练集与验证集进行运算（请参考示例文件：“QSARMolDes_LOO.txt”）。除此之外，实验值如pKd等应该加到第三列中（如图3所示）

3.2. QSAR计算

运行如下命令:

#> molaical.exe -qsar GA -i QSARMolDes.txt

或

#> molaical.exe -qsar GA -i QSARMolDes_LOO.txt

假如你想了解更多的QSAR参数，请参考MolAICal的说明书。本教程仅仅包括10个配体。当Q2的运算值已经满足你的研究目的，你可以通过“Ctrl + C”快捷键终止MolAICal的运行。最后的结果保存在“QSAROutFile.dat”文件中，打开“QSAROutFile.dat”，其具体运算结果的信息如下：

(, 下载次数 Times of downloads: 79)

作者
Author: comboy2008 时间: 2020-8-31 10:25
pKd就是要回归的Y值？hyperchem的分子文件格式应该为hin而非bin，软件在参数筛选算法上只有遗传算法吗？能否考虑加入其它算法，比如深度神经网络，XGboost等等？

作者
Author: comboy2008 时间: 2020-8-31 10:30
另外DRAGON是商业软件，国内购买的人不是多，软件到7.0之后，已经停止开发了。“Dragon has been discontinued. If you currently own a Dragon license and need technical support, please contact us at the chm@kode-solutions.net email address.”，楼主认为哪些开源软件在计算分子描述符方面比较好用？

作者
Author: MolAICal 时间: 2020-9-1 00:19
本帖最后由 MolAICal 于 2020-9-1 00:31 编辑

comboy2008 发表于 2020-8-31 10:25
pKd就是要回归的Y值？hyperchem的分子文件格式应该为hin而非bin，软件在参数筛选算法上只有遗传算法吗？能 ...

谢谢提醒，准备修改，后期会加入各种算法，谢谢建议。目前DRAGON很不错，虽然停止开发了。可用的有 PaDEL-descriptor，shrodinger等，很多性质可以自己算。

作者
Author: MolAICal 时间: 2020-9-1 00:22

comboy2008 发表于 2020-8-31 10:25
pKd就是要回归的Y值？hyperchem的分子文件格式应该为hin而非bin，软件在参数筛选算法上只有遗传算法吗？能 ...

是，pkd就是要回归的Y值

作者
Author: 一个用户名 时间: 2022-1-5 20:07
你好，我在使用MolAICal进行QSAR建模时，发现拟合结果无法重复。如图，MolAICal显示拟合结果良好
(, 下载次数 Times of downloads: 72)
然而，我自行将分子的数据代入线性模型后，发现拟合效果非常不佳
(, 下载次数 Times of downloads: 66)
请问这种情况如何解决呢？谢谢！输入文件和模型输出文件如下
(, 下载次数 Times of downloads: 5) (, 下载次数 Times of downloads: 3)

作者
Author: MolAICal 时间: 2022-1-6 15:36
本帖最后由 MolAICal 于 2022-1-6 15:55 编辑

一个用户名发表于 2022-1-5 20:07
你好，我在使用MolAICal进行QSAR建模时，发现拟合结果无法重复。如图，MolAICal显示拟合结果良好

然而， ...

您好！您的意思是，用A数据集进行训练，然后在用A数据集通过QSAR的线性模型计算A数据集的活性，然后对不上A数据集原始的活性值吗？

如果是：首先，QSAR模型预测A数据集的值跟真实值有一定的差距，同时，你还要把Q^2这个值训练到 >0.8，甚至 > 0.9，才会预测更好。

其次，QSAR和目前的深度学习，特别依赖数据集，如果你已有非训练集、验证集和测试集的数据，想进行测试，可以少量放入QSAR中进行拟合，然后在进行泛化推广。。不然使用其它数据集，它可能跟你目前想测的数据集性质不同，而导致模型泛化能力很差

作者
Author: 一个用户名 时间: 2022-1-20 00:15

MolAICal 发表于 2022-1-6 15:36
您好！您的意思是，用A数据集进行训练，然后在用A数据集通过QSAR的线性模型计算A数据集的活性，然后对不 ...

感谢回复！经过测试，我发现是分子活性的列名中有空格，因此在读入数据的时候出现了窜列的问题，将列名中的空格删除后就一切正常了。不过我觉得，MolAICal将空格也识别为分隔符可能是不太合适的，所以我建议读入时只将制表符视作分隔符，您可以考虑一下。

作者
Author: MolAICal 时间: 2022-1-20 11:25

一个用户名发表于 2022-1-20 00:15
感谢回复！经过测试，我发现是分子活性的列名中有空格，因此在读入数据的时候出现了窜列的问题，将列名中 ...

好的，感谢建议。

欢迎光临计算化学公社 (http://bbs.keinsci.com/)