计算化学公社

 找回密码 Forget password
 注册 Register
Views: 11586|回复 Reply: 8
打印 Print 上一主题 Last thread 下一主题 Next thread

[其它程序] 使用MolAICal进行药物的QSAR计算

[复制链接 Copy URL]

63

帖子

7

威望

728

eV
积分
931

Level 4 (黑子)

本帖最后由 MolAICal 于 2020-9-1 01:05 编辑

使用MolAICal进行药物的QSAR计算


更多教程(含英文教程)请见如下:
MolAICal官方主页:https://molaical.github.io
MolAICal 文章介绍:https://doi.org/10.1093/bib/bbaa161
MolAICal blogspot:https://qblab.blogspot.com

1.简介
药物的定量构象关系(QSAR)包含线性回归和分类,在本教程中选用STAT3蛋白靶点的药物分子作为研究对象;STAT3是治疗癌症的一个重要蛋白靶点,研究STAT3药物的属性,有助于设计合理的抗癌药物。

2.工具
2.1. 所需软件
注意:除了用DRAGON算药物分子的描述符外,DRAGON属于商业软件,你可以使用任何合适的软件算分子的描述符。
2.2. 操作所需的示例文件
1)本教程所需的教程文件可以从以下网址下载:  

3.步骤
3.1. 计算分子描述符
1) 打开DRAGON软件,然后在文件夹“006-QSAR/ligands”中导入配体文件(如图1所示),本教程的配体文件是.hin格式的文件,.hin格式的文件是经过HyperChem软件优化过后的默认文件格式。你也可以优化自己的配体分子,然后保存成Sybyl Mol2格式的文件用于进一步的计算。
1. 使用DRAGON计算分子描述符

注意:你可以在这个数据库中检索蛋白受体的配体分子: www.guidetopharmacology.org等。

2) 将药物分子描述符保存并命名为“QSARMolDes.txt” (如图2所示)
2. 保存并命名文件为“QSARMolDes.txt”

3) 使用Excel打开“QSARMolDes.txt”文件并设置相关参数(如图3所示)。
3. Excel中设置QSAR的参数

你必须在“QSARMolDes.txt”中严格按照格式设置参数,在第二行的第一个数字是用于QSAR计算的配体分子数;在第三行上的字符“on”代表指定了训练集和验证集,第四行是训练集的序号,第五行是验证集的序号,此序号对应文件“QSARMolDes.txt”底下配体的序号(如图3所示)。如果第三行是”off”,则使用留一验证法(LOO)进行QSAR的计算,在这种情况下,第四、五行的数字可以省略,MolAICal自动使用留一法指定训练集与验证集进行运算(请参考示例文件:“QSARMolDes_LOO.txt”)。除此之外,实验值如pKd等应该加到第三列中(如图3所示)

3.2. QSAR计算
运行如下命令:
#> molaical.exe -qsar GA -i QSARMolDes.txt
#> molaical.exe -qsar GA -i QSARMolDes_LOO.txt

假如你想了解更多的QSAR参数,请参考MolAICal的说明书。本教程仅仅包括10个配体。当Q2的运算值已经满足你的研究目的,你可以通过“Ctrl + C”快捷键终止MolAICal的运行。最后的结果保存在“QSAROutFile.dat”文件中,打开“QSAROutFile.dat”,其具体运算结果的信息如下:

评分 Rate

参与人数
Participants 2
威望 +1 eV +4 收起 理由
Reason
一个用户名 + 4 好物!
sobereva + 1

查看全部评分 View all ratings

28

帖子

3

威望

832

eV
积分
920

Level 4 (黑子)

2#
发表于 Post on 2020-8-31 10:25:40 | 只看该作者 Only view this author
pKd就是要回归的Y值?hyperchem的分子文件格式应该为hin而非bin,软件在参数筛选算法上只有遗传算法吗?能否考虑加入其它算法,比如深度神经网络,XGboost等等?

28

帖子

3

威望

832

eV
积分
920

Level 4 (黑子)

3#
发表于 Post on 2020-8-31 10:30:20 | 只看该作者 Only view this author
另外DRAGON是商业软件,国内购买的人不是多,软件到7.0之后,已经停止开发了。“Dragon has been discontinued. If you currently own a Dragon license and need technical support, please contact us at the chm@kode-solutions.net email address.”,楼主认为哪些开源软件在计算分子描述符方面比较好用?

63

帖子

7

威望

728

eV
积分
931

Level 4 (黑子)

4#
 楼主 Author| 发表于 Post on 2020-9-1 00:19:33 | 只看该作者 Only view this author
本帖最后由 MolAICal 于 2020-9-1 00:31 编辑
comboy2008 发表于 2020-8-31 10:25
pKd就是要回归的Y值?hyperchem的分子文件格式应该为hin而非bin,软件在参数筛选算法上只有遗传算法吗?能 ...

谢谢提醒,准备修改,后期会加入各种算法,谢谢建议。目前DRAGON很不错,虽然停止开发了。可用的有 PaDEL-descriptor,shrodinger等,很多性质可以自己算。

63

帖子

7

威望

728

eV
积分
931

Level 4 (黑子)

5#
 楼主 Author| 发表于 Post on 2020-9-1 00:22:49 | 只看该作者 Only view this author
comboy2008 发表于 2020-8-31 10:25
pKd就是要回归的Y值?hyperchem的分子文件格式应该为hin而非bin,软件在参数筛选算法上只有遗传算法吗?能 ...

是,pkd就是要回归的Y值

29

帖子

0

威望

284

eV
积分
313

Level 3 能力者

6#
发表于 Post on 2022-1-5 20:07:13 | 只看该作者 Only view this author
你好,我在使用MolAICal进行QSAR建模时,发现拟合结果无法重复。如图,MolAICal显示拟合结果良好

然而,我自行将分子的数据代入线性模型后,发现拟合效果非常不佳

请问这种情况如何解决呢?谢谢!输入文件和模型输出文件如下
descriptors-v1-DRAGON.txt (269.19 KB, 下载次数 Times of downloads: 3) QSAROutFile-1.5.dat (11.82 KB, 下载次数 Times of downloads: 2)

63

帖子

7

威望

728

eV
积分
931

Level 4 (黑子)

7#
 楼主 Author| 发表于 Post on 2022-1-6 15:36:47 | 只看该作者 Only view this author
本帖最后由 MolAICal 于 2022-1-6 15:55 编辑
一个用户名 发表于 2022-1-5 20:07
你好,我在使用MolAICal进行QSAR建模时,发现拟合结果无法重复。如图,MolAICal显示拟合结果良好

然而, ...

您好!您的意思是,用A数据集进行训练,然后在用A数据集通过QSAR的线性模型计算A数据集的活性,然后对不上A数据集原始的活性值吗?

如果是:首先,QSAR模型预测A数据集的值跟真实值有一定的差距,同时,你还要把Q^2这个值训练到 >0.8,甚至 > 0.9,才会预测更好。

其次,QSAR和目前的深度学习,特别依赖数据集,如果你已有非训练集、验证集和测试集的数据,想进行测试,可以少量放入QSAR中进行拟合,然后在进行泛化推广。。不然使用其它数据集,它可能跟你目前想测的数据集性质不同,而导致模型泛化能力很差



29

帖子

0

威望

284

eV
积分
313

Level 3 能力者

8#
发表于 Post on 2022-1-20 00:15:16 | 只看该作者 Only view this author
MolAICal 发表于 2022-1-6 15:36
您好!您的意思是,用A数据集进行训练,然后在用A数据集通过QSAR的线性模型计算A数据集的活性,然后对不 ...

感谢回复!经过测试,我发现是分子活性的列名中有空格,因此在读入数据的时候出现了窜列的问题,将列名中的空格删除后就一切正常了。不过我觉得,MolAICal将空格也识别为分隔符可能是不太合适的,所以我建议读入时只将制表符视作分隔符,您可以考虑一下。

63

帖子

7

威望

728

eV
积分
931

Level 4 (黑子)

9#
 楼主 Author| 发表于 Post on 2022-1-20 11:25:04 | 只看该作者 Only view this author
一个用户名 发表于 2022-1-20 00:15
感谢回复!经过测试,我发现是分子活性的列名中有空格,因此在读入数据的时候出现了窜列的问题,将列名中 ...

好的,感谢建议。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 15:09 , Processed in 0.193504 second(s), 25 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list