计算化学公社
标题: 使用MolAICal进行药物的QSAR计算 [打印本页]
作者Author: MolAICal 时间: 2020-8-12 20:18
标题: 使用MolAICal进行药物的QSAR计算
本帖最后由 MolAICal 于 2020-9-1 01:05 编辑
使用MolAICal进行药物的QSAR计算
更多教程(含英文教程)请见如下:
1.简介
药物的定量构象关系(QSAR)包含线性回归和分类,在本教程中选用STAT3蛋白靶点的药物分子作为研究对象;STAT3是治疗癌症的一个重要蛋白靶点,研究STAT3药物的属性,有助于设计合理的抗癌药物。
2.工具
2.1. 所需软件
注意:除了用DRAGON算药物分子的描述符外,DRAGON属于商业软件,你可以使用任何合适的软件算分子的描述符。
2.2. 操作所需的示例文件
1)本教程所需的教程文件可以从以下网址下载:
3.步骤
3.1. 计算分子描述符
1) 打开DRAGON软件,然后在文件夹“006-QSAR/ligands”中导入配体文件(如图1所示),本教程的配体文件是.hin格式的文件,.hin格式的文件是经过HyperChem软件优化过后的默认文件格式。你也可以优化自己的配体分子,然后保存成Sybyl Mol2格式的文件用于进一步的计算。
(, 下载次数 Times of downloads: 39)
图1. 使用DRAGON计算分子描述符
2) 将药物分子描述符保存并命名为“QSARMolDes.txt” (如图2所示)。
(, 下载次数 Times of downloads: 60)
图2. 保存并命名文件为“QSARMolDes.txt”
3) 使用Excel打开“QSARMolDes.txt”文件并设置相关参数(如图3所示)。
(, 下载次数 Times of downloads: 51)
图3. 在Excel中设置QSAR的参数
你必须在“QSARMolDes.txt”中严格按照格式设置参数,在第二行的第一个数字是用于QSAR计算的配体分子数;在第三行上的字符“on”代表指定了训练集和验证集,第四行是训练集的序号,第五行是验证集的序号,此序号对应文件“QSARMolDes.txt”底下配体的序号(如图3所示)。如果第三行是”off”,则使用留一验证法(LOO)进行QSAR的计算,在这种情况下,第四、五行的数字可以省略,MolAICal自动使用留一法指定训练集与验证集进行运算(请参考示例文件:“QSARMolDes_LOO.txt”)。除此之外,实验值如pKd等应该加到第三列中(如图3所示)
3.2. QSAR计算
运行如下命令:
#> molaical.exe -qsar GA -i QSARMolDes.txt
或
#> molaical.exe -qsar GA -i QSARMolDes_LOO.txt
假如你想了解更多的QSAR参数,请参考MolAICal的说明书。本教程仅仅包括10个配体。当Q2的运算值已经满足你的研究目的,你可以通过“Ctrl + C”快捷键终止MolAICal的运行。最后的结果保存在“QSAROutFile.dat”文件中,打开“QSAROutFile.dat”,其具体运算结果的信息如下:
(, 下载次数 Times of downloads: 50)
作者Author: comboy2008 时间: 2020-8-31 10:25
pKd就是要回归的Y值?hyperchem的分子文件格式应该为hin而非bin,软件在参数筛选算法上只有遗传算法吗?能否考虑加入其它算法,比如深度神经网络,XGboost等等?
作者Author: comboy2008 时间: 2020-8-31 10:30
另外DRAGON是商业软件,国内购买的人不是多,软件到7.0之后,已经停止开发了。“Dragon has been discontinued. If you currently own a Dragon license and need technical support, please contact us at the chm@kode-solutions.net email address.”,楼主认为哪些开源软件在计算分子描述符方面比较好用?
作者Author: MolAICal 时间: 2020-9-1 00:19
本帖最后由 MolAICal 于 2020-9-1 00:31 编辑
谢谢提醒,准备修改,后期会加入各种算法,谢谢建议。目前DRAGON很不错,虽然停止开发了。可用的有 PaDEL-descriptor,shrodinger等,很多性质可以自己算。
作者Author: MolAICal 时间: 2020-9-1 00:22
是,pkd就是要回归的Y值
作者Author: 一个用户名 时间: 2022-1-5 20:07
你好,我在使用MolAICal进行QSAR建模时,发现拟合结果无法重复。如图,MolAICal显示拟合结果良好
(, 下载次数 Times of downloads: 37)
然而,我自行将分子的数据代入线性模型后,发现拟合效果非常不佳
(, 下载次数 Times of downloads: 30)
请问这种情况如何解决呢?谢谢!输入文件和模型输出文件如下
(, 下载次数 Times of downloads: 3)
(, 下载次数 Times of downloads: 2)
作者Author: MolAICal 时间: 2022-1-6 15:36
本帖最后由 MolAICal 于 2022-1-6 15:55 编辑
您好!您的意思是,用A数据集进行训练,然后在用A数据集通过QSAR的线性模型计算A数据集的活性,然后对不上A数据集原始的活性值吗?
如果是:首先,QSAR模型预测A数据集的值跟真实值有一定的差距,同时,你还要把Q^2这个值训练到 >0.8,甚至 > 0.9,才会预测更好。
其次,QSAR和目前的深度学习,特别依赖数据集,如果你已有非训练集、验证集和测试集的数据,想进行测试,可以少量放入QSAR中进行拟合,然后在进行泛化推广。。不然使用其它数据集,它可能跟你目前想测的数据集性质不同,而导致模型泛化能力很差
作者Author: 一个用户名 时间: 2022-1-20 00:15
感谢回复!经过测试,我发现是分子活性的列名中有空格,因此在读入数据的时候出现了窜列的问题,将列名中的空格删除后就一切正常了。不过我觉得,MolAICal将空格也识别为分隔符可能是不太合适的,所以我建议读入时只将制表符视作分隔符,您可以考虑一下。
作者Author: MolAICal 时间: 2022-1-20 11:25
好的,感谢建议。
欢迎光临 计算化学公社 (http://bbs.keinsci.com/) |
Powered by Discuz! X3.3 |