计算化学公社

标题: 对Sober老师帖子《将多帧xyz文件转化成量子化学输入文件的工具：xyz2QC》的小小质疑 [打印本页]

作者
Author: ReviewReview 时间: 2022-6-8 19:38
标题: 对Sober老师帖子《将多帧xyz文件转化成量子化学输入文件的工具：xyz2QC》的小小质疑
本帖最后由 ReviewReview 于 2022-6-8 19:39 编辑

Lu老师和各位小伙伴们：
   你们好！
   最近在一个专门搞计算的师妹的搀扶下学习用Molclus进行构象搜索。在她的极力推荐下我仔细阅读了Sober老师的帖子《使用molclus程序做团簇构型搜索和分子构象搜索》及其子帖《将多帧xyz文件转化成量子化学输入文件的工具：xyz2QC》。读毕，尤其是在读完子帖《将多帧xyz文件转化成量子化学输入文件的工具：xyz2QC》后我对Sober老师为我们这些买不起自己服务器的可怜超算用户体贴入微/量身打造的xyz2QC工具表达由衷的感激和敬畏。
   然而哈佛大学的校训如是说道"Amicus Plato, Amicus Aristotle, Sed Magis Amicus VERITAS"，中文大概意思就是"与柏拉图为友，与亚里士多德为友，更与真理为友。"，这句话深深影响着我。接下来，我准备按照Sober老师帖子中的步骤开工计算时，心中突然产生一丝担忧。担忧如下：
   在子帖《将多帧xyz文件转化成量子化学输入文件的工具：xyz2QC》中，
   前言部分Sober老师写道: "笔者开发的免费的做构象搜索和团簇构型搜索的Molclus程序已经有很多人在用了，介绍和下载见官网http://www.keinsci.com/research/molclus.html。Molclus做搜索过程一般流程是先用十分廉价但粗糙的级别（如调用Openbabel跑MMFF94、调用xtb跑GFN-xTB）做结构优化和初步筛选，将其中能量最低的、为数不多的一批体系保留，最后再调用量子化学程序用更准确的方法算能量或做进一步优化。在整个过程中，初筛的耗时很低，在个人计算机上跑也没有任何压力，而最后对为数不多的筛出来的体系进一步做DFT/后HF量子化学计算才是占整个搜索过程的大头，才是真正有必要弄到超算上跑的（对于那些没有自己的像样的服务器的人而言）。然而，在超算上，计算任务一般是以提交方式进行的，而molclus这样自动调用其它程序去运行的方式在超算上不方便使用。为了解决这个矛盾，本文介绍笔者开发的xyz2QC程序。xyz2QC作为Molclus程序（1.7版及之后）的一个子程序发布，在Molclus压缩包里就可以找到。"；
   例子部分Sober老师写道: "假设我们之前用molclus对某个有机分子在粗糙的半经验方法PM7下做了批量优化，并用isostat做了处理，得到了按照能量排序后的cluster.xyz文件（可以这里下载：http://sobereva.com/attach/472/cluster.xyz）。这里我们想把其中能量最低的三个转化成.gjf文件，之后弄到超算/服务器上算更准确的能量，"。
   读到这里，我心里清楚这是Sober老师是为我们这些贫穷的超算用户想出来的一个折衷妥协策略，但是事实上PM7是属于精度很低的方法，用这个方法算出来的不准确的能量再用isotat去排序，那么排出来的这个能量大小排行榜的可信度也会有问题吧？
   学生万分渴望您的答复！

作者
Author: granvia 时间: 2022-6-8 19:55
“PM7是属于精度很低的方法”这句话有些不客观公正，取决于具体处理的问题类型和具体应用体系。比如对于常见有机分子的相对能量和几何结构，PM7还是较为可靠的，毕竟作为老牌的量化方法，半经验方法是根据实验结果来拟合优化的参数，在其适用范围内是让人满意的

作者
Author: ReviewReview 时间: 2022-6-8 20:28

granvia 发表于 2022-6-8 19:55
“PM7是属于精度很低的方法”这句话有些不客观公正，取决于具体处理的问题类型和具体应用体系。比如对于常 ...

哦哦，其实我在使用"较低"还是"很低"来形容其精度时，有纠结过该用哪个词，然后专门做计算并带我的师妹告诉我应该是"很低"。还有忘了告诉大家了，我的体系是6个单元的聚偏氟乙烯（PVDF）分子。

作者
Author: granvia 时间: 2022-6-8 21:03

ReviewReview 发表于 2022-6-8 20:28
哦哦，其实我在使用"较低"还是"很低"来形容其精度时，有纠结过该用哪个词，然后专门做计算并带我的师妹告 ...

很奇怪，为啥不向导师请教？

作者
Author: ReviewReview 时间: 2022-6-8 21:13

granvia 发表于 2022-6-8 21:03
很奇怪，为啥不向导师请教？

我们是实验组，带我的师妹是另一个专门搞计算的课题组的，她们老师这段时间刚好在生小孩，所以就。。

作者
Author: wzkchem5 时间: 2022-6-8 21:26

ReviewReview 发表于 2022-6-8 13:28
哦哦，其实我在使用"较低"还是"很低"来形容其精度时，有纠结过该用哪个词，然后专门做计算并带我的师妹告 ...

这个“很低”看跟什么比，如果跟DFT比，那确实是很低，如果和CCSD(T)比，那是低得没谱了。
但是一般做构象搜索只有用半经验方法才能跑得动（即便用DFT能跑得动，一般也先用半经验方法做一个极其充分的搜索，再用DFT来refine），在半经验方法里PM7大概用“表现一般”来描述比较好。一般有条件建议用GFN2-xTB，对弱相互作用比较重要的体系一般比PM7准，而且可能还比PM7快一些。PM7相比GFN2-xTB的主要优势在于高斯支持，对于那些只会用高斯、又不愿学其他软件的用户来说比较友好，但是对于orca用户（支持GFN2-xTB但不支持PM7）情况就是反过来的了。

作者
Author: ReviewReview 时间: 2022-6-8 21:42

wzkchem5 发表于 2022-6-8 21:26
这个“很低”看跟什么比，如果跟DFT比，那确实是很低，如果和CCSD(T)比，那是低得没谱了。
但是一般做构 ...

昂昂谢谢您老师，记住啦。"但是一般做构象搜索只有用半经验方法才能跑得动（即便用DFT能跑得动，一般也先用半经验方法做一个极其充分的搜索，再用DFT来refine），在半经验方法里PM7大概用“表现一般”来描述比较好。"，从您的意思来看，先用PM7初筛，然后用isostat.exe排序，然后挑能量最低的结构上传超算跑DFT是受业内普遍接受的是吧？

作者
Author: wzkchem5 时间: 2022-6-8 22:16

ReviewReview 发表于 2022-6-8 14:42
昂昂谢谢您老师，记住啦。"但是一般做构象搜索只有用半经验方法才能跑得动（即便用DFT能跑得动，一般也先 ...

对的，PM7虽然很多时候比GFN2-xTB差，但是没有差到审稿人不认的地步

作者
Author: GoldenBaby 时间: 2022-6-8 22:26
你说的这个问题我还真比较过，PM7确实可以说是烂了。这篇文章用的xtb做的 http://bbs.keinsci.com/thread-16255-1-1.html 你可以看看
虽然GFN-xtb在处理某些问题时也不能说是很理想吧，但是至少在我目前用过的接近半经验方法的计算级别里算是比较理想的了。
以及你说的那个能量排行确实是有问题的，所以一般保留相对能量<=3 kcal/mol的结构，从这里面找大概率还是能找到能用的结构的。

作者
Author: ReviewReview 时间: 2022-6-8 22:29

wzkchem5 发表于 2022-6-8 22:16
对的，PM7虽然很多时候比GFN2-xTB差，但是没有差到审稿人不认的地步

嗯嗯好的，谢谢老师！

作者
Author: wzkchem5 时间: 2022-6-8 22:41

GoldenBaby 发表于 2022-6-8 15:26
你说的这个问题我还真比较过，PM7确实可以说是烂了。这篇文章用的xtb做的 http://bbs.keinsci.com/thread-1 ...

发现DOI: 10.1002/qua.26381这篇文章测了PM7和GFN2-xTB计算的构象能量，以DLPNO-CCSD(T)为参考值，把半经验方法的结果对参考值作图，求R^2（所以相当于反映了能量的排序，而不是反映能量本身的精度）。发现GFN2-xTB的R^2有0.637，而PM7只有0.315，甚至比一些力场（MMFF94）还差。这么看来PM7确实挺差的。
另外我收回我说的关于计算时间的话，从这个benchmark文章来看PM7比GFN2-xTB快不少，不过和GFN0-xTB差不多快，而GFN0-xTB的精度比PM7高得还是挺明显的。所以至少从这篇文章的结论而言，即使是GFN2-xTB跑不动的大体系，也应该用GFN0-xTB而非PM7

作者
Author: ReviewReview 时间: 2022-6-8 22:54
本帖最后由 ReviewReview 于 2022-6-9 15:50 编辑

GoldenBaby 发表于 2022-6-8 22:26
你说的这个问题我还真比较过，PM7确实可以说是烂了。这篇文章用的xtb做的 http://bbs.keinsci.com/thread-1 ...

嗯嗯谢谢老师。"以及你说的那个能量排行确实是有问题的，所以一般保留相对能量<=3 kcal/mol的结构，从这里面找大概率还是能找到能用的结构的。"，您这句话太有用了，今天攒的eV一次性都给wzkchem5老师了，明天攒到4一定来给您评满分哈哈

。
还有再请教您一个问题哈：在用Molclus对Genmer产生的100个构象进行构象搜索时，我的template.gjf和template2.gjf用的都是PM7方法，在template2.gjf中加了有助于收敛的关键词"opt(maxstep=5,notrust,maxcyc=150,gdiis) scf=xqc"，我都这样了，但是在跑Molclus时：先说下哈，我目前跑到第6个构象了，但是去isomers.xyz里边看了眼只有构象2，3，4，6跑出来了，构象1，5未能成功跑出来。我就开始思考：是不是构象1，5本来就很离谱，在逻辑上反常理，本来就不应该存在，所以我接下来能不能直接将其放弃掉不要，只要我isomer.xyz里边成功跑出来的构象，然后拿去找isostat.exe帮我排序？

作者
Author: sobereva 时间: 2022-6-9 07:52

ReviewReview 发表于 2022-6-8 22:54
嗯嗯谢谢老师。"以及你说的那个能量排行确实是有问题的，所以一般保留相对能量

PM7仅仅是用来初筛用的，筛选出有哪些构型值得进一步用明显更昂贵的DFT来进一步优化。显然不能直接取PM7给你的能量最低的那一个结构，我的任何molclus相关的帖子里的例子都没有这么做。要正确领会molclus的构型/构象搜索例子里每一步的思想和目的。即便是精度整体更好点的GFN-xTB，精度也仅仅适合作为初筛目的。在根据能量初筛的同时，顺带也起到了预优化的目的。

结构离谱不离谱，自己用gview看molclus备份出来的Gaussian输出文件里的优化轨迹便知

作者
Author: ReviewReview 时间: 2022-6-9 09:16
本帖最后由 ReviewReview 于 2022-6-9 09:17 编辑

sobereva 发表于 2022-6-9 07:52
PM7仅仅是用来初筛用的，筛选出有哪些构型值得进一步用明显更昂贵的DFT来进一步优化。显然不能直接取PM7 ...

Sober老师我其实领会了您帖子里的步骤的，就是您说的这句话嘛"假设我们之前用molclus对某个有机分子在粗糙的半经验方法PM7下做了批量优化，并用isostat做了处理，得到了按照能量排序后的cluster.xyz文件（可以这里下载：http://sobereva.com/attach/472/cluster.xyz）。这里我们想把其中能量最低的三个转化成.gjf文件，之后弄到超算/服务器上算更准确的能量，"！我当时怀疑的是由于PM7精度的问题，"其中能量最低的三个"可能并不是真正的"其中能量最低的三个"。接着，看了GoldenBaby老师的答复"以及你说的那个能量排行确实是有问题的，所以一般保留相对能量<=3 kcal/mol的结构，从这里面找大概率还是能找到能用的结构的。"后，我心里接着就知道可以这么干了并且知道怎么干了。

作者
Author: ReviewReview 时间: 2022-6-9 09:32

wzkchem5 发表于 2022-6-8 22:41
发现DOI: 10.1002/qua.26381这篇文章测了PM7和GFN2-xTB计算的构象能量，以DLPNO-CCSD(T)为参考值，把半经 ...

嗯嗯谢谢老师学术级的答案。就是想问下您xTB学习成本大吗，听我师妹说要编程的啊？由于我目前已经博三了，所以需要考虑学习成本的问题。

作者
Author: granvia 时间: 2022-6-9 13:18

GoldenBaby 发表于 2022-6-8 22:26
你说的这个问题我还真比较过，PM7确实可以说是烂了。这篇文章用的xtb做的 http://bbs.keinsci.com/thread-1 ...

所谓“很烂”是针对对某些问题和某些体系来说的，但不能得出PM7针对所有问题和所有体系都很烂这样的结论。否则有失客观公允

作者
Author: granvia 时间: 2022-6-9 13:19

wzkchem5 发表于 2022-6-8 22:41
发现DOI: 10.1002/qua.26381这篇文章测了PM7和GFN2-xTB计算的构象能量，以DLPNO-CCSD(T)为参考值，把半经 ...

最好指出是什么类型的分子的构象问题，不能以偏概全啊

作者
Author: granvia 时间: 2022-6-9 13:26

ReviewReview 发表于 2022-6-9 09:32
嗯嗯谢谢老师学术级的答案。就是想问下您xTB学习成本大吗，听我师妹说要编程的啊？由于我目前已经博三了 ...

没门槛，属于傻瓜式操作

作者
Author: ReviewReview 时间: 2022-6-9 14:52

granvia 发表于 2022-6-9 13:26
没门槛，属于傻瓜式操作

谢谢老师，那我下下来试试。

作者
Author: wzkchem5 时间: 2022-6-9 15:44

ReviewReview 发表于 2022-6-9 02:32
嗯嗯谢谢老师学术级的答案。就是想问下您xTB学习成本大吗，听我师妹说要编程的啊？由于我目前已经博三了 ...

不需要任何编程，至多只需要3行左右的脚本，而且只用写一次。
学习成本很低，基本只有对于那种一听到要学软件就吓晕过去的人有门槛，但是其实没有任何门槛，sob老师也写过如何使用xtb的博文，讲得十分详细

作者
Author: wzkchem5 时间: 2022-6-9 15:47

granvia 发表于 2022-6-9 06:19
最好指出是什么类型的分子的构象问题，不能以偏概全啊

具体看那篇文章，里面都写了。就是有机小分子，以类药分子为主

作者
Author: ReviewReview 时间: 2022-6-9 15:49

wzkchem5 发表于 2022-6-9 15:44
不需要任何编程，至多只需要3行左右的脚本，而且只用写一次。
学习成本很低，基本只有对于那种一听到要 ...

嗯嗯知道啦，谢谢老师，那我下下来试试。

作者
Author: Henge 时间: 2023-2-17 14:02
超算也可以用脚本提交xtb、Molclus的任务，公社里有帖子提供过脚本文件。

欢迎光临计算化学公社 (http://bbs.keinsci.com/)