- UID
- 1
- 在线时间
- 6122 小时
- 注册时间
- 2014-10-7
- 最后登录
- 2025-8-13
- 好友
- 67
- 积分
- 120102
管理员
公社社长
|
关于要不要机器学习这点,关键是要认识到极其学习的巨大局限性,这里谈谈
机器学习关键局限性有二:(1)预测的模型只能用于与训练集有足够相似的体系,缺乏一般计算方法的普适性、可移植性(2)需要足够大的高质量训练集。尤其是深度神经网络类型的模型,对训练集规模要求很高,至少几千、几万,甚至十几、几十万、上百万,靠可靠(难免昂贵)的计算方法准备高质量数据集就颇为费劲的。如果最终搞出来的机器学习模型其实用武之地有限的话,训练模型时付出的那么多计算量还不如直接用来做计算呢。
由于这俩问题,对大多数实际化学研究的问题,机器学习能起到的用处有限。然而现在的很多人一听机器学习热门,就一股脑跟风去搞,甚至忽视了更有意义、更有效的其它研究方式,这很鲁莽。
有个例子值得说一下。ANI机器学习势挺热门的,其中ANI-1ccx是对50万个有机体系的CCSD(T)/CBS结果当训练集,然而根据Int J Quantum Chem. 2021;121:e26381算大批有机体系构象能量差的测试,ANI-1cxx的整体精度还不如GFN-xTB,更远不及DFT,耗时上还并不比GFN-xTB低,而且支持的元素还特别少,还没法算过渡态等等。可见单纯靠机器学习暴力解决问题绝对不是什么好办法。
当然机器学习也有有实用性的一面,诸如Nature Material, 15, 1120 (2016)里要对160万种donor-(bridge)n-acceptor (n=0,1,2)化合物找出有价值的TADF材料,通过4万个样本做TDDFT训练深度学习模型,最后筛选出40万个值得接下来做实际TDDFT计算的体系,这确实节约了几倍的耗时避免对没价值的体系做TDDFT。
所以要不要搞机器学习,关键要弄明白其长处和短处,看实际研究的问题适不适合,切勿跟风。
还应弄明白的一点是机器学习是个很大的范畴,对于计算化学问题,机器学习意味着建立廉价的又有足够可靠度的预测模型。非常常用的线性、非线性拟合都属于机器学习,对这种简单的模型,十几、几十个样本也完全可以构建机器学习模型,比如下面的例子
使用Multiwfn预测晶体密度、蒸发焓、沸点、溶解自由能等性质
http://sobereva.com/337(http://bbs.keinsci.com/thread-3571-1-1.html)
透彻认识氢键本质、简单可靠地估计氢键强度:一篇2019年JCC上的重要研究文章介绍
http://sobereva.com/513(http://bbs.keinsci.com/thread-14600-1-1.html)
所以机器学习并不复杂(除非做深了,自己写/改程序、自己设计新模型和描述符等),做机器学习和做计算并不矛盾、不冲突。机器学习完全可以作为一个工具来用,当实际研究中突然意识到某些问题用机器学习会很划算的时候,再试图训练个模型出来。切勿为了机器学习而机器学习。
|
评分 Rate
-
查看全部评分 View all ratings
|