计算化学公社

标题: 建议计算化学公社开放一个关于机器学习的专区 [打印本页]

作者
Author:
successjiang    时间: 2021-4-28 15:26
标题: 建议计算化学公社开放一个关于机器学习的专区
尤其是最近几年,机器学习加大数据构成的人工智能的基本框架在计算化学领域的应用越来越受人关注。严格意义上说,这本不属于传统计算化学的范畴,但是计算化学本身也是计算科学和传统化学的一门交叉学科,机器学习的介入不过是在这些交叉科学之上又交叉了一门数据科学。目前,整体而言这个领域,还处于新兴并且蓬勃发展的阶段,很希望有一个中文平台可以提供专业的交流渠道,不论是算法还是应用,希望计算化学公社可以在现有的模块之上开放一个机器学习讨论专区以供同行交流讨论。
作者
Author:
sobereva    时间: 2021-4-30 19:48
如果之后相关帖子较多我会增加一个分区,现在还略早
作者
Author:
喵星大佬    时间: 2021-5-10 06:08
换了个更唬人的方法,换汤不换药

弄得还是计算机化学/化学信息学的那一套
作者
Author:
枫叶羽    时间: 2021-6-27 19:00
计算化学,以前是基于量子化学,需要用到大量的算力。而机器学习,类似于统计和预测,算法和训练集才是核心。但是难点也就在训练集,课题组不大,就不可能有大量的数据用于机器学习,因此一个公共有效数据仓库是机器学习的前提
作者
Author:
dazzle0829    时间: 2021-6-30 17:44
枫叶羽 发表于 2021-6-27 19:00
计算化学,以前是基于量子化学,需要用到大量的算力。而机器学习,类似于统计和预测,算法和训练集才是核心 ...

支持层主的说法,目前我的毕业论文课题最后就像加一部分机器学习相关的内容,前期做了几个体系,但是目前觉得作为训练集还是不够,数据有限
作者
Author:
QH1995    时间: 2021-6-30 20:10
haha,真的感觉是这样的,现在做机器学习动不动就上万个训练集,如果自己做真不知道能做到什么时候。像我导师给我安排的就是一个基元反应配上N多种催化剂不停地乱锅炖,算上一百种模型才让我毕业,感觉这种不用动脑子的前期积累有些不是很值得。另外,也是想问问大家,有没有开源的机器学习&量化计算的数据库呢?
作者
Author:
wzkchem5    时间: 2021-7-1 03:54
QH1995 发表于 2021-6-30 13:10
haha,真的感觉是这样的,现在做机器学习动不动就上万个训练集,如果自己做真不知道能做到什么时候。像我导 ...

这种情况你应该搞一个on-the-fly learning,先前期积累比如说10个点,用这10个点训练一个模型(这个模型会很垃圾,但是无所谓),用统计学的方法预测下一个点选在哪里最有助于改善这个模型,然后有针对性地选催化剂。这才叫rational design,而且这个预测过程也可以作为你文章的亮点之一。
如果盲做100个点再训练模型,很可能发现其中比如说50个点都是redundant的,拿掉这些点,用剩下的点拟合一个模型,也能准确预测出这些点,那等于你一半实验就白做了。
另一个突破口是,用计算化学的方法做几百或者上千个点(可以用很垃圾的方法,比如半经验就可以,DFT都未必需要),预训练出一个模型,再用你那100个实验数据点做迁移学习或者delta learning。这样做出来的模型的质量,可能相当于你用几百上千个实验数据点做出来的质量。或者换个角度讲,可以用远少于100个实验数据点,做出100个实验数据点能做出的模型的质量。
作者
Author:
sobereva    时间: 2021-7-1 05:06
QH1995 发表于 2021-6-30 20:10
haha,真的感觉是这样的,现在做机器学习动不动就上万个训练集,如果自己做真不知道能做到什么时候。像我导 ...

开放的大规模数据库多了去了,诸如http://quantum-machine.org/datasets/
但那种数据库都是包含的比较普通、general purpose的描述符,不要指望对于特殊、专一问题的机器学习直接就有现成的大规模数据库能用。专一性的数据集基本都得自己搞
作者
Author:
QH1995    时间: 2021-7-1 13:43
wzkchem5 发表于 2021-7-1 03:54
这种情况你应该搞一个on-the-fly learning,先前期积累比如说10个点,用这10个点训练一个模型(这个模型 ...

非常感谢回复,我仔细研究琢磨一下,谢谢~
作者
Author:
QH1995    时间: 2021-7-1 13:44
sobereva 发表于 2021-7-1 05:06
开放的大规模数据库多了去了,诸如http://quantum-machine.org/datasets/
但那种数据库都是包含的比较普 ...

谢谢社长,我也会自己去搜索学习,有了好的消息第一时间分享给大家




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3