计算化学公社

标题: 到底啥是机器学习? [打印本页]

作者
Author:
赵云跳槽    时间: 2024-12-16 22:10
标题: 到底啥是机器学习?
最近想了解下机器学习,网上解释是利用算法使用训练数据来发现规律,从而做出预测
意思解释很简单,但有好多疑问:

我们以博文337中预测晶体密度为例来进行说明:


传统方法:计算不同体系的分子描述符,根据实验晶体密度数据与分子描述符的关系,从而拟合出晶体密度公式,未知晶体只需要计算分子描述符就能依据公式获得晶体密度

我预想的机器学习1:人工计算不同体系的分子描述符,给机器实验晶体密度数据,让机器自动拟合出一个密度公式,未知晶体只需要计算了分子描述符,自动返回晶体密度
                              (疑问:如果是这种,那和传统方法也没啥大区别,只是可能机器选择的拟合公式的范围更多一些)

我预想的机器学习2:人工计算不同体系的分子描述符,给机器实验晶体密度数据,让机器训练出一个黑箱,未知晶体只需要计算了分子描述符,自动返回晶体密度(黑箱是什么,我们不知道)

我预想的机器学习3:给机器多个体系的结构以及实验晶体密度数据,机器自动发现分子的描述符与密度存在某种关系,机器自动完成计算过程从而训练出一个黑箱,未知晶体只需要给出结构,机器自动返回晶体密度(黑箱是什么,我们不知道)

不知道目前的机器学习到底是哪种?与传统方法有啥本质区别(传统方式拟合公式)?
如果以上都不对,那应该是哪样呢?



作者
Author:
sobereva    时间: 2024-12-17 05:45
像是根据已有数据做线性拟合得到预测公式,这种非常简单、传统的做法毋庸置疑就属于ML。只不过近很多年的ML用的训练集规模、预测模型/训练手段(如深度学习)、描述符的多样性等方面比传统的ML已经有了巨幅扩展、深化,能解决的问题也由此大为拓展、能解决的问题更为广阔,这才使得ML的概念火了起来(还显著得益于CPU/GPU的发展带来的高算力的加持)。
作者
Author:
Loading0760    时间: 2024-12-17 09:51
本帖最后由 Loading0760 于 2024-12-17 10:02 编辑

现在感觉已经发展到你说的3了。前段时间gpt比较火的时候,还看到过把小分子的SMILES作为Input学习的文章。
详见:doi: 10.1016/j.heliyon.2024.e39038

作者
Author:
student0618    时间: 2024-12-17 10:44
本帖最后由 student0618 于 2024-12-17 10:47 编辑

个人理解:简单来说就是拟合用“公式”不同,由y=mx+c 变成例如现在很火的neural network models(aka 黑箱)。当然拟合用的描述符也更多样化、前后期处理的protocol也更多。用的也不再是几个数据而是几千万、几亿的数据。

例如有小分子设计的ML方法是input SMILES,用neural network A换成描述符、再用那些描述符训练另一个neural network B、再用neural network A换回SMILES。
我的理解就是公式A结果训练公式B的weights,再用公式A换回人类看得懂的结果。

不过近来更火的Diffusion models还未完全理解,没找到较合适的比喻。
作者
Author:
alonewolfyang    时间: 2024-12-17 14:37
我觉得除了你和卢老师说的外,还有就是搞数据结构、模型算法的人把这个技术引入到了化学材料领域,人工智能大数据本身就不是物理化学等领域的产物,这对传统学科冲击太大了
作者
Author:
lemon_electron    时间: 2024-12-17 17:50
传统的机器学习确实是1的样子,这种研究范式常见于药物研发,其实他们还有一个名字,叫做“定量构效关系”(QSAR),这应该是目前比较好做的一种形式;

2其实已经开始有了深度学习的样子,我个人认为已经是深度学习的雏形。关键的判断因素就在你说的“黑箱”,机器学习其实是具有较强可解释性的,深度学习更倾向于形成你说的这种“黑箱”一样的训练结果,当然,后期可以通过逻辑回归或者看一下哪个节点被highlight了,也能取得一定的可解释性。

最前沿的就是3,结合大语言模型,给个分子式就能拿到预测的结果。这个预测结果可以是1中的分子描述符,也可以是更高级的性能数据,等等。这部分国内一些发展比较早的课题组已经在开始做了,似乎已经能够把图形学习的一些思想和手段用到这上面了(今年看过一个专访,南大马晶老师提过这一点)。

(个人拙见,请指正)
作者
Author:
二分音符    时间: 2025-1-10 16:00
1如果是用符号回归找公式的话算ML,给定公式做拟合不算。

2是否黑箱取决于是否用了人工神经网络,传统点的ML模型其实解释性还挺好的,比如支持向量机、决策树之类的,要是用了神经网络的话解释性就很差了。当然也有人声称神经网络可以解释,整体看还处于探索期。

3应该属于深度学习,描述符本身的物理意义都很差了,更不用说构效关系了,所以往往依赖数万以上的大数据力大飞砖。

这些方法的本质都是在训练集上找规律,然后在测试集上做预测,所以都是内推性回归(而非外插),传统方法也能做回归,所以有相似之处。
除了回归,更前沿的问题是反向设计,按照要求的性能设计材料的结构,这就是传统方法难做到的了,当然现在的ML也很难做到。
还有一些解释性工具,比如最常用的SHAP,可以拆开看不同描述符的边际贡献,我觉得这也是优于传统方法的(比如主成分分析只能处理线性关系)。

(只做了ML一年,欢迎讨论)
作者
Author:
QuantumicGuy    时间: 2025-1-10 16:13
如果可用的数据量很少,用什么方法比较好呢
作者
Author:
Illuminatia    时间: 2025-1-17 09:33
QuantumicGuy 发表于 2025-1-10 16:13
如果可用的数据量很少,用什么方法比较好呢

少样本学习就试试看主动学习或者迁移学习




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3