计算化学公社

标题: 到底啥是机器学习？ [打印本页]

作者
Author: 赵云跳槽 时间: 2024-12-16 22:10
标题: 到底啥是机器学习？
最近想了解下机器学习，网上解释是利用算法使用训练数据来发现规律，从而做出预测
意思解释很简单，但有好多疑问：

我们以博文337中预测晶体密度为例来进行说明：

传统方法：计算不同体系的分子描述符，根据实验晶体密度数据与分子描述符的关系，从而拟合出晶体密度公式，未知晶体只需要计算分子描述符就能依据公式获得晶体密度

我预想的机器学习1：人工计算不同体系的分子描述符，给机器实验晶体密度数据，让机器自动拟合出一个密度公式，未知晶体只需要计算了分子描述符，自动返回晶体密度
（疑问：如果是这种，那和传统方法也没啥大区别，只是可能机器选择的拟合公式的范围更多一些）

我预想的机器学习2：人工计算不同体系的分子描述符，给机器实验晶体密度数据，让机器训练出一个黑箱，未知晶体只需要计算了分子描述符，自动返回晶体密度（黑箱是什么，我们不知道）

我预想的机器学习3：给机器多个体系的结构以及实验晶体密度数据，机器自动发现分子的描述符与密度存在某种关系，机器自动完成计算过程从而训练出一个黑箱，未知晶体只需要给出结构，机器自动返回晶体密度（黑箱是什么，我们不知道）

不知道目前的机器学习到底是哪种？与传统方法有啥本质区别（传统方式拟合公式）？
如果以上都不对，那应该是哪样呢？

作者
Author: sobereva 时间: 2024-12-17 05:45
像是根据已有数据做线性拟合得到预测公式，这种非常简单、传统的做法毋庸置疑就属于ML。只不过近很多年的ML用的训练集规模、预测模型/训练手段（如深度学习）、描述符的多样性等方面比传统的ML已经有了巨幅扩展、深化，能解决的问题也由此大为拓展、能解决的问题更为广阔，这才使得ML的概念火了起来（还显著得益于CPU/GPU的发展带来的高算力的加持）。

作者
Author: Loading0760 时间: 2024-12-17 09:51
本帖最后由 Loading0760 于 2024-12-17 10:02 编辑

现在感觉已经发展到你说的3了。前段时间gpt比较火的时候，还看到过把小分子的SMILES作为Input学习的文章。
详见：doi: 10.1016/j.heliyon.2024.e39038

作者
Author: student0618 时间: 2024-12-17 10:44
本帖最后由 student0618 于 2024-12-17 10:47 编辑

个人理解：简单来说就是拟合用“公式”不同，由y=mx+c 变成例如现在很火的neural network models(aka 黑箱)。当然拟合用的描述符也更多样化、前后期处理的protocol也更多。用的也不再是几个数据而是几千万、几亿的数据。

例如有小分子设计的ML方法是input SMILES，用neural network A换成描述符、再用那些描述符训练另一个neural network B、再用neural network A换回SMILES。
我的理解就是公式A结果训练公式B的weights，再用公式A换回人类看得懂的结果。

不过近来更火的Diffusion models还未完全理解，没找到较合适的比喻。

作者
Author: alonewolfyang 时间: 2024-12-17 14:37
我觉得除了你和卢老师说的外，还有就是搞数据结构、模型算法的人把这个技术引入到了化学材料领域，人工智能大数据本身就不是物理化学等领域的产物，这对传统学科冲击太大了

作者
Author: lemon_electron 时间: 2024-12-17 17:50
传统的机器学习确实是1的样子，这种研究范式常见于药物研发，其实他们还有一个名字，叫做“定量构效关系”（QSAR)，这应该是目前比较好做的一种形式；

2其实已经开始有了深度学习的样子，我个人认为已经是深度学习的雏形。关键的判断因素就在你说的“黑箱”，机器学习其实是具有较强可解释性的，深度学习更倾向于形成你说的这种“黑箱”一样的训练结果，当然，后期可以通过逻辑回归或者看一下哪个节点被highlight了，也能取得一定的可解释性。

最前沿的就是3，结合大语言模型，给个分子式就能拿到预测的结果。这个预测结果可以是1中的分子描述符，也可以是更高级的性能数据，等等。这部分国内一些发展比较早的课题组已经在开始做了，似乎已经能够把图形学习的一些思想和手段用到这上面了（今年看过一个专访，南大马晶老师提过这一点）。

（个人拙见，请指正）

作者
Author: 二分音符 时间: 2025-1-10 16:00
1如果是用符号回归找公式的话算ML，给定公式做拟合不算。

2是否黑箱取决于是否用了人工神经网络，传统点的ML模型其实解释性还挺好的，比如支持向量机、决策树之类的，要是用了神经网络的话解释性就很差了。当然也有人声称神经网络可以解释，整体看还处于探索期。

3应该属于深度学习，描述符本身的物理意义都很差了，更不用说构效关系了，所以往往依赖数万以上的大数据力大飞砖。

这些方法的本质都是在训练集上找规律，然后在测试集上做预测，所以都是内推性回归（而非外插），传统方法也能做回归，所以有相似之处。
除了回归，更前沿的问题是反向设计，按照要求的性能设计材料的结构，这就是传统方法难做到的了，当然现在的ML也很难做到。
还有一些解释性工具，比如最常用的SHAP，可以拆开看不同描述符的边际贡献，我觉得这也是优于传统方法的（比如主成分分析只能处理线性关系）。

（只做了ML一年，欢迎讨论）

作者
Author: QuantumicGuy 时间: 2025-1-10 16:13
如果可用的数据量很少，用什么方法比较好呢

作者
Author: Illuminatia 时间: 2025-1-17 09:33

QuantumicGuy 发表于 2025-1-10 16:13
如果可用的数据量很少，用什么方法比较好呢

少样本学习就试试看主动学习或者迁移学习

欢迎光临计算化学公社 (http://bbs.keinsci.com/)