计算化学公社
标题:
到底啥是机器学习?
[打印本页]
作者Author:
赵云跳槽
时间:
2024-12-16 22:10
标题:
到底啥是机器学习?
最近想了解下机器学习,网上解释是利用算法使用训练数据来发现规律,从而做出预测
意思解释很简单,但有好多疑问:
我们以博文337中预测晶体密度为例来进行说明:
传统方法:计算不同体系的分子描述符,根据实验晶体密度数据与分子描述符的关系,从而拟合出晶体密度公式,未知晶体只需要计算分子描述符就能依据公式获得晶体密度
我预想的机器学习1:人工计算不同体系的分子描述符,给机器实验晶体密度数据,让机器自动拟合出一个密度公式,未知晶体只需要计算了分子描述符,自动返回晶体密度
(疑问:如果是这种,那和传统方法也没啥大区别,只是可能机器选择的拟合公式的范围更多一些)
我预想的机器学习2:人工计算不同体系的分子描述符,给机器实验晶体密度数据,让机器训练出一个黑箱,未知晶体只需要计算了分子描述符,自动返回晶体密度(黑箱是什么,我们不知道)
我预想的机器学习3:给机器多个体系的结构以及实验晶体密度数据,机器自动发现分子的描述符与密度存在某种关系,机器自动完成计算过程从而训练出一个黑箱,未知晶体只需要给出结构,机器自动返回晶体密度(黑箱是什么,我们不知道)
不知道目前的机器学习到底是哪种?与传统方法有啥本质区别(传统方式拟合公式)?
如果以上都不对,那应该是哪样呢?
作者Author:
sobereva
时间:
2024-12-17 05:45
像是根据已有数据做线性拟合得到预测公式,这种非常简单、传统的做法毋庸置疑就属于ML。只不过近很多年的ML用的训练集规模、预测模型/训练手段(如深度学习)、描述符的多样性等方面比传统的ML已经有了巨幅扩展、深化,能解决的问题也由此大为拓展、能解决的问题更为广阔,这才使得ML的概念火了起来(还显著得益于CPU/GPU的发展带来的高算力的加持)。
作者Author:
Loading0760
时间:
2024-12-17 09:51
本帖最后由 Loading0760 于 2024-12-17 10:02 编辑
现在感觉已经发展到你说的3了。前段时间gpt比较火的时候,还看到过把小分子的SMILES作为Input学习的文章。
详见:doi: 10.1016/j.heliyon.2024.e39038
作者Author:
student0618
时间:
2024-12-17 10:44
本帖最后由 student0618 于 2024-12-17 10:47 编辑
个人理解:简单来说就是拟合用“公式”不同,由y=mx+c 变成例如现在很火的neural network models(aka 黑箱)。当然拟合用的描述符也更多样化、前后期处理的protocol也更多。用的也不再是几个数据而是几千万、几亿的数据。
例如有小分子设计的ML方法是input SMILES,用neural network A换成描述符、再用那些描述符训练另一个neural network B、再用neural network A换回SMILES。
我的理解就是公式A结果训练公式B的weights,再用公式A换回人类看得懂的结果。
不过近来更火的Diffusion models还未完全理解,没找到较合适的比喻。
作者Author:
alonewolfyang
时间:
2024-12-17 14:37
我觉得除了你和卢老师说的外,还有就是搞数据结构、模型算法的人把这个技术引入到了化学材料领域,人工智能大数据本身就不是物理化学等领域的产物,这对传统学科冲击太大了
作者Author:
lemon_electron
时间:
2024-12-17 17:50
传统的机器学习确实是1的样子,这种研究范式常见于药物研发,其实他们还有一个名字,叫做“定量构效关系”(QSAR),这应该是目前比较好做的一种形式;
2其实已经开始有了深度学习的样子,我个人认为已经是深度学习的雏形。关键的判断因素就在你说的“黑箱”,机器学习其实是具有较强可解释性的,深度学习更倾向于形成你说的这种“黑箱”一样的训练结果,当然,后期可以通过逻辑回归或者看一下哪个节点被highlight了,也能取得一定的可解释性。
最前沿的就是3,结合大语言模型,给个分子式就能拿到预测的结果。这个预测结果可以是1中的分子描述符,也可以是更高级的性能数据,等等。这部分国内一些发展比较早的课题组已经在开始做了,似乎已经能够把图形学习的一些思想和手段用到这上面了(今年看过一个专访,南大马晶老师提过这一点)。
(个人拙见,请指正)
作者Author:
二分音符
时间:
2025-1-10 16:00
1如果是用符号回归找公式的话算ML,给定公式做拟合不算。
2是否黑箱取决于是否用了人工神经网络,传统点的ML模型其实解释性还挺好的,比如支持向量机、决策树之类的,要是用了神经网络的话解释性就很差了。当然也有人声称神经网络可以解释,整体看还处于探索期。
3应该属于深度学习,描述符本身的物理意义都很差了,更不用说构效关系了,所以往往依赖数万以上的大数据力大飞砖。
这些方法的本质都是在训练集上找规律,然后在测试集上做预测,所以都是内推性回归(而非外插),传统方法也能做回归,所以有相似之处。
除了回归,更前沿的问题是反向设计,按照要求的性能设计材料的结构,这就是传统方法难做到的了,当然现在的ML也很难做到。
还有一些解释性工具,比如最常用的SHAP,可以拆开看不同描述符的边际贡献,我觉得这也是优于传统方法的(比如主成分分析只能处理线性关系)。
(只做了ML一年,欢迎讨论)
作者Author:
QuantumicGuy
时间:
2025-1-10 16:13
如果可用的数据量很少,用什么方法比较好呢
作者Author:
Illuminatia
时间:
2025-1-17 09:33
QuantumicGuy 发表于 2025-1-10 16:13
如果可用的数据量很少,用什么方法比较好呢
少样本学习就试试看主动学习或者迁移学习
欢迎光临 计算化学公社 (http://bbs.keinsci.com/)
Powered by Discuz! X3.3