计算化学公社

 找回密码 Forget password
 注册 Register
Views: 2710|回复 Reply: 8
打印 Print 上一主题 Last thread 下一主题 Next thread

[综合交流] 到底啥是机器学习?

[复制链接 Copy URL]

204

帖子

0

威望

2733

eV
积分
2937

Level 5 (御坂)

跳转到指定楼层 Go to specific reply
楼主
最近想了解下机器学习,网上解释是利用算法使用训练数据来发现规律,从而做出预测
意思解释很简单,但有好多疑问:

我们以博文337中预测晶体密度为例来进行说明:


传统方法:计算不同体系的分子描述符,根据实验晶体密度数据与分子描述符的关系,从而拟合出晶体密度公式,未知晶体只需要计算分子描述符就能依据公式获得晶体密度

我预想的机器学习1:人工计算不同体系的分子描述符,给机器实验晶体密度数据,让机器自动拟合出一个密度公式,未知晶体只需要计算了分子描述符,自动返回晶体密度
                              (疑问:如果是这种,那和传统方法也没啥大区别,只是可能机器选择的拟合公式的范围更多一些)

我预想的机器学习2:人工计算不同体系的分子描述符,给机器实验晶体密度数据,让机器训练出一个黑箱,未知晶体只需要计算了分子描述符,自动返回晶体密度(黑箱是什么,我们不知道)

我预想的机器学习3:给机器多个体系的结构以及实验晶体密度数据,机器自动发现分子的描述符与密度存在某种关系,机器自动完成计算过程从而训练出一个黑箱,未知晶体只需要给出结构,机器自动返回晶体密度(黑箱是什么,我们不知道)

不知道目前的机器学习到底是哪种?与传统方法有啥本质区别(传统方式拟合公式)?
如果以上都不对,那应该是哪样呢?


6万

帖子

99

威望

6万

eV
积分
125141

管理员

公社社长

2#
发表于 Post on 2024-12-17 05:45:51 | 只看该作者 Only view this author
像是根据已有数据做线性拟合得到预测公式,这种非常简单、传统的做法毋庸置疑就属于ML。只不过近很多年的ML用的训练集规模、预测模型/训练手段(如深度学习)、描述符的多样性等方面比传统的ML已经有了巨幅扩展、深化,能解决的问题也由此大为拓展、能解决的问题更为广阔,这才使得ML的概念火了起来(还显著得益于CPU/GPU的发展带来的高算力的加持)。
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办极高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入北京科音微信公众号获取北京科音培训的最新消息,并避免错过网上有价值的计算化学文章!
欢迎加入人气极高、专业性特别强的理论与计算化学综合交流群思想家公社QQ群(群号见此链接),合计达一万多人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大、极为流行的量子化学波函数分析程序)
Google Scholar:https://scholar.google.com/citations?user=tiKE0qkAAAAJ
ResearchGate:https://www.researchgate.net/profile/Tian_Lu

156

帖子

0

威望

926

eV
积分
1082

Level 4 (黑子)

3#
发表于 Post on 2024-12-17 09:51:11 | 只看该作者 Only view this author
本帖最后由 Loading0760 于 2024-12-17 10:02 编辑

现在感觉已经发展到你说的3了。前段时间gpt比较火的时候,还看到过把小分子的SMILES作为Input学习的文章。
详见:doi: 10.1016/j.heliyon.2024.e39038

885

帖子

4

威望

2045

eV
积分
3010

Level 5 (御坂)

A Student

4#
发表于 Post on 2024-12-17 10:44:44 | 只看该作者 Only view this author
本帖最后由 student0618 于 2024-12-17 10:47 编辑

个人理解:简单来说就是拟合用“公式”不同,由y=mx+c 变成例如现在很火的neural network models(aka 黑箱)。当然拟合用的描述符也更多样化、前后期处理的protocol也更多。用的也不再是几个数据而是几千万、几亿的数据。

例如有小分子设计的ML方法是input SMILES,用neural network A换成描述符、再用那些描述符训练另一个neural network B、再用neural network A换回SMILES。
我的理解就是公式A结果训练公式B的weights,再用公式A换回人类看得懂的结果。

不过近来更火的Diffusion models还未完全理解,没找到较合适的比喻。
敬仰一针见血的指责,厌倦别有用心的赞美。

313

帖子

0

威望

3951

eV
积分
4264

Level 6 (一方通行)

秦都王城守卫教头

5#
发表于 Post on 2024-12-17 14:37:01 | 只看该作者 Only view this author
我觉得除了你和卢老师说的外,还有就是搞数据结构、模型算法的人把这个技术引入到了化学材料领域,人工智能大数据本身就不是物理化学等领域的产物,这对传统学科冲击太大了
用心去观察这纷纷扰扰的红尘

112

帖子

0

威望

776

eV
积分
888

Level 4 (黑子)

6#
发表于 Post on 2024-12-17 17:50:52 | 只看该作者 Only view this author
传统的机器学习确实是1的样子,这种研究范式常见于药物研发,其实他们还有一个名字,叫做“定量构效关系”(QSAR),这应该是目前比较好做的一种形式;

2其实已经开始有了深度学习的样子,我个人认为已经是深度学习的雏形。关键的判断因素就在你说的“黑箱”,机器学习其实是具有较强可解释性的,深度学习更倾向于形成你说的这种“黑箱”一样的训练结果,当然,后期可以通过逻辑回归或者看一下哪个节点被highlight了,也能取得一定的可解释性。

最前沿的就是3,结合大语言模型,给个分子式就能拿到预测的结果。这个预测结果可以是1中的分子描述符,也可以是更高级的性能数据,等等。这部分国内一些发展比较早的课题组已经在开始做了,似乎已经能够把图形学习的一些思想和手段用到这上面了(今年看过一个专访,南大马晶老师提过这一点)。

(个人拙见,请指正)

45

帖子

1

威望

968

eV
积分
1033

Level 4 (黑子)

7#
发表于 Post on 2025-1-10 16:00:37 | 只看该作者 Only view this author
1如果是用符号回归找公式的话算ML,给定公式做拟合不算。

2是否黑箱取决于是否用了人工神经网络,传统点的ML模型其实解释性还挺好的,比如支持向量机、决策树之类的,要是用了神经网络的话解释性就很差了。当然也有人声称神经网络可以解释,整体看还处于探索期。

3应该属于深度学习,描述符本身的物理意义都很差了,更不用说构效关系了,所以往往依赖数万以上的大数据力大飞砖。

这些方法的本质都是在训练集上找规律,然后在测试集上做预测,所以都是内推性回归(而非外插),传统方法也能做回归,所以有相似之处。
除了回归,更前沿的问题是反向设计,按照要求的性能设计材料的结构,这就是传统方法难做到的了,当然现在的ML也很难做到。
还有一些解释性工具,比如最常用的SHAP,可以拆开看不同描述符的边际贡献,我觉得这也是优于传统方法的(比如主成分分析只能处理线性关系)。

(只做了ML一年,欢迎讨论)

评分 Rate

参与人数
Participants 1
eV +5 收起 理由
Reason
lemon_electron + 5 赞!

查看全部评分 View all ratings

120

帖子

0

威望

2376

eV
积分
2496

Level 5 (御坂)

#未来可寄

8#
发表于 Post on 2025-1-10 16:13:53 | 只看该作者 Only view this author
如果可用的数据量很少,用什么方法比较好呢

11

帖子

0

威望

1091

eV
积分
1102

Level 4 (黑子)

9#
发表于 Post on 2025-1-17 09:33:17 | 只看该作者 Only view this author
QuantumicGuy 发表于 2025-1-10 16:13
如果可用的数据量很少,用什么方法比较好呢

少样本学习就试试看主动学习或者迁移学习

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2026-2-21 20:12 , Processed in 0.162625 second(s), 21 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list