计算化学公社

 找回密码 Forget password
 注册 Register
Views: 20925|回复 Reply: 23
打印 Print 上一主题 Last thread 下一主题 Next thread

[综合交流] 机器学习实例介绍

  [复制链接 Copy URL]

279

帖子

4

威望

2137

eV
积分
2496

管理员

跳转到指定楼层 Go to specific reply
楼主
最近在海外购买了一些不错的书籍,系统性的对scikit-learn做了介绍。由于书籍是日文的,为了方便与大家分享这些书中比较实用的例子,帮助机器学习小白尽快尽量简单的入门,能动手实际做一些机器学习的例子,特意编写了这个PPT。由于书籍中的内容很多,我也是边总结边做,PPT会保持不定期的更新。


已于2020-3-18更新part1部分的PPT,完整版中包含更多的构建回归预测模型的实例。
已于2020-3-24上传part2的完整版PPT,包含更多的构建分类预测模型的实例。
已于2020-3-28上传part3,part4的完整版PPT,包含更多的聚类预测模型和数据降维(次元削减)的实例。
已于2020-4-15上传part5,part6的完整版PPT,包含更多的模型评价和预处理与实战分析的实例。

机器学习实操part1-完整版.pdf

872.11 KB, 下载次数 Times of downloads: 1655

机器学习实操part2.pdf

527.9 KB, 下载次数 Times of downloads: 1027

机器学习实操part4.pdf

293.47 KB, 下载次数 Times of downloads: 850

机器学习实操part3.pdf

487.38 KB, 下载次数 Times of downloads: 892

机器学习实操part5.pdf

203.68 KB, 下载次数 Times of downloads: 745

机器学习实操part6.pdf

2.51 MB, 下载次数 Times of downloads: 858

评分 Rate

参与人数
Participants 55
威望 +1 eV +214 收起 理由
Reason
伍度零 + 3 赞!
smallyang + 4 谢谢分享
Qianmou2718 + 5 谢谢
zhonghairong + 4 谢谢
hamigung + 5 赞!
刹那芳华1990 + 5 好物!
piggyFLYING + 1 谢谢
yuyangzap + 5 好物!
咚咚咚咚锵 + 4 赞!
klc + 3 好物!
fuqi + 3 赞!
Aletyx + 4 好物!
超限制抱怨 + 1 谢谢
630380802 + 5 好物!
lesliewoohoo + 3 谢谢
sbchen + 1 赞!
不是波纹纱 + 1 精品内容
StormSpirts + 5 好物!
pepper + 5 好物!
frank666 + 5

查看全部评分 View all ratings

一花一世界,一叶一追寻。一曲一场叹,一生为一人

189

帖子

0

威望

1677

eV
积分
1866

Level 5 (御坂)

2#
发表于 Post on 2020-3-13 23:00:49 | 只看该作者 Only view this author
哇 谢谢陈老师 收藏先

239

帖子

0

威望

2281

eV
积分
2520

Level 5 (御坂)

3#
发表于 Post on 2020-3-13 23:24:36 | 只看该作者 Only view this author

62

帖子

0

威望

1059

eV
积分
1121

Level 4 (黑子)

4#
发表于 Post on 2020-3-14 10:46:40 | 只看该作者 Only view this author
柒月小鱼 发表于 2020-3-13 23:24
https://www.bilibili.com/video/av88260116?p=47
配合食用

谢谢。请问这个适合基础差的吗,平时做课设只用C语言,C语言也不是很6 。

3814

帖子

4

威望

8002

eV
积分
11896

Level 6 (一方通行)

MOKIT开发者

5#
发表于 Post on 2020-3-14 11:35:30 | 只看该作者 Only view this author
Peter_zhong 发表于 2020-3-14 10:46
谢谢。请问这个适合基础差的吗,平时做课设只用C语言,C语言也不是很6 。

你点进去看看目录便知。零基础都行,在慕课上南大有两门Python公开课。任选一门。

评分 Rate

参与人数
Participants 1
eV +3 收起 理由
Reason
Peter_zhong + 3 谢谢

查看全部评分 View all ratings

自动做多参考态计算的程序MOKIT

279

帖子

4

威望

2137

eV
积分
2496

管理员

6#
 楼主 Author| 发表于 Post on 2020-3-14 13:11:16 | 只看该作者 Only view this author
Peter_zhong 发表于 2020-3-14 10:46
谢谢。请问这个适合基础差的吗,平时做课设只用C语言,C语言也不是很6 。

适合零基础的

评分 Rate

参与人数
Participants 1
eV +3 收起 理由
Reason
Peter_zhong + 3 谢谢

查看全部评分 View all ratings

一花一世界,一叶一追寻。一曲一场叹,一生为一人

471

帖子

0

威望

1795

eV
积分
2266

Level 5 (御坂)

7#
发表于 Post on 2020-3-14 14:50:45 | 只看该作者 Only view this author
模式识别----计算化学----化学计量学-----化学信息学----数据挖掘-----深度学习-----机器学习......
一路走来,越来越显得高大上了.....
machine learning这东西对于总结规律并预测是有用的,诸多方法中,曾经挚爱GP,只盼来生,不念过往......

评分 Rate

参与人数
Participants 1
eV +3 收起 理由
Reason
Peter_zhong + 3 谢谢

查看全部评分 View all ratings

161

帖子

0

威望

605

eV
积分
766

Level 4 (黑子)

蓝卫兵

8#
发表于 Post on 2020-3-19 22:46:21 | 只看该作者 Only view this author
sobereva 发表于 2020-3-14 19:31
预告:北京科音高级量子化学培训班有一部分内容是讲机器学习的概念和在计算化学中的应用,其中我讲大约2/3 ...

机器学习+计算化学 的东西实际上非常尴尬
预测能量、静电势、极化率什么的 用普通的量化也能算
新模型提出了也就用来发文章看看
ML力场这个东西需要很大的训练集
感觉这方面暂时没什么实际用途
B样条插值
个人专栏https://zhuanlan.zhihu.com/p/21936803

5万

帖子

99

威望

5万

eV
积分
112496

管理员

公社社长

9#
发表于 Post on 2020-3-19 23:59:21 | 只看该作者 Only view this author
pyscf 发表于 2020-3-19 22:46
机器学习+计算化学 的东西实际上非常尴尬
预测能量、静电势、极化率什么的 用普通的量化也能算
新模型 ...

机器学习的价值在于可以通过预测的模型以很少的计算量达到很不错的结果,成本明显低于直接用量化算同样的精度,而且甚至可以做到快速一键计算(比如网页直接提交)。
对于某一类问题,如果有他人利用强大计算资源训练好了模型,自己用起来就很容易了。因此此类情况不必担心耗时问题。
即便是自己训练的情况,也可以做到收益明显高于成本。比如跑分子动力学,直接做长时间的从头算动力学比较昂贵,但如果事先以有限的点数(比如两千)进行训练,则之后可以轻易通过ML势跑很长的轨迹,以及用于量子动力学等方面上(见比如sGDML的相关东西)。由于机器学习的实际价值,在VASP6也引入了构造和利用机器学习力场的功能。
“新模型提出了也就用来发文章看看”这是偏见。的确有很多机器学习研究的作者发完文章就了事了,最终没起到什么实际价值,但也有不少机器学习文章发出来的同时还给了预测工具,而且有些还是挺不容易计算的(例如用于预测原子数很多的固体核磁问题)。
多了解一些ML在化学中的(正确)应用就会对机器学习的价值有所充分认识。而了解不够多、或者只看一些不恰当或失败的应用范例的话,很容易会对机器学习有误解,以为是炒作出来的没用的东西。(实际上,在我广泛了解机器学习在计算化学中的应用之前,我一度以为机器学习是在跟风、炒作,直到了解多了后发现存在一些确实有实际价值的基于机器学习的与计算、量子化学有关的工具,以及看到一些机器学习能带来不可替代性的收益的研究文章)

推荐几个机器学习起到实际价值的范例:
Nature Material, 15, 1120 (2016):其中利用到机器学习筛选值得后续进一步量化计算的TADF分子
Nat. Commun., 9, 4501 (2018):机器学习预测固体NMR,并且给了在线工具https://www.materialscloud.org/work/tools/shiftml
Proc. Natl. Acad. Sci., 116, 3401 (2019):机器学习预测B3LYP与CCSD极化率的差值,有在线工具:https://www.materialscloud.org/work/tools/alphaml


北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入“北京科音”微信公众号获取北京科音培训的最新消息、避免错过网上有价值的计算化学文章!
欢迎加入人气非常高、专业性特别强的综合性理论与计算化学交流QQ群“思想家公社QQ群”:1号:18616395,2号:466017436,3号:764390338,搜索群号能搜到哪个说明目前哪个能加,合计9000人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

2479

帖子

11

威望

6864

eV
积分
9563

Level 6 (一方通行)

10#
发表于 Post on 2020-3-21 22:08:18 | 只看该作者 Only view this author
sobereva 发表于 2020-3-19 23:59
机器学习的价值在于可以通过预测的模型以很少的计算量达到很不错的结果,成本明显低于直接用量化算同样的 ...

说到机器学习,怎么能落下神经网络呢?(TensorFlow大法好!)

1043

帖子

0

威望

4112

eV
积分
5155

Level 6 (一方通行)

11#
发表于 Post on 2020-3-21 23:21:05 | 只看该作者 Only view this author
sobereva 发表于 2020-3-19 23:59
机器学习的价值在于可以通过预测的模型以很少的计算量达到很不错的结果,成本明显低于直接用量化算同样的 ...

私以为机器学习只能告诉你是什么,却很难告诉你为什么。 要知道为什么还得去人为地分析和思考。一个根本问题在于,相关性并不意味着因果关系——除非你让机器真正做到逻辑推理。。

评分 Rate

参与人数
Participants 1
eV +5 收起 理由
Reason
jitou11 + 5 我很赞同

查看全部评分 View all ratings

3098

帖子

28

威望

1万

eV
积分
16892

Level 6 (一方通行)

12#
发表于 Post on 2020-3-22 05:05:46 | 只看该作者 Only view this author
本帖最后由 liyuanhe211 于 2020-3-22 18:46 编辑
granvia 发表于 2020-3-21 23:21
私以为机器学习只能告诉你是什么,却很难告诉你为什么。 要知道为什么还得去人为地分析和思考。一个根本 ...

仅对通过机器学习归纳现有计算或实验数据、生成廉价优质的计算模型来说,“不能产生‘为什么’”并不是它“独有”的缺点。用DFT、post-HF做计算说A分子能量高B分子能量低,它们也没法直接告诉你“为什么”,也需要做另外的分析。

       之前我曾思考实验化学家喜欢提问“为什么”到底是什么意思。比如某分子有某行为,在我的理解中它是个完全的微观可预测事件,就没有“为什么”之说。

       实验化学家问的“为什么”其实是“如何预测”,而且是“如何用一个人脑计算量就够的计算模型预测”,并且对精度要求很低

-----------------------------------------------------------------------------------------------------
       比如说“为什么A分子的能量比B分子高”,答:
  • 因为你首先选择一些高斯基组、找个初猜、然后构建fock矩阵、对角化了它、走几圈、看看吐出来哪个数大
和答:
  • 因为A分子某两基团之间有排斥
相比,乍一看前者似乎就是算,后者“点明了本质”,其实没有本质区别。所谓“有排斥”也是一个“计算级别”,这个计算级别姑且算它是个力场:
《人脑位阻力场》:“分子能量仅由下述能量的加和决定:任意两个成键基团在D∈(2.5A, +∞)时为0,从2.5A开始不是0,越近能量越大,增大的梯度也随距离增大,增大的梯度大小不知道。”

《人脑位阻力场》准不准呢?准个毛线,弄个A分子左边俩基团有排斥,B分子右边有俩基团排斥,马上就懵逼;弄俩分子不但位阻有区别,立体电子效应也有区别,影响方向相同,问你“为什么能量低”的时候哪个是主要因素啊?不知道。

       然而不准又能咋样?无所谓:
       我今天做个反应点个板儿没动,一通分析“为什么”:用的碱位阻太大了,你看这个分子拔氢的过渡态可能长这样,这个碱啊它走到这儿就有位阻,所以拔氢决速,反应太慢。
       第二天换个甲基锂,照样不动。然而我不会骂我自己前一天预测的太不准了。因为我前一天分析的时候就知道,我用的是这是个计算速度极快,但准确度很低的模型。有的时候能提供个方向就行,错的时候也无所谓

-----------------------------------------------------------------------------------------------------
       上面是基于推演、降维出个“位阻”的概念,用了前人给搭的《人脑位阻力场》;
       那有没有基于归纳(基于数据库)的总结呢?有。

       比如我们大多数搞有机的人脑子里都有个大概的常用碱、常用亲核试剂的酸碱性排序亲核性排序,甚至还能再细化一点,对不同类型的亲电试剂、亲核试剂的排序还不大一样。
      
       再或者,要做某反应,查数据库有十万个结果,往下筛、筛到30篇文献,一篇一篇看完,总结出“有结构A的Lewis酸比有结构B的Lewis酸好”,我要先试试A。

       前者其实是拿人脑做了个降维分析,是可能看了每种亲核试剂的已有反应结果,多的看了一两百个,少的就看了一两个,脑子里一共可能不到500个数据,投影到一个最多二维、经常是一维的模型上
       准吗?不准。一定能说清楚因果关系吗?事后总能对规律做解释,事前常不能推导得到。

       后者其实就是拿20篇文献在脑子里训练了个模型,给每篇文献里用的试剂结构与反应结果的关系弄了个Classifier出来,而且这个Classifier只适用于我今天晚上查的这一个反应
       准吗?不准。一定能说清楚因果关系吗?事后总能对规律做解释,事前常不能推导得到。

-----------------------------------------------------------------------------------------------------
       从上面看出,其实很多人问“为什么”,其实就是要一个简单、快速、适用于具体问题(其实就是应用范围狭窄)、通常精度及可靠性不高的模型(与其他人讨论时有人强调直观,我认为直观不直观是训练出来的,比如分子轨道、立体电子效应模型其实极不直观,但习惯了就好了)

       然后发现机器学习跟这种思路的接近程度其实比一般量化计算还要高很多。

-----------------------------------------------------------------------------------------------------
       实验化学家到底喜不喜欢用“说不清为什么”的工具呢?

       我看挺喜欢的。

       Chem3D里有MM2力场优化,一键完成,能吐个能量出来。我是见过不少(水平至少还不坏)的有机化学家在一开始设计的时候参考这个结果,加个基团去个基团,看看能量增高了还是变低了,跟自己直觉相同就特别自信,跟直觉相反就心里发毛。
       那他们关不关心MM2出来的数“为什么”俩结构能量一个高一个低呢?他们会进一步用分子立场搞能量分解?我是没见过。
       (甚至你从背后看还能发现它其实用的是从ChemDraw里拷过去、用快速构建方法生成的结构,很可能不是最优构象;或者甚至连成键都变了,还拿分子立场能量去读)

       MestReNova里有个用随机森林机器学习出来的预测核磁位移的模型,能搞自动归属,鼠标一放就告诉你是这个氢的概率是绿的,是另一个氢的概率是黄的,如果没有证据就先给那个绿的呗,用的特别欢。
       那“为什么”这个是这个氢的概率大呢?谁知道呢。错了怎么办?一方面也不是完全无脑用,另一方面是做了其他实验有矛盾的再改呗。

       他们不喜欢做实验之前先跑个DFT、先跑个量子动力学,不是因为做实验的人嫌这些模型“不能说明为什么”,而是这些模型慢,还不好学。如果有个工具能一秒钟算任意体系相对论Full CI/CBS全维量子动力学显式溶剂统计行为,还有很多人关心为什么?我看会比现在少很多,多画几个结构试试就完了。

       所以化学家们要的更多的不是为什么,而是快速(用脑子还是计算机都行)、简便(最好是“一键”)的预测工具而已。之前常用于回答“为什么”的关键词(电性、位阻、前线轨道布居数、立体电子效应、Gap等等),其实背后也是一个个符合这样特征的预测工具。

-----------------------------------------------------------------------------------------------------
Summary

       实验化学家关心的并不是“为什么”,而是希望要一个“一键”使用、可快速计算完成(脑子/计算机)、精度凑合就行、适用于他自己体系就行的模型。

       机器学习一方面可以构造这样的计算工具(当然这只是机器学习在化学中的一种用法,一个方面),另一方面机器学习其实完全有可能通过降维等操作发现一些好的描述符。

       所以我觉得还是有用的。

-----------------------------------------------------------------------------------------------------
深夜胡说,欢迎批判讨论








评分 Rate

参与人数
Participants 17
eV +69 收起 理由
Reason
taciturn__ + 5
咚咚咚咚锵 + 4
lanthanum + 5 对实验化学家的需求,讲得如此明白,甚为感.
不是波纹纱 + 2 赞!
wzkchem5 + 5
含光君 + 3 精品内容
naoki + 2 你太可爱
qczgzly + 5 我很赞同
rich233 + 3 妙啊,其实和大数据有点像:变量太多,难以.
xiaolv + 2 好物!
lcdamoy + 4 赞!
cottondog + 5 とてもいい!
surongcc + 5 我很赞同
pika02 + 5 精品回复
cccb + 4 我很赞同
lonemen + 5 赞!
sobereva + 5

查看全部评分 View all ratings

5万

帖子

99

威望

5万

eV
积分
112496

管理员

公社社长

13#
发表于 Post on 2020-3-22 15:05:31 | 只看该作者 Only view this author
granvia 发表于 2020-3-21 23:21
私以为机器学习只能告诉你是什么,却很难告诉你为什么。 要知道为什么还得去人为地分析和思考。一个根本 ...

“告诉为什么”其实也不是机器学习本身关心的。如同明尼苏达派泛函,也不那么关注物理意义,结果好就行。尤其是深度神经网络,更是个黑得不能再黑的盒子。不过现在也有诸如Influence Relevance Voting方法,属于可解释神经网络,能从中洞察到有化学意义的信息。
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入“北京科音”微信公众号获取北京科音培训的最新消息、避免错过网上有价值的计算化学文章!
欢迎加入人气非常高、专业性特别强的综合性理论与计算化学交流QQ群“思想家公社QQ群”:1号:18616395,2号:466017436,3号:764390338,搜索群号能搜到哪个说明目前哪个能加,合计9000人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

245

帖子

0

威望

2576

eV
积分
2821

Level 5 (御坂)

14#
发表于 Post on 2020-3-23 21:18:37 | 只看该作者 Only view this author
噫,这个好,准备学起来。

1043

帖子

0

威望

4112

eV
积分
5155

Level 6 (一方通行)

15#
发表于 Post on 2020-3-30 14:22:27 | 只看该作者 Only view this author
sobereva 发表于 2020-3-22 15:05
“告诉为什么”其实也不是机器学习本身关心的。如同明尼苏达派泛函,也不那么关注物理意义,结果好就行。 ...

这个看法我赞同

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-27 10:20 , Processed in 0.198165 second(s), 25 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list