计算化学公社

 找回密码 Forget password
 注册 Register
Views: 7970|回复 Reply: 5

[科研杂谈] 关于计算材料学的就业问题

[复制链接 Copy URL]

33

帖子

0

威望

2543

eV
积分
2576

Level 5 (御坂)

发表于 Post on 2021-3-14 20:51:36 | 显示全部楼层 Show all |阅读模式 Reading model
本帖最后由 泡泡媛 于 2021-4-15 10:06 编辑


陆陆续续看到了腾讯(固体、分子)、华为(分子,据说固体好像也有)、字节跳动(分子),微软都在招计算背景的人,就想说说我最近的一些想法,主要从材料专业或者说计算材料学的角度讲讲。

一、计算与机器学习

首先是我觉得业界是因为机器学习的大背景,开始注意到计算的。我觉得做计算做的非常好的人应该去学,但不要抛掉计算,不要扎堆去学深度学习,把机器学习作为辅助工具。
实验的数据质量和数据大小而言,我不看好在前沿或者是不成熟的情况下,仅仅凭借机器学习来推动研发和生产,对于实验室,通过人工做实验的方法来积攒数据,是个效率太低下的方法,并且可重复性还是个大问题。

至于我为什么不看好在实验室做机器学习?
第一获得合适样本的高质量数据是制约机器学习能不能起作用的重要问题。当然不是说一定都要好的数据,但合适的数据量还是挺重要的。
第二同计算相比,机器学习跟实验的关系并不是独立并行的,要推进的话有严重的时间滞后性。想要走在实验的前面,起引领作用我觉得比较难。
第三机器学习的本质是分析数据,其实还是通过大量经验的积攒,以数学的方法去归纳总结规律。也就是说没有绕开实验,跟实验的关系还是同根同源。

也就是说在没有较大量的优质的数据的情况下,机器学习是无法起主导性、关键性的作用的。尤其是当下最火的深度学习,也是非常需要庞大样本的数据的。
所以对于做计算的人来说从事机器学习,构建材料体系的数据库是一个非常重要的问题。对于业界来说,有非常多不理想的实际问题需要解决,业界并没有非常完美的理想的规整的数据可以处理。

那么机器学习可以在工业界发挥作用的地方
1.单纯作为数学的工具,用于筛选实验中影响实验结果的影响因素,因为在实际的研究或生产中,有非常多的条件可能会对最终的结果产生影响,这是计算无法考虑到的
2.其实机器学习还有一个不太成熟的方向是小样本学习,但这个方向可能是工业界未来会重点关注的,详细的原因上面已经提到了。

其实要想完全解决材料学科实验盲目试错的大问题,那就是要把实验、计算、机器学习这三者都走通,三者相互补足。明确这三者的试用范围、条件,以及在现阶段可以解决的具体问题。
我现在的看法是要有所侧重,计算作为主体,机器学习作为辅助,实验作为了解问题的手段

一切的方法都要以明确复杂体系结构与性能之间的关系为着力点
我想工业界的最大特点就是务实地去解决问题,前沿的先进的科学技术能不能用来解决生产和研究中的问题。这才是学习机器学习、人工智能的意义

二、计算在业界的潜在可能性

我想可能十年内计算还是无法完全摆脱它的研究性质,上升到研发层面。我觉得虽然是技术人员除了关心技术问题以外,引领性、方向性的问题思考一下也是很有必要的。
从工业界的招人角度来讲,我想有三类公司可能会去招聘计算背景的人

一、家大业大,有足够的资金去支撑起非常前沿的且不确定性非常大的研究,把一些前沿的火热的研究方向作为公司战略布局的一部分
二、实验的推进比较困难,需要借助其他手段或者说是避开实验来推进研究
三、工业界中已经应用的比较成熟的体系

其实对于做计算的人来说也是一项重大的挑战,那就是要有很多相关领域背景的知识,可能专注于算电子结构还不够,需要把材料体系从微观到宏观涉及到的很多问题都走通。
工业界一直都很缺乏有强大技术背景,有技术实力以及将计算落地的人。对于业界而言,同计算机专业一样,做计算也要做到活到老学到老的准备。跟机器学习一样,计算对于业界而言也是一个创新性比较强并且不确定性极高的研究方向,适合有冒险精神并且喜欢钻研新知识的人来从事。

三、关于计算软件

这也是一个可以把计算的影响力尽可能扩大的方向,也是极其费尽心力的。无论是从研究的角度来看,还是注重产品落地的方面来看,我觉得相对于文章,软件对于业界来说是更有分量的。
不借助于学术界的力量,自行开发或许短期内费力不讨好,但从长远的角度来讲,我觉得非常有实用意义。
国产计算软件的开发推广、大规模地成熟应用以及将计算应用在业界的一些复杂体系上,是计算生态圈能否良性循环的关键问题,可能也是一个非常大的难题。
对计算有很大的热情,并且学习自然科学有天赋的人完全转行去做程序员,去做机器学习,我觉得真的是件非常可惜的事。


四、关于匹配问题


计算是个很难应用的方向,所以真的不建议很多人来学,要及时退出,做自己喜欢做的事情,找到自己的天赋领域才是最重要的,名声、头衔、外在、金钱一切都不重要,不要盲目地追随热点,重要的是你发自内心想做的,一直以来长期要做的。


参考链接:
1.如何评计算化学在国内的发展及未来趋势?    https://www.zhihu.com/question/395121883/answer/1563960945
2.鄂维南院士:机器学习的数学理论和科学应用 https://zhuanlan.zhihu.com/p/112274669



评分 Rate

参与人数
Participants 2
eV +6 收起 理由
Reason
胖鱼加加 + 3 我很赞同
somnus133937 + 3 GJ!

查看全部评分 View all ratings

4万

帖子

99

威望

4万

eV
积分
89975

管理员

公社社长+计算化学玩家

发表于 Post on 2021-3-15 03:20:52 | 显示全部楼层 Show all
关于要不要机器学习这点,关键是要认识到极其学习的巨大局限性,这里谈谈
机器学习关键局限性有二:(1)预测的模型只能用于与训练集有足够相似的体系,缺乏一般计算方法的普适性、可移植性(2)需要足够大的高质量训练集。尤其是深度神经网络类型的模型,对训练集规模要求很高,至少几千、几万,甚至十几、几十万、上百万,靠可靠(难免昂贵)的计算方法准备高质量数据集就颇为费劲的。如果最终搞出来的机器学习模型其实用武之地有限的话,训练模型时付出的那么多计算量还不如直接用来做计算呢。

由于这俩问题,对大多数实际化学研究的问题,机器学习能起到的用处有限。然而现在的很多人一听机器学习热门,就一股脑跟风去搞,甚至忽视了更有意义、更有效的其它研究方式,这很鲁莽。

有个例子值得说一下。ANI机器学习势挺热门的,其中ANI-1ccx是对50万个有机体系的CCSD(T)/CBS结果当训练集,然而根据Int J Quantum Chem. 2021;121:e26381算大批有机体系构象能量差的测试,ANI-1cxx的整体精度还不如GFN-xTB,更远不及DFT,耗时上还并不比GFN-xTB低,而且支持的元素还特别少,还没法算过渡态等等。可见单纯靠机器学习暴力解决问题绝对不是什么好办法。

当然机器学习也有有实用性的一面,诸如Nature Material, 15, 1120 (2016)里要对160万种donor-(bridge)n-acceptor (n=0,1,2)化合物找出有价值的TADF材料,通过4万个样本做TDDFT训练深度学习模型,最后筛选出40万个值得接下来做实际TDDFT计算的体系,这确实节约了几倍的耗时避免对没价值的体系做TDDFT。

所以要不要搞机器学习,关键要弄明白其长处和短处,看实际研究的问题适不适合,切勿跟风。

还应弄明白的一点是机器学习是个很大的范畴,对于计算化学问题,机器学习意味着建立廉价的又有足够可靠度的预测模型。非常常用的线性、非线性拟合都属于机器学习,对这种简单的模型,十几、几十个样本也完全可以构建机器学习模型,比如下面的例子
使用Multiwfn预测晶体密度、蒸发焓、沸点、溶解自由能等性质
http://sobereva.com/337http://bbs.keinsci.com/thread-3571-1-1.html
透彻认识氢键本质、简单可靠地估计氢键强度:一篇2019年JCC上的重要研究文章介绍
http://sobereva.com/513http://bbs.keinsci.com/thread-14600-1-1.html

所以机器学习并不复杂(除非做深了,自己写/改程序、自己设计新模型和描述符等),做机器学习和做计算并不矛盾、不冲突。机器学习完全可以作为一个工具来用,当实际研究中突然意识到某些问题用机器学习会很划算的时候,再试图训练个模型出来。切勿为了机器学习而机器学习。

评分 Rate

参与人数
Participants 2
eV +4 收起 理由
Reason
chenyx + 2 赞!
泡泡媛 + 2 我很赞同

查看全部评分 View all ratings

北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办最高质量的各种计算化学类培训:初级量子化学培训班基础(中级)量子化学培训班分子动力学与GROMACS培训班量子化学波函数分析与Multiwfn程序培训班,内容介绍以及往届资料购买请点击链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的最佳途径。培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入“北京科音”微信公众号获取培训最新消息、避免错过网上最有价值的计算化学文章!
欢迎加入人气最高、水准最高的综合性理论与计算化学交流QQ群“思想家公社QQ群”:1号:18616395,2号:466017436,3号:764390338,搜索群号能搜到哪个说明目前哪个能加,合计9000人,讨论范畴相同
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(最强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

12

帖子

0

威望

141

eV
积分
153

Level 3 能力者

发表于 Post on 2021-4-14 17:27:56 | 显示全部楼层 Show all
借个楼,其实不仅是材料,在药学也是,现在机器学习在药物研发设计方面也比较热门,刚好前两天看了sob老师另一篇博文,《乱谈计算化学领域的研究生就业问题》(http://sobereva.com/241),很多问题确实值得我们重视和思考,但是看时间那个是14年写的,这几年国内做AI+药物研发的公司也在起步,比如**科技, 不知道老师和大家现在对计算化学在药学领域的发展有什么见解呢,好想听一听

33

帖子

0

威望

2543

eV
积分
2576

Level 5 (御坂)

 楼主 Author| 发表于 Post on 2021-4-15 09:50:20 | 显示全部楼层 Show all
一岫云 发表于 2021-4-14 17:27
借个楼,其实不仅是材料,在药学也是,现在机器学习在药物研发设计方面也比较热门,刚好前两天看了sob老师 ...

我觉得药物设计这一块比材料计算好应用一些,虽然我对大分子不太了解

196

帖子

0

威望

3968

eV
积分
4164

Level 6 (一方通行)

发表于 Post on 2021-4-16 19:22:30 | 显示全部楼层 Show all
我去*泰面试过,也看到过字节的广告。腾讯和华为的广告能否分享一下?

我的感受是,企业需要的技能和学校里面发文章的技能差别很大(知乎的回答说的就很好),而且国内有能力指导做方法的老师也很少。因此,如果想研究生毕业后去企业做科学计算,目前找不到一条比较系统的路径。相比之下,直接转行计算机反而更简单,目标更清晰。

33

帖子

0

威望

2543

eV
积分
2576

Level 5 (御坂)

 楼主 Author| 发表于 Post on 2021-4-16 20:25:00 | 显示全部楼层 Show all
get-it 发表于 2021-4-16 19:22
我去*泰面试过,也看到过字节的广告。腾讯和华为的广告能否分享一下?

我的感受是,企业需要的技能和学 ...

研究类的岗位就是这样的,不存在系统的路径 ,怎么说呢?有些东西是要去企业工作后自己总结下来的,虽然说理论是一套,但是经验还是得一步步积累,计算的应用方向就是个冒险的活,这是现实,冒险和保守必要选一个

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2023-2-7 03:59 , Processed in 0.182456 second(s), 22 queries .

快速回复 返回顶部 返回列表 Return to list