|
本帖最后由 Jerry_Fan 于 2025-4-13 20:26 编辑
你好,请问你后续做的怎么样了?我现在在纠结要不要进行下去。我只有300左右原子,选定了7501帧cp2k的AIMD数据作为初始数据集,之后开始用dpgen进行迭代。但是我发现,我的dp训练过程中,训练1000步需要超过10分钟,即使按照文献中最少训练的50W步也需要80多个小时。这还是在双路128核心超算上跑的(只有CPU)。此外同批次训练4个模型,迭代至少5轮,这个开销还是特别大,同时时间也很久。这还没有算上dpgen的探索和标记中的计算过程,这个过程光是想想就觉得花费不起,还需要考虑其中的bug,以及可能计算错的数据,包括不理想的结果。比如我之前在公社里面还贴出了cp2k计算出的可能存在的问题(或许不是问题),Hieshfeld电荷问题在google cp2k group里面开发者回复可能是cp2k本身潜在的问题。当然还有态密度等等问题。因此,我想问下你的开销大约多少?或者这个时间是否能够接受?或者这个训练的是不是合理的?(我在dpgen的社区里面也提出了这个问题https://github.com/deepmodeling/dpgen/discussions/1740)
最近,因为在思考反应力场适用性的问题,想着对比一下反应力场计算和cp2k计算的能量,但是cp2k得结果在-3300hartree左右,这和lammps用计算的-30000多kcal/mol完全没法比较(我知道确实不应该比较绝对值/以及可能的基组赝势选取问题/用的DZVP即使可能精度不够),但是这差距甚大,我有些不明白文献中DFT和reaxff能量结果对比是怎么获得的。反应力场现在用的确实太杂了,很多人甚至不明白就用,我读了能找到的文献,用反应力场做的文献我完全找不到对应的反应力场文件,都是各种组合而来,这显然是不合理的。因此,我也在验证对比已有的一些反应场文件能否适用我的体系。 |
|