计算化学公社

标题: DPGEN训练集准备、训练参数的相关问题 [打印本页]

作者
Author:
Alset    时间: 4 day ago
标题: DPGEN训练集准备、训练参数的相关问题
老师们好,

最近我在学习DPGEN的使用,我主要参考学习了文章PRL【PHYSICAL REVIEW LETTERS 126, 236001 (2021)】中输入文件的写法(可从 https://www.aissquare.com/models/detail?name=H2O-Phase-Diagram-model&id=25&pageType=models下载),但是遇到了一些困惑,在这里请教一下大家。

1.用于训练初始模型的数据集(param.json中的"init_data_sys")有多重要?
我通过命令np.load(energy.npy)检查了PRL论文附带文件data/data.init/init_system.000/set.000/energy.npy。文件所包含的数组中有500个相同的数字:516.83954。我认为这意味着500个提取的结构具有相同的能量,它们将作为训练初始模型的数据集。这是否意味着初始数据集其实不重要?我只需要在后续的"fp"步骤中给出一个严格的收敛标准就可以了?
例如,我通过收敛性测试发现ENCUT收敛标准为1000,那么我是否可以在准备init_data_sys时,从ENCUT为400的AIMD模拟中提取几个帧,并将"fp"步骤的ENCUT设置为1000?

2.如何选择"model_devi"的初始结构(param.json中的"sys_configs")?
我检查了PRL论文提供的param.json文件,发现只包含了ice0X/0000[3-9]的结构。这些结构看起来是由dpgen init_bulk生成的,那么为什么ice0X/0000[1-2]的结构被忽略了?或者说这些结构仅仅是作者随机选取的?
(, 下载次数 Times of downloads: 0)

3.param.json 中的"sys_configs" 是否有尺寸要求?
如果我的理解是正确的话,在 "fp" 步骤中,与 "sys_configs" 尺寸相同的结构将进行单点能计算,这意味着如果我在 "sys_configs" 中使用较大的晶胞(>300原子),所有的单点能计算可能会花费很长时间。然而,如果我在 "sys_configs" 中使用小晶胞,不合理的自相互作用可能会被包含在 "model_devi"步骤的 DPMD 模拟中。那么,这是否意味着我应该使用足够大的晶胞来避免在 "model_devi"步骤的 DPMD期间的自相互作用?

4.如何在训练过程中设置不同的标记标准?
在 PRL 论文的SI中,作者提到:"The levels are set to 0.18 and 0.32 eV/˚ A in iterations 25 to 32, and to 0.20 and 0.35 eV/˚ A in iterations 33 to 36. Different convergence criteria are used at low (T ≤ 800 K) and high temperature (T > 800 K) to account for the different relative importance of thermal fluctuations." 这在 param.json 文件中是如何实现的?








欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3