NAMD 3080Ti 38万原子，0.36 days/ns 是不是慢的不正常？

darkseal · 发表于 Post on 2021-11-1 14:46:32

机器配置 i9-11900KF，64G内存，3080Ti,安装了NAMD 2.14 GPU win10版本。
运行了一个38万原子的蛋白的模拟，都是缺省设置，居然要0.36 days/ns，每天只能做3 ns, 是不是win版的namd就是这么慢？
GPU内存使用2G左右，cuda利用也就30%左右，
如果换到linux，大概能做到多快？

abin · 发表于 Post on 2021-11-1 15:05:22

检测一下是否读盘？

如果读盘很厉害，可以升级硬盘，提高随机读写性能。
也就是提升硬盘并发I/O性能。

darkseal · 发表于 Post on 2021-11-1 15:10:16

应该不是读盘的问题，虽然不是ssd，但是磁盘active time都5%不到

biogon · 发表于 Post on 2021-11-1 15:14:18

先换linux看，这占用率这么低能快么

k64_cc · 发表于 Post on 2021-11-1 15:52:58

本帖最后由 k64_cc 于 2021-11-1 15:54 编辑

GPU利用率不够就换NAMD v3，你这多半是CPU部分拉胯了。

CPU-GPU联合的方案（GMX，NAMD v2）与纯GPU的方案（Amber，OpenMM，NAMD v3）目前各擅胜场，在不同机器、不同体系中优劣很可能相反。建议都测一测。

喵星大佬 · 发表于 Post on 2021-11-1 16:30:50

你可以先在WSL里面自己编译下看看

darkseal · 发表于 Post on 2021-11-9 15:22:52

最近换了ubuntu 18.04，cpu 11900kf, gpu 3080Ti，namd2 0.21days/ns, namd3 0.22 days/ns .
38万原子。gpu 占用率30%左右。
对比win 下的数据，namd2 要快不少。namd3没有win版，没有对比。

Entropy.S.I · 发表于 Post on 2021-11-10 01:41:05

本帖最后由 Entropy.S.I 于 2021-11-10 02:39 编辑

Ubuntu 20.04这么舒服为啥还要去折腾18.04。
GPU占用低明显是CPU瓶颈，一个案例：GMX跑20万原子体系，rvdw=1.4，用5950X 16核心带3080Ti可以达到70% GPU占用，功耗330W，频率1950MHz，速度60ns/d。
鄙人不用NAMD，但猜测应该和GMX类似，用GPU加速的情况下对CPU也是有一定要求的，买了高端GPU的同时别忘了配上够强的CPU，3080Ti单精度浮点性能34 TFLOPS左右，是2080Ti的2倍多，2060的4倍多，11900KF才8核心16线程，带20系高端卡还可以，带30系高端卡就远远不够了。对于跑GMX的情况，要想发挥3080Ti大部分性能，应该用5950X，要想榨干可能得3975WX

喵星大佬 · 发表于 Post on 2021-11-10 11:03:29

本帖最后由喵星大佬于 2021-11-10 11:06 编辑

Entropy.S.I 发表于 2021-11-10 01:41
Ubuntu 20.04这么舒服为啥还要去折腾18.04。
GPU占用低明显是CPU瓶颈，一个案例：GMX跑20万原子体系，rvdw ...

这跟程序有关系，Gromacs从2020版本开始，包括缓冲区，更新坐标和约束可以全部放到GPU上，每个走步循环不再需要和cpu通信，单卡的情况下对CPU没有什么要求，随便什么CPU都可以，多卡的情况最好各跑各的也没啥影响，没有NVLink的多卡并行基本上是负效果不用考虑。但是NAMD似乎是有不同的设计思想，因此对CPU有要求。

Entropy.S.I · 发表于 Post on 2021-11-10 12:25:25

喵星大佬发表于 2021-11-10 11:03
这跟程序有关系，Gromacs从2020版本开始，包括缓冲区，更新坐标和约束可以全部放到GPU上，每个走步循环不 ...

我测试2020.6的结果表明双CPU & 双卡无桥连器在调到合适的MPI Rank数和OpenMP线程数后相对于单CPU & 单卡，可以实现接近翻倍的效果，两个月前把这个结果告诉钟叔，他也测试了，确实是这样。比如2 × XEON 5220R & 2 × RTX4000，需要-ntmpi 8 -ntomp 6；2 × XEON 5220 & 2 × RTX2060，需要-ntmpi 12 -ntomp 3
我日常用的就是Gromacs 2020.6，测试过很多CPU和GPU的组合，发现对CPU要求不低，单精度浮点性能越强的GPU对CPU要求越高，并且用双路CPU带一张GPU会导致极大的损耗。
要发挥出大部分性能，2060需要8核4.3GHz的Skylake CPU（XEON W-2145），1080Ti需要18核2.7GHz的Skylake CPU（XEON 5220），3060Ti需要24核2.9GHz的Skylake CPU（XEON 5220R）或12核4.5GHz的的Zen3 CPU（5950X绑定12核），3080Ti和3090需要至少16核4.5GHz的Zen3 CPU（5950X）并用满超线程。
如果体系特别巨大，还需要更强的CPU

喵星大佬 · 发表于 Post on 2021-11-10 12:32:01

Entropy.S.I 发表于 2021-11-10 12:25
我测试2020.6的结果表明双CPU & 双卡无桥连器在调到合适的MPI Rank数和OpenMP线程数后相对于单CPU & 单卡 ...

我记得20开始是可以把所有计算全部挪到GPU上的，那样速度会怎么样呢？省掉了通信时间

Entropy.S.I · 发表于 Post on 2021-11-10 12:51:55

喵星大佬发表于 2021-11-10 12:32
我记得20开始是可以把所有计算全部挪到GPU上的，那样速度会怎么样呢？省掉了通信时间

这不是测出来了嘛，对CPU要求不低，考虑性价比的话还是消费级平台比较好，Ryzen支持ECC内存，很不错。我今年才刚开始做MD，上来用的就是Ubuntu20.04 & CUDA11 & GMX2020.6（顺便把实验室所有机子都重新装了一遍…），20以前的GPU加速版本用得很少，没有做测试

喵星大佬 · 发表于 Post on 2021-11-10 12:56:37

Entropy.S.I 发表于 2021-11-10 12:51
这不是测出来了嘛，对CPU要求不低，考虑性价比的话还是消费级平台比较好，Ryzen支持ECC内存，很不错。我 ...

这个挺奇怪的，照理说这时候cpu已经可以摸鱼了

喵星大佬 · 发表于 Post on 2021-12-11 02:41:33

本帖最后由喵星大佬于 2021-12-11 02:43 编辑

Entropy.S.I 发表于 2021-11-10 12:51
这不是测出来了嘛，对CPU要求不低，考虑性价比的话还是消费级平台比较好，Ryzen支持ECC内存，很不错。我 ...

那么像10980XE这样的cpu能带动一张3080Ti或3090嘛？两张3060Ti或3070呢？(360一体水冷，没设置超频也不知道这个冷却条件能超到多少)

再就是速度跟PCIe3.0/4.0有关嘛？毕竟通信消耗了大量时间

还有就是降低邻居列表搜索频率是否可以降低对CPU的要求？毕竟CPU真正在跑的主要是这玩意

Entropy.S.I · 发表于 Post on 2021-12-11 10:27:34

本帖最后由 Entropy.S.I 于 2021-12-11 10:34 编辑

喵星大佬发表于 2021-12-11 02:41
那么像10980XE这样的cpu能带动一张3080Ti或3090嘛？两张3060Ti或3070呢？(360一体水冷，没设置超频也不知 ...

现在和10980XE性能相近的XEON W-3175X（略超一下频）很便宜，6k左右就能买到，支持6通道RECC内存，挺不错的。这个绝对能带的动3080Ti，当然如果有土豪用性能超强还支持PCIe 4.0的8375C去带3080Ti，那更完美（感觉8375C带未来浮点再翻一倍的4090也不成问题）。
我发现在我的测试中出现严重的I/O瓶颈可能是因为我的测试任务的nstcalcenergy都设置得很小（=5），而gmx手册中原话是“This option affects the performance in parallel simulations, because calculating energies requires global communication between all processes which can become a bottleneck at high parallelization.”
有空试试一般情况（nstcalcenergy=100）下的性能，不过最近可能没空，年底了有些任务挺着急的。。
和PCIe带宽肯定是密切相关的，在跑超大的体系时，也和内存带宽有一定关系（这个做过测试，5950X的双通道DDR4 3200在跑30w以上原子时就开始成为短板了，具体表现就是双通道3200比双通道2400快30%），这些都是通信的瓶颈。
降低邻居列表更新频率会一定程度上影响轨迹精度，调这个不太合适吧（鄙人对精度有强迫症，不然也不会用rvdw=1.4，nstcalcenergy=5这种极端设置了…之前模拟表面张力，甚至用上了PME来算范德华作用）

		自动登录 Automatic login	找回密码 Forget password
密码 Password			注册 Register

[NAMD] NAMD 3080Ti 38万原子，0.36 days/ns 是不是慢的不正常？

评分 Rate

浏览过的版块