我最近用GPU加速lammps计算,kokkos加速,然后发现计算发现,单卡的适合计算没问题,但是多卡并行计算的时候,发现只一个卡在计算,其他卡基本上出工不出力,功耗很低,,调用不起来,不知道你遇到过没有 |
Graphite 发表于 2024-2-27 18:55 感谢,测试上4~8 OMP效果上要相对好一些,有些集群很怪,纯MPI居然跑不起来 |
本帖最后由 Graphite 于 2024-2-27 18:56 编辑 lmch 发表于 2024-2-27 15:36 节点间mpi通信+节点内部分omp还可以,具体看整个计算系统的架构,要最大化性能得专门调优,找到甜区,比如4 node× 8 MPI×4 OMP之类。 |
Graphite 发表于 2024-1-25 15:09 多节点的话OMP包加速的效果怎么样,我自己测感觉要比纯MPI并行的效果好一些 |
ggshining 发表于 2024-1-24 22:32 大部分情况值得一试tiled+rcb,但不绝对:一方面是有些功能/fix只适配第一种最简单划分;另一方面是复杂划分舍弃了空间上的平均均,在如含能材料向真空爆炸、快速的冲击、蒸发等情况下,容易粒子越界崩。(不过这些情况也不用跑太久就是了) |
从图中来看是不是表明tiled样式+rcb方式的划分最好?是否推荐用这个样式,还是推荐中间的brick样式+shift方式? |
手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图
GMT+8, 2024-11-23 19:46 , Processed in 0.179928 second(s), 27 queries , Gzip On.