5995wx 4.54 8.51 12.61 16.09 18.67 20.86 22.68 23.87 |
请问10000/耗时,是个什么单位呢,代表的是什么意思呢? |
大村驴 发表于 2022-5-31 19:46 这个问题很有意思啊 时间的倒数是软件的效率或者是算力, 这时候时效率是线性的 比如我可以说orca 是gausian效率的两倍 或者是7T83是8375C算力的1.4倍 并行效率也是这样, 我要比64核是32核的效率的多少倍 感觉用倒数更合适 用时间的话, 感觉不直观, 就拿我跟sob比, 我发一个帖子的功夫sob可以发50个博文, 这时候说sob的产出是我的50倍比较直接。而不是说我的耗时是sob的50倍。 |
你这个纵坐标的选取可能稍微有点误导吧……倒数本身就不是线性函数,当耗时已经很大的时候,10000/耗时对耗时的偏导绝对值远小于耗时很小的时候 |
本帖最后由 Geyer 于 2022-5-31 13:19 编辑 ggdh 发表于 2022-5-6 16:58 请问这里有指定核心吗?尤其是对于双路节点来说 分布在两个u上的任务数据过qpi总线的时候会带来延迟,但若分享了更大的内存带宽则可能加快运算速度 此外8/16/24/32核下的heavy avx负载倍频肯定不一样,具体可以查一查(比如win下打开hwinfo ps:没仔细看…我的锅orz核心绑定了的话这个情况就很怪了 传说中icl在负载很轻的情况下开启某个设置会boost到4g以上,不过有效性存疑 |
ggdh 发表于 2022-5-6 16:58 这个结果真诡异,快速和慢速差别也好大,而且32核及以后就不会出现了,难以理解。 |
从“b) 在8375c 上进行B3LYP/def2TZVP级别的计算”这个测试结果看,对于8375C来说,ORCA在使用8、16、24核的速度不太合理,明显偏慢很多,比如32核速度竟然是16核的3倍,这反常识了。但是在“c) 在7T83 上进行B3LYP/def2TZVP级别的计算”可以看到对于7T83来说,32核速度是16核的2倍不到一点,这结果很合理。可惜没有7T83的8、24核的速度,不然可以更加清楚的看出两个CPU在较少核心数下的区别,正常情况下,两个CPU应该差不多才合理。我用老师的脚本在8171M上测试了下,如下图,发现较少核心数下结果是合理的,从图中可知ORCA在8171M用8、16、24核的速度比8375C还快,这也说明8375C使用8、16、24核的速度不太合理;另外从图中也可以大致看出8375C或7T83在同核心数下速度比8171M要快20-40%左右,且并行核心数越多,差距越大。所以有理由怀疑是不是CPU本身问题或是系统环境编译等其他原因导致的8375C在ORCA使用8、16、24核的速度偏慢很多。另外,对于8375C,这种偏慢情况是否在以8、16、24核同时运行多个任务时也存在呢(帖子中只测了7T83)? |
202205061448468784..png (66.17 KB, 下载次数 Times of downloads: 68)
MisakaFaction 发表于 2022-5-5 15:18 你是什么任务啊? |
内存对于ORCA的并行影响这么大么,为什么我用64核比32核反而要慢不少![]() 平台:AMD 7452*2 + 16*16内存 + ORCA 5.0.3 + openmpi 4.1.1 |
mfdsrax2 发表于 2022-5-4 18:03 一般来说 DFT不怎么吃内存, 用很大的内存估计速度不会快 如果是DLPNO-CCSD(T)级别的计算,比较吃内存,内存不够不让算。 |
再请问一下,内存对单点计算的影响如何?是越大越好吗? |
mfdsrax2 发表于 2022-5-4 14:25 看纵坐标 一般都是耗时的倒数乘以10000 |
为什么核心越多计算耗时越长?是用的CPU时间计算的吗? |
手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图
GMT+8, 2025-8-12 20:16 , Processed in 0.420147 second(s), 26 queries , Gzip On.