计算化学公社

标题: vasp计算40核比28核慢了一大截 [打印本页]

作者
Author:
灰飞的旋律    时间: 2019-4-29 09:37
标题: vasp计算40核比28核慢了一大截
本帖最后由 灰飞的旋律 于 2019-4-29 09:51 编辑

请问下我做VASP计算,HSE泛函算DOS,可是我的双路E5 2673V4(2.3HGz 共40物理核,4根2400MHZ  32G内存条)比双路 E5 2680v4(2.4GHz 共28物理核,8根2400MHZ 8G内存条)计算速度反而慢了一大截呢,迭代一次耗时,也就是LOOP,前者21333秒,后者16545秒,那么实际耗时前者5.9小时,后者4.6小时,40核INCAR里NCORE=5, 28核设置的4.,没有开超线程
请问比较有可能会是哪些原因呢


作者
Author:
啦啦黑还黑    时间: 2019-4-29 13:17
很大的可能性是内存条没有插满,把内存条插满了试试?
作者
Author:
一颗赛艇    时间: 2019-4-29 14:07
哈哈哈哈哈哈

又一个不会看配置被(政采)奸商坑了的
VASP据说吃内存带宽,再插4根2400MHZ  32G内存条
作者
Author:
灰飞的旋律    时间: 2019-4-29 14:19
本帖最后由 灰飞的旋律 于 2019-4-29 15:26 编辑
啦啦黑还黑 发表于 2019-4-29 13:17
很大的可能性是内存条没有插满,把内存条插满了试试?

意思是我现在是四通道,再来四根组成八通道??是这意思吗这是现在的内存安装顺序,主板一共8个插槽
(, 下载次数 Times of downloads: 228)
(, 下载次数 Times of downloads: 225)

作者
Author:
灰飞的旋律    时间: 2019-4-29 14:21
一颗赛艇 发表于 2019-4-29 14:07
哈哈哈哈哈哈

又一个不会看配置被(政采)奸商坑了的

自己选的配置价格还好,没有被坑,确定再来四根可以增加计算速度吧??那我就和老师商量下,再增加
作者
Author:
灰飞的旋律    时间: 2019-4-29 14:51
灰飞的旋律 发表于 2019-4-29 14:21
自己选的配置价格还好,没有被坑,确定再来四根可以增加计算速度吧??那我就和老师商量下,再增加

有没有可能是我用的核数太多了,计算产生数据过多,内存带宽跟不上了,如果减少核数反而会提升计算速度
作者
Author:
啦啦黑还黑    时间: 2019-4-29 16:52
灰飞的旋律 发表于 2019-4-29 14:21
自己选的配置价格还好,没有被坑,确定再来四根可以增加计算速度吧??那我就和老师商量下,再增加

你不是有8根8G的吗?先拆来试试,看看是不是内存的问题,再买不迟
作者
Author:
niobium    时间: 2019-4-29 17:29
是不是核数的问题,自己做个测试就知道了

作者
Author:
hakuna    时间: 2019-4-29 18:07
2673V4真这么弱吗?从参数上看不应该啊,四根内存条是有问题,期待真相
作者
Author:
archer    时间: 2019-4-29 20:51
NPAR NCORE之类的参数试下
作者
Author:
灰飞的旋律    时间: 2019-4-30 08:49
啦啦黑还黑 发表于 2019-4-29 16:52
你不是有8根8G的吗?先拆来试试,看看是不是内存的问题,再买不迟

在机柜里面,不好拆啊,刚买的刚安进去,不知道拆了给不给保修了还
作者
Author:
灰飞的旋律    时间: 2019-4-30 08:50
niobium 发表于 2019-4-29 17:29
是不是核数的问题,自己做个测试就知道了

嗯,还真和核数有关系
作者
Author:
灰飞的旋律    时间: 2019-4-30 08:52
本帖最后由 灰飞的旋律 于 2019-4-30 08:57 编辑
hakuna 发表于 2019-4-29 18:07
2673V4真这么弱吗?从参数上看不应该啊,四根内存条是有问题,期待真相

如图,很有可能是内存带宽跟不上,node24是2680V4,node26是2673V4,HSE计算DOS,迭代一次LOOP随着核数减少而减少,核数减少速度反而快了,后者20核计算速度已经接近前者28核。这是不是说我确实需要加内存条了??还有人说是并行计算调度的问题,不甚明了怎么理解???

作者
Author:
灰飞的旋律    时间: 2019-4-30 08:55
本帖最后由 灰飞的旋律 于 2019-5-9 16:38 编辑
archer 发表于 2019-4-29 20:51
NPAR NCORE之类的参数试下

嗯嗯,测试过了,40核下测试的,node24是2680V4,node26是2673V4,NCORE=4和5时,HSE计算DOS,迭代一次LOOP分别为23645和21000多一点,但40核下并行计算设置也只能到5了,估计设成8计算速度又会降低


PS:后续测试发现,NCORE可以增加到10,计算速度相对于8时,提升已经不是特别明显了,一个电子步才加速了10分钟

作者
Author:
hakuna    时间: 2019-5-8 10:15
灰飞的旋律 发表于 2019-4-30 08:52
如图,很有可能是内存带宽跟不上,node24是2680V4,node26是2673V4,HSE计算DOS,迭代一次LOOP随着核数减 ...

关注2673v4一段时间了,一直觉得应该不错,尤其喜欢它的50MB的cache,刚搜了一下intel官网,竟然没找到这款产品,很奇怪。2680v4倒是有,参数和非官方网上介绍一致。
作者
Author:
biogon    时间: 2019-5-8 10:29
灰飞的旋律 发表于 2019-4-30 08:52
如图,很有可能是内存带宽跟不上,node24是2680V4,node26是2673V4,HSE计算DOS,迭代一次LOOP随着核数减 ...

你的内存带宽不够了,四通道双路至少得插8个内存条
作者
Author:
灰飞的旋律    时间: 2019-5-9 16:45
本帖最后由 灰飞的旋律 于 2019-5-9 16:49 编辑
hakuna 发表于 2019-5-8 10:15
关注2673v4一段时间了,一直觉得应该不错,尤其喜欢它的50MB的cache,刚搜了一下intel官网,竟然没找到这 ...

三级缓存的影响大不大呢,对于VASP计算来说有多大呢??我觉得40核还是太多了,内存带宽可能会有点跟不上,不知道选个32或者36核的但主频更高的,2.6GHz的,比如2690V4,但这样就不如买金牌6132了,毕竟主频都是比2673高0.3,但6132针脚是最新的,以后还可以升级CPU,就是三级缓存少了一半多,不清楚三级缓存和主频 核数 带宽这些因素对VASP计算来说哪几个占主要影响???如果知道的话,就可以挑选一款特别适合vasp计算的又平衡的CPU了
作者
Author:
灰飞的旋律    时间: 2019-5-9 16:46
本帖最后由 灰飞的旋律 于 2019-5-9 16:47 编辑
biogon 发表于 2019-5-8 10:29
你的内存带宽不够了,四通道双路至少得插8个内存条

我也觉得是,准备插满,我的是ATX主板,只能插8根。那VASP计算是用EATX还是ATX板呢,毕竟前者可以有16个插槽,都插满相对于8插槽能有多大比例提升??
作者
Author:
biogon    时间: 2019-5-12 14:19
灰飞的旋律 发表于 2019-5-9 16:45
三级缓存的影响大不大呢,对于VASP计算来说有多大呢??我觉得40核还是太多了,内存带宽可能会有点跟不上 ...

6132也就能升级白金81xx或者黄金62xx 白金82xx,明年发布的换新接口LGA4189
作者
Author:
biogon    时间: 2019-5-12 14:21
灰飞的旋律 发表于 2019-5-9 16:46
我也觉得是,准备插满,我的是ATX主板,只能插8根。那VASP计算是用EATX还是ATX板呢,毕竟前者可以有16个 ...

够四通道就行,再加多了不能增加性能
作者
Author:
灰飞的旋律    时间: 2019-5-12 14:45
本帖最后由 灰飞的旋律 于 2019-5-12 14:52 编辑
biogon 发表于 2019-5-12 14:19
6132也就能升级白金81xx或者黄金62xx 白金82xx,明年发布的换新接口LGA4189

LGA4189,这是给啥CPU准备的


作者
Author:
biogon    时间: 2019-5-12 20:45
灰飞的旋律 发表于 2019-5-12 14:45
LGA4189,这是给啥CPU准备的

下一代服务器U
作者
Author:
灰飞的旋律    时间: 2019-5-31 12:41
本帖最后由 灰飞的旋律 于 2019-5-31 12:44 编辑

又加了四根,总共8根了,够双路四通道了,比原来双路双通道直接减少了40%的耗时。原来NCORE=10,40核用HSE06算DOS一步17222秒,现在10251秒
作者
Author:
hakuna    时间: 2019-5-31 19:25
灰飞的旋律 发表于 2019-5-31 12:41
又加了四根,总共8根了,够双路四通道了,比原来双路双通道直接减少了40%的耗时。原来NCORE=10,40核用HSE06 ...

看来2673v4表现还是可以的
作者
Author:
灰飞的旋律    时间: 2019-5-31 20:57
本帖最后由 灰飞的旋律 于 2019-5-31 21:10 编辑
hakuna 发表于 2019-5-31 19:25
看来2673v4表现还是可以的

期待明年intel的新CPU架构配合明年新出的DDR5,那带宽,vasp跑GW又可以加速一两倍感觉。外行愚见,欢迎科普,莫喷:啥时候NVM的带宽能跟上来,重要的是延迟也解决了,GW+BSE跑点几十个原子的体系不再是梦。话说NVM越来越成熟了,等用在HPC服务器上,像高斯这种高I/O的,基本上直接可以拿内存当硬盘了,到时候算力也得提升一大截


作者
Author:
dutian_007    时间: 2019-6-14 15:44
灰飞的旋律 发表于 2019-5-31 12:41
又加了四根,总共8根了,够双路四通道了,比原来双路双通道直接减少了40%的耗时。原来NCORE=10,40核用HSE06 ...

看的就是这个结果。
作者
Author:
Picardo    时间: 2019-10-9 15:11
我觉得是核数太多的原因,楼主试下10核,16核的速度
作者
Author:
灰飞的旋律    时间: 2019-10-9 21:36
Picardo 发表于 2019-10-9 15:11
我觉得是核数太多的原因,楼主试下10核,16核的速度

已经证实是内存带宽的问题了
作者
Author:
biogon    时间: 2020-7-7 18:04
灰飞的旋律 发表于 2019-5-31 20:57
期待明年intel的新CPU架构配合明年新出的DDR5,那带宽,vasp跑GW又可以加速一两倍感觉。外行愚见,欢迎科 ...

过了一年又翻到这个了,带宽和延迟是不可能都占了好的,NAND颗粒再玩延迟也就那样了,想压缩延迟就是傲腾这种下一代解决方案,还有就是在SSD和DRAM中间折中的傲腾DRAM,有大容量的情况下带宽和延迟也找了个平衡点,当然想用内存或者傲腾当硬盘都需要软件深度优化的,现行的计算软件就别想了,根本用不到那些性能
作者
Author:
monk1077    时间: 2020-11-17 10:38
内存是否插满,
这两款CPU基频与全核睿频不一样。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3