本帖最后由 abin 于 2024-11-22 14:17 编辑 AMD 9654 单路 vs Intel 8369B双路 也就是AMD 96核心 vs Intel 64核心。 网友提供的算例。 告知需要6小时以上。 我问使用,grep LOOP OUTPUT评估一下可否,对方不认可这种比对。 那只好放在集群上排队等着计算。 采用标准编译, 在慧计算的机器上, 64核心跑同样的算例, 4小时40分钟不到。 SLURM调度器。 经过慧计算调优后, 同样算例, 64核心跑, 大概2小时20分钟。 SLURM调度器。 慧计算采用Intel工具链编译。 并非表达: AMD好或者Intel好; 而是想说明,如果编译不当,使用不当,计算效率可能差很多。 一般而言, 处理器更新换代,性能提升100%比较少见。 但是使用不当,导致性能掉一两倍,那岂不是花了大价钱,而实际性能,确实古董级的电子垃圾? 另, 本人不懂VASP,看不懂输入文件在跑什么东西。 相关讨论截图如下。 |
本帖最后由 ljb874722957 于 2024-11-20 20:57 编辑 老师,个人一手自用,7950X+3080(10 G)算VASP速度怎么样?体系一般都是在100个原子以内,偶尔用到分子动力学模拟,不想配服务器主机,主要是跑计算的过程中可以偶尔看看网站,写写论文之类的 |
Entropy.S.I 发表于 2024-2-14 21:12 熵大,我也注意到小黄鱼上的V100 SXM2的性价比逐渐凸显出来,当然,缺点是电费感人。你能不能细说一下,4卡V100 SXM2跑DFT和AIMD时,体系的上限。还有跑CP2K怎么样。这套机器跑双精度LAMMPS也应该不错吧。期待你的文章。 |
本帖最后由 Entropy.S.I 于 2024-2-14 21:14 编辑 Weldingspock 发表于 2024-2-14 10:48 首先更新系统,内核越新越好。新的硬件搭配新的Linux内核才能发挥出更好的性能,特别是Zen4新增了扩展指令集。现在Ubuntu Server 22.04 LTS的HWE内核已经是6.5了。 然后仔细测试不同的NCORE、NPAR、KPAR等参数。 不过目前已经不推荐用CPU跑VASP了,用2.4万元组装一台2*4卡V100 SXM2的机器,单个4卡模组跑480原子pure DFT的速度是双路8383C的2.5倍,8卡并行跑一个Cd33Te32 Hybrid DFT速度是双路9654的6倍。年前我就已经做了大量测试,目前准备定制专用机箱以便把这套方案普及开,浅浅颠覆一下计算材料学领域。 |
我用aocc+aocl编译的vasp.6.4.2比 intel oneapi编译的速度只快了5%左右。系统是Cent os 8,gnu版本是8.3.1,cpu是amd 9554。openmpi版本是4.1.6。最后运行vasp的命令直接是mpirun -np ** vasp_std。请问最后的运行命令需要改吗还是有一些别的参数需要修改? |
本帖最后由 Entropy.S.I 于 2023-12-27 23:55 编辑 ggdh 发表于 2023-12-27 16:41 对。如果用平方数(64*3),没法map by l3cache,核间延迟成为了瓶颈。24Q2发布EPYC Turin,classic版本单机256核就不会有这种头疼的问题了 |
请问9654上最终选用的是96核X2并行 ,而没有选用平方数的原因是因为96x2 更快么 |
Entropy.S.I 发表于 2023-10-12 02:58 口水ing 想想一台机器512核就相当于一套超算了 不知道能快多少 不过最期待的还是像MD在gpu上那样几十倍的涨 |
我发现了一个问题,在zen3和zen4上设OMP_PLACES或OMP_PROC_BIND后,某些情况跑起来会慢几百倍。unset这两个环境变量后就正常了,具体出现条件还没有研究。用的是标准的toolchain编译的 cp2k/2023.2-openmpi416-gcc113 |
本帖最后由 lue611 于 2023-12-5 23:41 编辑 Janus 发表于 2023-12-3 01:38 非常感谢大佬!心里有数了。论坛需要你这样热心且有实力的大佬,比某位只会骂别人intel信徒的好多了 |
本帖最后由 Janus 于 2023-12-3 01:41 编辑 我相信很多朋友对这个贴子有错误的认识,只看那几个计算和CPU纸面信息,越看越糊涂,特做此回复。仅代表个人观点,仅代表个人观点!不喜勿看,不喜勿喷: 双路9654,涉及复杂的调优,对体系小但任务数量多的用户,请租机时测试。淘宝闲鱼上均有机器,一天也就百来块,测试后再决定。以下给出几个例子: 例1: 手头有30个结构优化的vasp任务,电子步时间不长(15s左右),离子步多,需要两三百步。8336C 64核算一个需要大约6小时,两个任务分别用32核心跑,大概率是10小时结束。 1. 三台8336,10小时可以算6个任务,两天差不多完成所有的计算。并且还可以调控优先级,先出来结果先分析,着急的结构用64核。 2. 双路9654,怎么去分配资源会是很大的问题。小任务,通信瓶颈可能更占主导,192核 vs 64核,可能就1.5~2倍的优势;如果提交多个,吃资源的任务会影响不怎么吃资源的任务。 3. 如果是2个学生用?如果是3个学生用?多台8336C会不会更好点? 例2: 杂化泛函、大体系AIMD、大模型(>200个原子,含铁磁元素...)等等,双路8336勉强能算,一个电子步骤30分钟,这种体系,双路9654可能是最优解。 例3: 过渡态,过渡态计算很有趣,5个插值,用5个节点算,如果4个插值点很快收敛,第五个很慢很慢,已经收敛的4个节点就开始休息了。双路9654可能只需要1个节点就行了,插值点逐步收敛,节点内资源就逐步释放,收敛慢计算速度逐步加快。 综上:只有适合自己的,才是最重要的。双路9654是款非常好的服务器,节能且性能强劲,AOCC和AOCl也在逐步完善。但是,但是,但是适不适合,可能需要根据自身情况选择。 |
参与人数Participants 1 | eV +5 | 收起 理由Reason |
---|---|---|
Picardo | + 5 | 谢谢 |
lue611 发表于 2023-12-2 22:38 只有合适与否,没有好坏之分。机器还是看你需求的,明白影响计算速度的瓶颈,再做选择: 1. 如果是vasp,并且计算体系不大,150个原子以内,任务数量多;3台8336C大概率干的活多; 2. 如果任务数量不多,但是单个任务贼耗时,类似杂化泛函,9654可能优秀; 3. 如果已经有部分intel的机器了,例如:1代或者2代 xeon,可以考虑9654,配合着用,大体系、小体系都能搞定; 此外,还需要考虑: 1. 几个人用这个机器,是否需要双路9654?两个单路咋样? 2. 是否有机柜,是否有管理节点,供电是否充足; 最后,建议先租机器,实际测试再做选择。不是很懂,并且钱不充足的,我个人建议,双路9654慎选,想用9654,可以考虑单路。 |
本帖最后由 lue611 于 2023-12-2 22:52 编辑 Entropy.S.I 发表于 2023-12-2 18:18 我大概看了一下(都是没扩展硬盘内存的),9654*2+16G内存+512Gssd纯CPU工作站67800,8383c*2+16G内存+512Gssd纯CPU工作站30500,整机也是贵2.22倍 8336c整机是18000,贵3.76倍 我就是觉得奇怪为什么好像性价比差不会很多而已 |
本帖最后由 Entropy.S.I 于 2023-12-2 18:19 编辑 lue611 发表于 2023-12-2 17:48 光有CPU就能跑起来了?? 我尊重intel信徒 |
手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图
GMT+8, 2024-11-23 11:15 , Processed in 0.204900 second(s), 27 queries , Gzip On.