|
本帖最后由 Entropy.S.I 于 2022-9-21 05:46 编辑
30系相较于20系,FP32翻1倍以上,实际跑MD速度恰好翻1倍。测出来不翻倍是因为CPU有瓶颈,要让3090跑GMX的MD模拟速度相较于2080Ti翻倍,需要使用AMD Ryzen 5950X或更强的CPU。
此外,上一代纸面FP32性能提升幅度没有与实际MD模拟速度的提升幅度相同的另一个原因,是Ampere架构将FP32与INT32单元合并,这在实际应用中会损失一部分FP32性能。而Ada架构相较于Ampere架构维持了FP32的计数方法,其提升完全是基于频率和核心规模的“硬”提升,所以,只要CPU没有明显瓶颈,4090相较于3090Ti运行MD模拟的性能完全可以与纸面FP32性能的提升相对应。
RTX 4090公版的FP32是83TFLPOS,非公版超频空间极大(因为TGP上限是660W,比公版默认TGP 450W高得多,而且基于此前泄露可知,4090的核心有望运行在3GHz下),可能会逼近100TFLOPS,而上一代的RTX3090Ti仅有40TFLPOS。据此预估,要发挥RTX4090的大部分性能,至少需要AMD Ryzen 7950X或intel XEON 8375C,很可能这还不够,今后看实测即可。
|
|