根据提供的数据,我们可以尝试推测配置为1x CPU: Xeon W5-3435X,1x GPU: RTX 3090,8通道512GB DDR5-4800 ECC (64GBx8)计算机系统在运行404G大小的LLM推理时的性能。为了进行这种推测,我们可以观察已有的数据样本,尤其是那些使用RTX 3090或类似内存和CPU配置的样本:
- 配置为1x RTX 3090,24GB VRAM,512GB RAM (DDR4 3200, ECC) 和EPYC 7532 的系统,运行404G LM时达到了7.2 Tokens/S。
- 配置为1x RTX 3090,24GB VRAM,220GB RAM (12-channel setup using 4 channels DDR4 2666) 和2× Xeon Gold 6133 的系统,则达到了6.2 Tokens/S。
在这两种情况下,尽管它们的处理器和内存有所不同,我们仍可获得一定的对比基准。基于Xeon W5-3435X 的较高时钟速度(3.1 to 4.7 GHz)和DDR5 4800内存,相比这些配置,应该能带来更好的性能。
因此可以推测出,配置为1x Xeon W5-3435X,1x RTX 3090,512GB DDR5-4800 ECC 内存的系统,有望在运行404G LLM推理时达到接近或略超过7.2 Tokens/S的速度。实际值可能更高,具体取决于系统优化和其具体任务的性质。
First Output after: 1.1 seconds
Length of Response: 635.0 bytes
Time of Response: 10.6 seconds
Speed of Response: 60.1 byte/S
