Perplexity 揭秘 GB200 部署:MoE 推理延迟减半
Perplexity 揭秘 GB200 部署:MoE 推理延迟减半
Perplexity 发布了在 NVIDIA GB200 NVL72 系统上部署 Qwen3 235B 的详细技术报告,GB200 被定位为大模型 MoE 推理的重大升级,性能提升显著超过了从 Ampere 到 Hopper 的跨越。
Perplexity 的基准测试数据展示了具体的量化提升:NVLS all-reduce 延迟从 H200 的 586.1µs 降至 GB200 的 313.3µs,几乎减半;MoE prefill combine(EP=4)从 730.1µs 降至 438.5µs,同时在高 token 速率下解码吞吐表现更优。
@AravSrinivas 指出了这一变化对架构设计的实质影响:
GB 200s change how one does the prefill and decode disaggregation when serving large MoEs like Qwen. We've published details of our stack quantifying the throughput benefits compared to serving on Hoppers.
这一数据点意味着,Prefill/Decode 分离架构在 GB200 上的收益与 Hopper 时代有本质不同——更低的全互连延迟使得分离的代价更小,而高 token 速率下的解码吞吐提升使得以前受限于通信瓶颈的部署方案变得可行。
同一趋势在 SemiAnalysis 的分析中得到了印证。@SemiAnalysis_ 报告称,通过 RoCEv2 CX-7 网络将多台 B200 8-GPU 机器集群,配合 PD 分离(Prefill-Decode Disaggregation),可以将每 GPU token 吞吐提升最多 7 倍,意味着相当比例的成本下降。
这些数据共同揭示了大规模推理基础设施的一个关键转折点:当硬件互连带宽成为瓶颈时,Blackwell 系列(GB200/B200)的 NVLink 和 NVLS 改进直接改变了服务 MoE 模型的成本结构。对于运营大模型服务的团队来说,部署架构可能需要从 Hopper 时代的思路重新评估。
🛠️ 工具/产品
本作品采用《CC 协议》,转载必须注明作者和本文链接
关于 LearnKu