Perplexity 揭秘 GB200 部署:MoE 推理延迟减半

AI摘要
【知识分享】本文介绍了Perplexity在NVIDIA GB200 NVL72系统上部署Qwen3 235B MoE模型的技术报告,重点分析了GB200相比H200在NVLS all-reduce延迟、MoE prefill combine延迟及解码吞吐方面的显著性能提升,指出Blackwell系列通过改进互连带宽改变了MoE模型推理的成本结构,对大规模推理基础设施部署具有重要参考价值。

Perplexity 揭秘 GB200 部署:MoE 推理延迟减半

Perplexity 发布了在 NVIDIA GB200 NVL72 系统上部署 Qwen3 235B 的详细技术报告,GB200 被定位为大模型 MoE 推理的重大升级,性能提升显著超过了从 Ampere 到 Hopper 的跨越。

Perplexity 的基准测试数据展示了具体的量化提升:NVLS all-reduce 延迟从 H200 的 586.1µs 降至 GB200 的 313.3µs,几乎减半;MoE prefill combine(EP=4)从 730.1µs 降至 438.5µs,同时在高 token 速率下解码吞吐表现更优。

@AravSrinivas 指出了这一变化对架构设计的实质影响:

GB 200s change how one does the prefill and decode disaggregation when serving large MoEs like Qwen. We've published details of our stack quantifying the throughput benefits compared to serving on Hoppers.

这一数据点意味着,Prefill/Decode 分离架构在 GB200 上的收益与 Hopper 时代有本质不同——更低的全互连延迟使得分离的代价更小,而高 token 速率下的解码吞吐提升使得以前受限于通信瓶颈的部署方案变得可行。

同一趋势在 SemiAnalysis 的分析中得到了印证。@SemiAnalysis_ 报告称,通过 RoCEv2 CX-7 网络将多台 B200 8-GPU 机器集群,配合 PD 分离(Prefill-Decode Disaggregation),可以将每 GPU token 吞吐提升最多 7 倍,意味着相当比例的成本下降。

这些数据共同揭示了大规模推理基础设施的一个关键转折点:当硬件互连带宽成为瓶颈时,Blackwell 系列(GB200/B200)的 NVLink 和 NVLS 改进直接改变了服务 MoE 模型的成本结构。对于运营大模型服务的团队来说,部署架构可能需要从 Hopper 时代的思路重新评估。

🛠️ 工具/产品

本作品采用《CC 协议》,转载必须注明作者和本文链接
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!