Zyphra 发布扩散语言模型 ZAYA1
Zyphra 发布 ZAYA1-8B 扩散语言模型,解码加速 7.7 倍
Zyphra 在 5 月 14 日发布了 ZAYA1-8B-Diffusion-Preview,这是据称首个在 AMD 硬件上训练的扩散语言模型,其核心主张是在有限质量损失下实现大幅推理加速。
@ZyphraAI 在推文中宣布:
我们推出 ZAYA1-8B-Diffusion-Preview,首个在 @AMD 上训练的扩散语言模型。自回归 LLM 一次生成一个 token;扩散模型并行生成一个块,加速推理。我们展示了 4.6-7.7 倍的解码加速,质量损失极低。
这一加速倍数的技术原理在于:传统自回归模型(如 GPT 系列)必须逐个 token 串行生成,每一轮解码都依赖前一轮的输出;而扩散语言模型可以并行生成整个 token 块,从架构层面突破了串行瓶颈。
ZYZA1 是 Zyphra 此前 Zamba/Zyda 系列模型的延续。作为一家定位"全栈开放超智能"的公司,Zyphra 一直在探索 Transformer 之外的语言模型架构。扩散语言模型虽然不是全新概念(此前 DeepMind 等机构有相关研究),但 ZAYA1 是少数达到 8B 参数规模并在实际评测中展示竞争力的尝试。
更快的解码速度意味着更低的推理成本和更快的响应时间,这对于实时交互场景(如聊天、代码补全)和批量推理都有实际价值。如果扩散 LM 的质量能够在更大规模上保持,它可能成为自回归模型之外的一条重要技术路线。
📊 研究/论文
本作品采用《CC 协议》,转载必须注明作者和本文链接
关于 LearnKu