Zyphra 发布扩散语言模型 ZAYA1

AI摘要
这是一篇关于AI模型技术进展的【知识分享】。文章介绍了Zyphra公司发布的ZAYA1-8B扩散语言模型,该模型通过并行生成token块而非逐个串行生成,实现了4.6至7.7倍的解码加速,同时声称质量损失极低。内容客观描述了技术原理、性能优势及行业意义,不涉及任何违规内容。

Zyphra 发布 ZAYA1-8B 扩散语言模型,解码加速 7.7 倍

Zyphra 在 5 月 14 日发布了 ZAYA1-8B-Diffusion-Preview,这是据称首个在 AMD 硬件上训练的扩散语言模型,其核心主张是在有限质量损失下实现大幅推理加速。

@ZyphraAI 在推文中宣布:

我们推出 ZAYA1-8B-Diffusion-Preview,首个在 @AMD 上训练的扩散语言模型。自回归 LLM 一次生成一个 token;扩散模型并行生成一个块,加速推理。我们展示了 4.6-7.7 倍的解码加速,质量损失极低。

这一加速倍数的技术原理在于:传统自回归模型(如 GPT 系列)必须逐个 token 串行生成,每一轮解码都依赖前一轮的输出;而扩散语言模型可以并行生成整个 token 块,从架构层面突破了串行瓶颈。

ZYZA1 是 Zyphra 此前 Zamba/Zyda 系列模型的延续。作为一家定位"全栈开放超智能"的公司,Zyphra 一直在探索 Transformer 之外的语言模型架构。扩散语言模型虽然不是全新概念(此前 DeepMind 等机构有相关研究),但 ZAYA1 是少数达到 8B 参数规模并在实际评测中展示竞争力的尝试。

更快的解码速度意味着更低的推理成本和更快的响应时间,这对于实时交互场景(如聊天、代码补全)和批量推理都有实际价值。如果扩散 LM 的质量能够在更大规模上保持,它可能成为自回归模型之外的一条重要技术路线。

📊 研究/论文

本作品采用《CC 协议》,转载必须注明作者和本文链接
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!