Nous Research 发布 Token Superposition Training:预训练 2-3 倍加速

AI摘要
【知识分享】本文介绍了Nous Research发布的Token Superposition Training(TST)方法,可在不改变模型架构和推理栈的情况下,实现预训练2-3倍墙钟加速。同时概述了NVIDIA Star Elastic、δ-mem等同期效率研究,以及数据筛选带来的VLM性能提升。内容为技术研究资讯,无违规风险。

Nous Research 发布 Token Superposition Training:预训练 2-3 倍加速

Nous Research 发布了一项引人注目的预训练改进方法——Token Superposition Training (TST),在不改变模型架构、优化器、分词器或训练数据的前提下,实现了 2-3 倍的墙钟速度提升,同时保持 FLOPs 不变。

方法核心:前段"打包预测",后段标准训练

@NousResearch 在公告中详细解释了 TST 的工作原理:

"在训练的前三分之一阶段,模型读取并预测连续的 token 包(contiguous bags of tokens),在输入侧平均化它们的嵌入,在输出侧使用修改后的交叉熵预测下一个包。在剩余的运行时间内,模型以标准的 next-token prediction 方式正常训练。推理时的模型与传统预训练产生的模型完全相同。"

这意味着 TST 是一种训练阶段的优化技巧,不需要修改推理基础设施,也不需要更改推理时的模型架构。这对于实际部署来说是一个显著优势——开发者可以直接用 TST 训练出更快的模型,而无需更新推理栈。

验证规模:270M 到 10B MoE

TST 已在多个规模上得到验证:

  • 270M、600M、3B 的稠密模型
  • 10B-A1B MoE(混合专家模型)

该工作由 Nous Research 的 @bloc97_、@gigant_theo 和 @theemozilla 主导完成。

同期的其他效率研究

TST 的发布并非孤例。当天还有多项模型训练效率研究涌现:

NVIDIA 的 Star Elastic@PavloMolchanov 发布,声称通过单次后训练运行即可衍生出一系列不同大小的推理模型。其宣称的优势十分惊人:

"比预训练整个模型家族便宜 360 倍,比 SOTA 压缩方法好 7 倍。同时支持弹性预算控制,超越了准确率-延迟前沿。"

论文和模型权重已分别在 arXivHugging Face 上发布。

δ-mem@dair_ai 报道,提出了一种外部在线关联记忆,附加到冻结的全注意力骨干网络上。一个 8×8 的状态向量能将平均得分提升 1.10 倍,比非 δ-mem 基线高出 1.15 倍,在记忆密集型基准上的增益更大。

数据效率的新高度

在数据层面,Datology 的 VLM 工作由 @sjoshi804@pratyushmaini 分别强调,认为仅靠数据筛选就能带来显著的多模态能力提升:

  • 在 20 个公开 VLM 基准上平均提升 +11.7 分(2B 规模)
  • 超越 InternVL3.5-2B 约 10 分,训练计算量仅为后者的约 1/17
  • 在 4B 级别达到接近前沿的性能,响应 FLOPs 比 Qwen3-VL-4B 低 3.3 倍

社区反应

在 Reddit 的 r/LocalLLaMA 和 r/LocalLLM 社区中,当天的讨论更多集中在实用的推理效率技巧上。"Stop wasting electricity"(获得 1104 互动)的帖子展示了如何通过 GPU 功率限制将 RTX 4090 的功耗降低到约 40% 而几乎不影响 token 生成吞吐量,社区成员进一步讨论了在 RTX 5090 和 3090 上的类似实践。

而 TST 的推文本身获得了 2,257 个赞和 1,195 次收藏,成为当天为数不多的能够突破圈层传播的预训练方法推文——原因很可能在于其承诺的 2-3 倍训练加速且不改变推理架构这一具体且经济上显著的价值主张。

📊 研究/论文

本作品采用《CC 协议》,转载必须注明作者和本文链接
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!