Nous Research 发布 Token Superposition Training:预训练 2-3 倍加速
Nous Research 发布 Token Superposition Training:预训练 2-3 倍加速
Nous Research 发布了一项引人注目的预训练改进方法——Token Superposition Training (TST),在不改变模型架构、优化器、分词器或训练数据的前提下,实现了 2-3 倍的墙钟速度提升,同时保持 FLOPs 不变。
方法核心:前段"打包预测",后段标准训练
@NousResearch 在公告中详细解释了 TST 的工作原理:
"在训练的前三分之一阶段,模型读取并预测连续的 token 包(contiguous bags of tokens),在输入侧平均化它们的嵌入,在输出侧使用修改后的交叉熵预测下一个包。在剩余的运行时间内,模型以标准的 next-token prediction 方式正常训练。推理时的模型与传统预训练产生的模型完全相同。"
这意味着 TST 是一种训练阶段的优化技巧,不需要修改推理基础设施,也不需要更改推理时的模型架构。这对于实际部署来说是一个显著优势——开发者可以直接用 TST 训练出更快的模型,而无需更新推理栈。
验证规模:270M 到 10B MoE
TST 已在多个规模上得到验证:
- 270M、600M、3B 的稠密模型
- 10B-A1B MoE(混合专家模型)
该工作由 Nous Research 的 @bloc97_、@gigant_theo 和 @theemozilla 主导完成。
同期的其他效率研究
TST 的发布并非孤例。当天还有多项模型训练效率研究涌现:
NVIDIA 的 Star Elastic 由 @PavloMolchanov 发布,声称通过单次后训练运行即可衍生出一系列不同大小的推理模型。其宣称的优势十分惊人:
"比预训练整个模型家族便宜 360 倍,比 SOTA 压缩方法好 7 倍。同时支持弹性预算控制,超越了准确率-延迟前沿。"
论文和模型权重已分别在 arXiv 和 Hugging Face 上发布。
δ-mem 由 @dair_ai 报道,提出了一种外部在线关联记忆,附加到冻结的全注意力骨干网络上。一个 8×8 的状态向量能将平均得分提升 1.10 倍,比非 δ-mem 基线高出 1.15 倍,在记忆密集型基准上的增益更大。
数据效率的新高度
在数据层面,Datology 的 VLM 工作由 @sjoshi804 和 @pratyushmaini 分别强调,认为仅靠数据筛选就能带来显著的多模态能力提升:
- 在 20 个公开 VLM 基准上平均提升 +11.7 分(2B 规模)
- 超越 InternVL3.5-2B 约 10 分,训练计算量仅为后者的约 1/17
- 在 4B 级别达到接近前沿的性能,响应 FLOPs 比 Qwen3-VL-4B 低 3.3 倍
社区反应
在 Reddit 的 r/LocalLLaMA 和 r/LocalLLM 社区中,当天的讨论更多集中在实用的推理效率技巧上。"Stop wasting electricity"(获得 1104 互动)的帖子展示了如何通过 GPU 功率限制将 RTX 4090 的功耗降低到约 40% 而几乎不影响 token 生成吞吐量,社区成员进一步讨论了在 RTX 5090 和 3090 上的类似实践。
而 TST 的推文本身获得了 2,257 个赞和 1,195 次收藏,成为当天为数不多的能够突破圈层传播的预训练方法推文——原因很可能在于其承诺的 2-3 倍训练加速且不改变推理架构这一具体且经济上显著的价值主张。
📊 研究/论文
本作品采用《CC 协议》,转载必须注明作者和本文链接
关于 LearnKu