Nous Research 发布 Token Superposition Training：预训练 2-3 倍加速

AI摘要

【知识分享】本文介绍了Nous Research发布的Token Superposition Training（TST）方法，可在不改变模型架构和推理栈的情况下，实现预训练2-3倍墙钟加速。同时概述了NVIDIA Star Elastic、δ-mem等同期效率研究，以及数据筛选带来的VLM性能提升。内容为技术研究资讯，无违规风险。

Nous Research 发布 Token Superposition Training：预训练 2-3 倍加速

Nous Research 发布了一项引人注目的预训练改进方法——Token Superposition Training (TST)，在不改变模型架构、优化器、分词器或训练数据的前提下，实现了 2-3 倍的墙钟速度提升，同时保持 FLOPs 不变。

方法核心：前段"打包预测"，后段标准训练

@NousResearch 在公告中详细解释了 TST 的工作原理：

"在训练的前三分之一阶段，模型读取并预测连续的 token 包（contiguous bags of tokens），在输入侧平均化它们的嵌入，在输出侧使用修改后的交叉熵预测下一个包。在剩余的运行时间内，模型以标准的 next-token prediction 方式正常训练。推理时的模型与传统预训练产生的模型完全相同。"

这意味着 TST 是一种训练阶段的优化技巧，不需要修改推理基础设施，也不需要更改推理时的模型架构。这对于实际部署来说是一个显著优势——开发者可以直接用 TST 训练出更快的模型，而无需更新推理栈。

验证规模：270M 到 10B MoE

TST 已在多个规模上得到验证：

270M、600M、3B 的稠密模型
10B-A1B MoE（混合专家模型）

该工作由 Nous Research 的 @bloc97_、@gigant_theo 和 @theemozilla 主导完成。

同期的其他效率研究

TST 的发布并非孤例。当天还有多项模型训练效率研究涌现：

NVIDIA 的 Star Elastic 由 @PavloMolchanov 发布，声称通过单次后训练运行即可衍生出一系列不同大小的推理模型。其宣称的优势十分惊人：

"比预训练整个模型家族便宜 360 倍，比 SOTA 压缩方法好 7 倍。同时支持弹性预算控制，超越了准确率-延迟前沿。"

论文和模型权重已分别在 arXiv 和 Hugging Face 上发布。

δ-mem 由 @dair_ai 报道，提出了一种外部在线关联记忆，附加到冻结的全注意力骨干网络上。一个 8×8 的状态向量能将平均得分提升 1.10 倍，比非 δ-mem 基线高出 1.15 倍，在记忆密集型基准上的增益更大。

数据效率的新高度

在数据层面，Datology 的 VLM 工作由 @sjoshi804 和 @pratyushmaini 分别强调，认为仅靠数据筛选就能带来显著的多模态能力提升：

在 20 个公开 VLM 基准上平均提升 +11.7 分（2B 规模）
超越 InternVL3.5-2B 约 10 分，训练计算量仅为后者的约 1/17
在 4B 级别达到接近前沿的性能，响应 FLOPs 比 Qwen3-VL-4B 低 3.3 倍

社区反应

在 Reddit 的 r/LocalLLaMA 和 r/LocalLLM 社区中，当天的讨论更多集中在实用的推理效率技巧上。"Stop wasting electricity"（获得 1104 互动）的帖子展示了如何通过 GPU 功率限制将 RTX 4090 的功耗降低到约 40% 而几乎不影响 token 生成吞吐量，社区成员进一步讨论了在 RTX 5090 和 3090 上的类似实践。

而 TST 的推文本身获得了 2,257 个赞和 1,195 次收藏，成为当天为数不多的能够突破圈层传播的预训练方法推文——原因很可能在于其承诺的 2-3 倍训练加速且不改变推理架构这一具体且经济上显著的价值主张。

📊 研究/论文

本作品采用《CC 协议》，转载必须注明作者和本文链接

FanchTech

101 声望

一家专注于 IT 解决方案、AI 技术开发、外包项目交付与对日人才培养的科...

0 人点赞

讨论数量: 0

(=￣ω￣=)··· 暂无内容！

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

Nous Research 发布 Token Superposition Training：预训练 2-3 倍加速

Nous Research 发布 Token Superposition Training：预训练 2-3 倍加速

方法核心：前段"打包预测"，后段标准训练

验证规模：270M 到 10B MoE

同期的其他效率研究

数据效率的新高度

社区反应

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

Nous Research 发布 Token Superposition Training：预训练 2-3 倍加速

Nous Research 发布 Token Superposition Training：预训练 2-3 倍加速

方法核心：前段"打包预测"，后段标准训练

验证规模：270M 到 10B MoE

同期的其他效率研究

数据效率的新高度

社区反应

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录