SODA 封装 Muon:零调参击败调参版

优化器复兴:SODA 封装 Muon 击败调参版 Muon

在 Adam 及其变体的 "优化器墓地" 沉寂多年后,训练优化器的创新正在重新升温。Zachary Nado 简洁地总结了当前形势:Sloptimizer 领域在 Shampoo 和 Muon 衍生算法上才刚刚起步。

@zacharynado: "the sloptimizer field is just getting started with shampoo and muon gen algorithms, the graveyard of adam variants got so bad you can't list them all on a page"

最引人注目的成果来自 SODA——一个新的优化器封装方法。研究团队宣称,SODA 不引入任何新的超参数,并且消除了手动调节 weight decay 的需求。该封装为底层优化器带来了持续的性能提升,其中最亮眼的一项发现是:SODA(Muon) 的表现优于经过 weight decay 超参调优的 Muon 本身。

@tmpethick: "We introduce SODA: a simple optimizer wrapper that improves a base optimizer, adds no hyperparameters, and removes the need to tune weight decay. Most notably, SODA(Muon) beats Muon even when Muon gets a tuned weight decay sweep."

一个不增加超参数、不需要 weight decay 调参的封装器,居然能击败精心调参后的底层优化器——这对于陷入超参搜索泥潭的训练团队来说,是一个信号很强的实用进展。

训练方法论层面也同样活跃。Rishabh Agarwal 提出了 "学习,快与慢"(Learning, Fast and Slow)框架:将权重的缓慢学习(通过 RL 更新)与上下文/提示的快速学习("快权重",通过 GEPA 优化)结合起来。相比纯 RL,FST 在数据效率、适应性(可塑性)和遗忘控制方面都表现更好。

@agarwl_: "So a natural idea is 'Learning, Fast and Slow' (FST). In FST, slow learning is LLM weights trained with RL while fast learning is context / prompt (fast weights) optimized with GEPA. Compared to RL, FST performs better while being more data efficient, adaptable (plasticity), and forgetting less."

同一时段还有教学型强化学习(Pedagogical RL)和 Late Interaction 的相关讨论,核心思想是从 "可教学的 rollout 分布" 中学习,而非仅仅从正确输出中学习,教师模型如果跳过学生无法理解的认知跳跃也会受到惩罚。优化器领域的创新正在从多个方向同步展开。

分类:📊 研究/论文

本作品采用《CC 协议》,转载必须注明作者和本文链接
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!