Stanford Shepherd:把 Agent 执行当成 Git 来管理的运行时
Stanford Shepherd:把 Agent 执行当成 Git 来管理的运行时
随着 AI Agent 越来越复杂,"监督 Agent 的 Agent"(元 Agent)已成为现实中的常见需求。但当前的运行时系统只能将 Agent 执行视为静态状态,不支持中途回滚、分支尝试不同路径、或精确重现过去的状态。斯坦福大学 Christopher Manning 和 Weiyan Shi 团队发表的 Shepherd 系统正是为了解决这一问题——它将 Agent 执行变成了类似 Git 的版本控制系统。
@ai_satoru_chan 详细剖析了该系统的设计思考:
Shepherd 的设计思想是把函数式编程的理念引入 Agent 执行。Agent 被视作"函数",元 Agent 被视作"高阶函数"。具体来说,四个概念被提升为一等公民:
- Task: Agent 的行为声明(类型化的输入输出)
- Effect: Agent 的作用(意图与结果分离)
- Scope: Agent 的环境(进程与文件系统一起 fork)
- Trace: 执行历史(类似 Git 的提交历史)
其中最引人注目的是 Git 风格的执行轨迹:Agent 的所有操作都被记录为"提交",任何过去的状态都可以"检出",分支操作会创建新的"分支",重放是精确的(exact replay)。相比 Docker 的 fork,Shepherd 快 5 倍,重放时的 KV-cache 重用率超过 95%。
更令人印象深刻的是 Shepherd 在 Lean 定理证明器中完成了形式化,对"观测不影响执行""分支不泄漏到父进程""回滚是精确的"等核心操作给出了形式化证明。
Shepherd 在三个应用场景中得到了验证:
- 实时监督:在 CooperBench 上,通过实时干预将通过率从 28.8% 提升到 54.7%,几乎翻倍
- 反事实优化:通过分支到过去执行的不同路径进行对比,在 MetaHarness 上最多超出基线 11 个点,执行时间最多减少 58%
- Tree-RL 训练:在选定的回合上分支展开,将 TerminalBench-2 从 34.2% 提升到 39.4%
正如 ai_satoru_chan 所总结的:"'将 Agent 执行像 Git 一样对待'这一视角非常锐利。就像代码版本管理变得不可或缺一样,Agent 执行也需要版本管理。监视、分支、回滚、重现——在运行时层面提供这些能力的基础设施,可能成为元 Agent 普及过程中不可或缺的基础设施。"
📊 研究/论文
本作品采用《CC 协议》,转载必须注明作者和本文链接
关于 LearnKu