Stanford Shepherd:把 Agent 执行当成 Git 来管理的运行时

Stanford Shepherd:把 Agent 执行当成 Git 来管理的运行时

随着 AI Agent 越来越复杂,"监督 Agent 的 Agent"(元 Agent)已成为现实中的常见需求。但当前的运行时系统只能将 Agent 执行视为静态状态,不支持中途回滚、分支尝试不同路径、或精确重现过去的状态。斯坦福大学 Christopher Manning 和 Weiyan Shi 团队发表的 Shepherd 系统正是为了解决这一问题——它将 Agent 执行变成了类似 Git 的版本控制系统。

@ai_satoru_chan 详细剖析了该系统的设计思考:

Shepherd 的设计思想是把函数式编程的理念引入 Agent 执行。Agent 被视作"函数",元 Agent 被视作"高阶函数"。具体来说,四个概念被提升为一等公民:

  • Task: Agent 的行为声明(类型化的输入输出)
  • Effect: Agent 的作用(意图与结果分离)
  • Scope: Agent 的环境(进程与文件系统一起 fork)
  • Trace: 执行历史(类似 Git 的提交历史)

其中最引人注目的是 Git 风格的执行轨迹:Agent 的所有操作都被记录为"提交",任何过去的状态都可以"检出",分支操作会创建新的"分支",重放是精确的(exact replay)。相比 Docker 的 fork,Shepherd 快 5 倍,重放时的 KV-cache 重用率超过 95%。

更令人印象深刻的是 Shepherd 在 Lean 定理证明器中完成了形式化,对"观测不影响执行""分支不泄漏到父进程""回滚是精确的"等核心操作给出了形式化证明。

Shepherd 在三个应用场景中得到了验证:

  1. 实时监督:在 CooperBench 上,通过实时干预将通过率从 28.8% 提升到 54.7%,几乎翻倍
  2. 反事实优化:通过分支到过去执行的不同路径进行对比,在 MetaHarness 上最多超出基线 11 个点,执行时间最多减少 58%
  3. Tree-RL 训练:在选定的回合上分支展开,将 TerminalBench-2 从 34.2% 提升到 39.4%

论文链接:arxiv.org/abs/2605.10913

正如 ai_satoru_chan 所总结的:"'将 Agent 执行像 Git 一样对待'这一视角非常锐利。就像代码版本管理变得不可或缺一样,Agent 执行也需要版本管理。监视、分支、回滚、重现——在运行时层面提供这些能力的基础设施,可能成为元 Agent 普及过程中不可或缺的基础设施。"

📊 研究/论文

本作品采用《CC 协议》,转载必须注明作者和本文链接
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!