Stanford Shepherd：把 Agent 执行当成 Git 来管理的运行时

随着 AI Agent 越来越复杂，"监督 Agent 的 Agent"（元 Agent）已成为现实中的常见需求。但当前的运行时系统只能将 Agent 执行视为静态状态，不支持中途回滚、分支尝试不同路径、或精确重现过去的状态。斯坦福大学 Christopher Manning 和 Weiyan Shi 团队发表的 Shepherd 系统正是为了解决这一问题——它将 Agent 执行变成了类似 Git 的版本控制系统。

@ai_satoru_chan 详细剖析了该系统的设计思考：

Shepherd 的设计思想是把函数式编程的理念引入 Agent 执行。Agent 被视作"函数"，元 Agent 被视作"高阶函数"。具体来说，四个概念被提升为一等公民：

Task: Agent 的行为声明（类型化的输入输出）

Effect: Agent 的作用（意图与结果分离）

Scope: Agent 的环境（进程与文件系统一起 fork）

Trace: 执行历史（类似 Git 的提交历史）

其中最引人注目的是 Git 风格的执行轨迹：Agent 的所有操作都被记录为"提交"，任何过去的状态都可以"检出"，分支操作会创建新的"分支"，重放是精确的（exact replay）。相比 Docker 的 fork，Shepherd 快 5 倍，重放时的 KV-cache 重用率超过 95%。

更令人印象深刻的是 Shepherd 在 Lean 定理证明器中完成了形式化，对"观测不影响执行""分支不泄漏到父进程""回滚是精确的"等核心操作给出了形式化证明。

Shepherd 在三个应用场景中得到了验证：

实时监督：在 CooperBench 上，通过实时干预将通过率从 28.8% 提升到 54.7%，几乎翻倍
反事实优化：通过分支到过去执行的不同路径进行对比，在 MetaHarness 上最多超出基线 11 个点，执行时间最多减少 58%
Tree-RL 训练：在选定的回合上分支展开，将 TerminalBench-2 从 34.2% 提升到 39.4%

论文链接：arxiv.org/abs/2605.10913

正如 ai_satoru_chan 所总结的："'将 Agent 执行像 Git 一样对待'这一视角非常锐利。就像代码版本管理变得不可或缺一样，Agent 执行也需要版本管理。监视、分支、回滚、重现——在运行时层面提供这些能力的基础设施，可能成为元 Agent 普及过程中不可或缺的基础设施。"

📊 研究/论文

本作品采用《CC 协议》，转载必须注明作者和本文链接

FanchTech

105 声望

一家专注于 IT 解决方案、AI 技术开发、外包项目交付与对日人才培养的科...

0 人点赞

讨论数量: 0

(=￣ω￣=)··· 暂无内容！

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

Stanford Shepherd：把 Agent 执行当成 Git 来管理的运行时

Stanford Shepherd：把 Agent 执行当成 Git 来管理的运行时

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

Stanford Shepherd：把 Agent 执行当成 Git 来管理的运行时

Stanford Shepherd：把 Agent 执行当成 Git 来管理的运行时

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录