OpenAI Daybreak 扩展:从漏洞发现到自动修复

OpenAI Daybreak 扩展:从漏洞发现到自动修复

1. OpenAI Daybreak 安全能力全面升级,GPT-5.5-Cyber 正式亮相

OpenAI 宣布大幅扩展 Daybreak 网络安全计划,从原先的漏洞发现延伸到漏洞修复环节。此次升级包含四大支柱:Codex Security 插件可直接在 Codex 编辑器中完成漏洞发现、验证和修复;GPT-5.5-Cyber 完整版模型面向可信防御者开放;Cyber Partner Program 为顶级安全公司提供底层能力支持;Patch the Planet 计划则与维护者合作保护关键开源项目。

We're expanding OpenAI Daybreak to help democratize patching vulnerable software at machine speed: Codex Security plugin, the full version of GPT-5.5-Cyber model, Cyber Partner Program, and Patch the Planet for securing critical open source projects.
— @OpenAI

我们正在扩展 OpenAI Daybreak,以机器速度实现漏洞修复的民主化:Codex Security 插件、GPT-5.5-Cyber 完整版模型、Cyber Partner Program,以及保护关键开源项目的 Patch the Planet。

具体数据方面,Daybreak 已扫描 3000 万+ commits,覆盖 3 万个+ 代码库,产生了 7 万+ 条人工标注修复50 万+ 条自动检测修复。涵盖的重大项目包括 cURL、Go、Python、Sigstore 和 pyca/cryptography。Sam Altman 更是直接声称 GPT-5.5-Cyber 在 CyberGym 上达到 SOTA 性能。这一转变的核心意义在于:OpenAI 正从"找 bug"转向"闭环修复生成 + 人工审核"。

We want to help all companies be secure, working with the USG and the security ecosystem. The full version of GPT-5.5-Cyber is here; state of the art performance on CyberGym. Patch The Planet and Codex Security will help solve security problems instead of just finding them.
— @sama

我们希望帮助所有公司变得安全,与美国政府和安全生态系统合作。GPT-5.5-Cyber 完整版已就位,在 CyberGym 上达到最先进性能。Patch The Planet 和 Codex Security 将帮助解决安全问题,而不仅仅是发现问题。

2. GLM-5.2 开源模型崛起,真实测试击败 Opus 4.8

智谱 GLM-5.2 成为本周最受关注的开源模型事件。Artificial Analysis 将其排在 GDPval-AA 综合榜第 3 名(1524 Elo),仅次于 Claude Fable 5 和 Opus 4.8,是排名最高的开源权重模型。Nathan Lambert 称其可能成为"agents 领域的 DeepSeek 时刻",Perplexity CEO Aravind Srinivas 则认为 GLM-5.2 能"通过中位生产知识工作的盲测",重新点燃了对开源模型的兴趣。

最有力的证据来自实际测试。Cline 团队在同一个仓库真实 bug 上对比了 GLM-5.2 和 Opus 4.8:

We tested GLM-5.2 vs Opus 4.8 on a real bug from the Cline repo. GLM used twice as many tokens (1.1m vs 660K) but cost half as much ($0.41 vs $0.81). Opus finished quicker (1.6 min, 12 tool calls vs GLM 4.7 min, 28 tool calls). GLM cleaned up dead code and verified the build compiled before completing. Opus left type errors that passed tests but broke the production build.
— @cline

我们在 Cline 仓库的真实 bug 上测试了 GLM-5.2 vs Opus 4.8。GLM 多用了 1 倍 token(110万 vs 66万),但成本只有一半($0.41 vs $0.81)。Opus 完成更快(1.6 分钟,12 次工具调用 vs GLM 4.7 分钟,28 次工具调用)。GLM 清理了死代码并在完成前验证了构建可编译。Opus 则留下了通过测试但破坏生产构建的类型错误。

GLM-5.2 的部署速度也异常迅猛:已上线 AWS Marketplace、Baseten(>280 tok/s,<0.8s TTFT)、Fireworks、LangChain deepagents 等 超过 20 个平台。ncode 已将其设为默认模型,并专门做了模型专属的解析器和 harness 工作。这表明开源模型质量已突破阈值,推理厂商和 Agent 工具开发者愿意围绕它进行深度优化

3. Google Gemini Interactions API 正式 GA,重塑 Agent 基础设施

Google 宣布 Interactions API 正式 GA,成为 Gemini 模型和 Agent 的主要接口。该 API 不是简单的模型端点升级,而是一套完整的 Agent 基础设施:统一模型和 Agent 的单一 API、后台异步执行、扩展工具支持、多模态生成、托管 Agent,以及名为 Antigravity 的隔离 Linux 沙箱环境。

Today, the Interactions API is now generally available as our primary interface for Gemini models and agents. Built based on developer feedback and optimized for stateful, agentic workflows, it brings Managed Agents, background execution, expanded tool support, multimodal generation, Gemini Omni (soon) and more.
— @Google

今天,Interactions API 正式 GA,成为我们 Gemini 模型和 Agent 的主要接口。基于开发者反馈构建并针对有状态的 Agent 工作流进行了优化,它带来了托管 Agent、后台执行、扩展工具支持、多模态生成、即将支持 Gemini Omni 等能力。

为帮助开发者迁移,Google 还发布了可安装的 Gemini Interactions skill,教会编码 Agent 新的 SDK 模式。这使得 Google 的 AI 技术栈越来越像对"Agent harness 问题"的第一方答案,而非仅仅是一个模型端点。

4. Sakana Fugu 编排系统发布,基准透明度引发激烈争议

Sakana AI 发布了 Fugu,将其定位为"通过单一 API 指挥多 Agent 系统"的编排层。Fugu 学习模型选择、任务委派、验证和综合,在后台自动协调多个前沿模型。其 Fugu Ultra 版本声称性能匹配 Fable 和 Mythos,且不受出口管制限制。Vercel 已迅速将 Fugu Ultra 集成到 AI Gateway,多位工程师对编排层作为高价值中间层的定位表示认同。

然而批评声同样猛烈。@eliebakouch 指出 Fugu 本质上是一个路由器/分类器加预规划的多步工作流系统,在 SWE-Bench Pro 上比 Opus 低约 10 分,对比对象被匿名化为"Model A/B/C",未报告 token/成本数据。@BlancheMinerva 则基于 Sakana 此前的争议事件质疑其可信度。讨论焦点从"编排有用吗"转向了"如何评估和披露编排系统"。

5. 模型能力披露与出口管制政策的裂痕加深

OpenAI 声称 GPT-5.5-Cyber 在网络安全任务上达到 SOTA,但这立即引发与 Anthropic 受限模型政策的对比。Anthropic 的 Mythos/Fable 因出口管制被限制访问,而 @BlackHC 提出了关键政策问题:如果 OpenAI 的最新网络安全模型更强,为什么它不受同等控制?@shashj 也纠正了此前关于 Mythos 的报道:NSA 提到的"小时而非数周"与红队测试相关且基于初始访问假设,而这些红队据称已不再拥有 Mythos 访问权限。

与此同时,关于 Anthropic Mythos 后继者(可能命名为 Mythos 5.1 或 Mythos 6)的传闻也在扩散。社区讨论集中在:模型能力越来越强,但治理标准却缺乏一致性,形成了模型能力报道与连贯治理标准之间的鸿沟

6. Baseten 完成 $15 亿 F 轮融资,押注"自有智能"时代

推理平台 Baseten 宣布完成 $15 亿 F 轮融资,由 Altimeter Capital、Conviction Partners 和 Spark Capital 领投。CEO @amiruci 阐述了核心理念:企业越来越希望 拥有自己的智能层——运行开放或专用模型,在自己的数据和评估上进行后训练,并保持对持续学习的控制。

We're seeing more companies turn to open and specialized models for better economics, performance, and ownership. Post-training is giving companies a path to turn their own data, evals, feedback, and judgment into durable technical advantage.
— @baseten

我们看到越来越多的公司转向开放和专用模型,以获得更好的经济效益、性能和自主权。后训练正在为公司提供一条路径,将自身的数据、评估、反馈和判断转化为持久的技术优势。

Baseten 的客户名单包括 Cursor、Notion、Harvey、HubSpot、OpenEvidence 等顶级 AI 应用公司,收入在过去一年增长 20 倍,推理量增长 40 倍。这验证了一个趋势:更强大的开源模型 + 更好的基础设施,正在将后训练从前沿实验室的专长变为应用公司的核心能力

7. Anthropic 强制身份验证引强烈反弹,隐私争议升级

Anthropic 更新了 Claude 服务条款,将于 7 月 8 日起为"某些能力"推出身份验证,由第三方服务商 Persona 执行,可能需要政府签发的带照片 ID 和实时自拍(面部几何生物识别)。该政策适用于 Free、Pro 和 Max 账户,但不适用于 Team、Enterprise 和 Platform 账户。

Reddit 社区反应极为负面,关注点包括:Persona 公司的数据处理管道涉及 AWS、Google、OpenAI 等多个子处理商;Anthropic 未明确数据保留期限;"某些能力"的定义模糊,可能随时间和安全相关功能(漏洞发现、代码加固等)而逐步扩大。许多用户表示将停止付费或转向开源替代方案。这被视为可能是前沿模型强制 KYC 式访问控制的行业趋势开端。

8. Reflection 与 SpaceX 签署 $63 亿算力合约

传闻 AI 公司 ReflectionSpaceX 签署了价值 $63 亿的算力合约,获取 GB300 GPU 访问权限。这并非孤例:SpaceX/xAI 此前已与 Anthropic 和 Google 签订了大规模算力协议。据 @jaminball 分析,隐含的 Blackwell 定价超过 $10/小时,并包含 90 天退出条款。如果属实,这意味着"新云"算力容量和 GPU 经纪正在成为模型构建者与硬件供应之间的关键战略层。

9. Hermes 个人 Agent 平台持续扩展,GUI 控制成亮点

开源个人 Agent 平台 Hermes 本周迎来多项更新:无需 Mac 即可使用 iMessage、Raft 集成作为共享工作区的 Agent、以及最引人注目的——支持任何模型对 Windows/Linux 桌面应用进行 GUI 控制。仓库星标突破 20 万,反映出大量开发者精力正投入 Agent UX 和 harness 工程,而非仅关注基础模型质量。

10. LLM-as-Judge 评估方法受到严格审视

@dair_ai 发布了一项大规模 LLM-as-Judge 审计结果,覆盖 21 个评判模型9 个提供商、约 54.1 万条评判。核心发现是方法论层面的:精确匹配一致性显著高估了评判质量,改用 Cohen's kappa 后,MT-Bench 上的协议度下降了 33-41 个百分点,评判模型排名也发生了重大变化。这对使用评判模型作为内部评估基础设施的团队是一个强烈警示。

这一讨论与当天其他实质性内容——GLM in Cline、OpenAI Daybreak、Fugu 争议——形成了统一主题:评估正从静态单轮分数转向系统在工具、记忆、验证和长周期执行下的行为表现

本作品采用《CC 协议》,转载必须注明作者和本文链接
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!