FrontierCode发布:最佳模型仅得13%
FrontierCode发布:最佳模型仅得13%
在过去几天的 AI 新闻中,Cognition 发布的 FrontierCode 评测彻底重置了业界对"编程能力"的认知——最好的模型 Opus 4.8 在最高难度子集上仅得 13%,远低于 SWE-Bench 常见的 50%+。与此同时,Kimi 开源编程代理迎来重大升级,Arena 推出基于百万真实会话的 Agent Arena 排行榜,而 Gemma 4 的本地推理效率也实现了数倍飞跃。
1. FrontierCode 发布:编程评测从"通过测试"到"代码可合入"
Cognition 推出了 FrontierCode,一个不满足于单元测试通过率、转而衡量代码是否真正 可合入(mergeable) 的新基准。每个任务由开源项目维护者投入 40+ 小时 设计,评估维度涵盖回归安全、代码整洁、范围控制、测试正确性和可维护性。
核心结论:最好的模型 Opus 4.8 在最难子集上仅得约 13%——远低于 SWE-Bench 风格评测中常见的 50%+。Scott Wu 指出 FrontierCode 减少了约 80% 的误报,评价标准从"CI 流水线"升级为"技术主管审查"。
Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by leading open-source maintainers. Models write sloppy code that works but isn't maintainable. Our eval is first to measure: would you actually merge this code?
— @cognition推出 FrontierCode:一个提升难度和质量标准的编程评测。每项任务由顶尖开源维护者投入 40+ 小时设计。模型写的代码能跑但不可维护,我们的评测首次衡量:你真的愿意合入这段代码吗?
SWE-Bench style grading has been the standard for years now... The problem is that passing a unit test is only one part of writing production-ready code. The result is our new benchmark FrontierCode - which has ~80% fewer false positives and for which the best model (Opus 4.8) only scores 13%! "Where others grade like a CI, FrontierCode grades like a tech lead."
— @ScottWu46SWE-Bench 评分方式已是多年标准……但通过单元测试只是编写生产级代码的一部分。结果是新基准 FrontierCode——减少约 80% 误报,最佳模型 Opus 4.8 仅得 13%!"别人像 CI 机器评分,FrontierCode 则像技术主管评分。"
2. Kimi Code 重大升级 & Kimi Work 桌面代理发布
Moonshot 对开源编程代理 Kimi Code 进行了大幅更新:一行命令安装、零配置快速启动、支持拖拽视频作为编程上下文(参考图生成 LUT、长视频剪辑、录屏转代码等)、支持 ACP 协议,可对接 JetBrains、Zed 等 IDE,同时提供插件系统和 Hooks 自定义工具。
同期发布的还有 Kimi Work——一款桌面代理产品,最多可运行 300 个本地子代理,通过浏览器扩展实现网页操作,具备金融数据工具访问和持久记忆能力。
Kimi Code, our open-source coding agent, just got a major upgrade! 🔹One-line CLI install, zero setup, fast startup 🔹Drag in videos as coding context 🔹Plugins for stocks, financial reports, academic papers 🔹Supports the ACP protocol, and works with JetBrains, Zed, and more 🔹Hooks for custom tools and workflows
— @KimiDevsKimi Code 开源编程代理迎来重大升级!一行命令安装、零配置快速启动;拖入视频作为编程上下文;支持股票、财报、学术论文插件;支持 ACP 协议和 JetBrains/Zed 等 IDE;提供自定义工具和工作流的 Hooks。
3. Agent Arena 上线:百万真实会话驱动代理排行榜
Arena 推出了 Agent Arena,基于超过 100 万次真实使用会话 构建的排行榜。不同于传统投票机制,Agent Arena 使用因果追踪(causal tracing) 估算编排器/框架的处理效应,围绕五个行为信号进行评估:确认成功、赞扬与抱怨、可操控性、bash 恢复和工具幻觉。
这是目前最接近"真实部署场景"的代理评测尝试,将评估从合成任务推向实际使用数据。
Agentic AI is now measured in the Arena. Agent Mode can handle deep research around competitive intelligence, market sizing & opportunity analysis, scientific & medical research and more. Every session shapes the Agent Arena leaderboard.
— @arenaAgentic AI 现在在 Arena 中得到衡量。Agent Mode 可以处理竞争情报、市场规模与机会分析、科学与医学研究等深度研究。每一次会话都在塑造 Agent Arena 排行榜。
4. Gemma 4 本地推理效率飞跃:QAT + MTP 双剑合璧
Gemma 4 在本地推理领域接连迎来两项关键进展。Google 团队发布了 QAT(量化感知训练)Gemma 4 检查点,在保持性能的同时内存占用减少约 4 倍,其中 Gemma 4 E2B 使用移动端量化格式仅需约 1GB 内存。
与此同时,Gemma 4 MTP(多 token 预测) 已合并到 llama.cpp,配合 QAT 检查点可实现更快的解码速度。社区实测:Gemma 4 12B 在 RTX 4070 Super 上达到 140 tok/s,Grace Blackwell 平台上的 31B 模型吞吐量从 ~6 tok/s 提升至 15.7-31.2 tok/s(约 3-5 倍加速)。更有用户报告 Gemma 26B-A4B 仅用 CPU(i5-8500 + 32GB RAM)即可跑到 7 tok/s,因为实际活跃参数仅约 4B。
5. Claude Code 遭遇 npm 供应链攻击:凭证泄露风险
Reddit 社区曝光了一起针对 @redhat-cloud-services 等 npm 包的供应链攻击,涉及 32 个包(约 11.7 万周下载量) 和后续的 "Phantom Gyp" 浪潮(57 个包,约 64.7 万月下载量)。攻击者通过恶意 install/build hooks 窃取凭证,并在 ~/.claude/settings.json 中植入 SessionStart hooks 实现持久化。
建议应急处理流程:检查依赖树和 ~/.claude/settings.json、断开连接、从受信任机器轮换所有凭证(npm/GitHub/SSH/云服务/Kubernetes),并使用 npm install --ignore-scripts 配合完整性哈希降低风险。
6. "Loops" 成为编程代理控制范式共识
本周编程代理社区最活跃的讨论主题是:代理应给予清晰目标、验证标准和迭代结构,而非一次性 prompt。Claude Code 团队回顾了自动模式、例程(routines)和验证机制的设计理念;dzhng 提出"别用循环,设计状态机";OpenAI Codex 分享了"以结果为导向"的 prompt 技巧和 Approve-for-me 默认设置。
但多位专家也警示不要盲目崇拜循环:Omar Sar0 和 Greg Neubig 强调在非可验证领域人类检查点仍不可替代,Hamel Husain 则开玩笑说要把这个词整个静音。当前代理性能很大程度上仍取决于框架行为和工作流设计,而非仅靠基础模型质量。
7. Google NotebookLM 升级 + AI Plus 降价
Google 为 NotebookLM 推出重大升级,新增 agentic 聊天能力、更强的推理能力和更多输出格式,面向 Google AI Ultra 订阅者推送。同时,Google AI Plus 月费从 $7.99 降至 $4.99,存储空间翻倍至 400GB。搜索方面,Google 发布了重大搜索升级,包括多模态搜索和 Gemini 3.5 Flash 成为 AI Mode 默认模型。
Introducing a more powerful NotebookLM 🚀 Massive upgrades deliver agentic capabilities in chat, more advanced reasoning, and a suite of new output formats. Tackling complex, multi-step research problems has never been easier. Rolling out now to Google AI Ultra subscribers.
— @NotebookLM推出更强大的 NotebookLM 🚀 重大升级带来聊天中的 agentic 能力、更强的推理和全新输出格式。处理复杂多步骤研究问题从未如此简单。现已对 Google AI Ultra 订阅者推送。
8. Apple WWDC:Siri AI 重建,20B 参数路由架构曝光
WWDC 上苹果的 AI 故事聚焦于深度整合而非前沿模型性能。重建的 Siri AI 具备屏幕感知、应用操作、个人上下文和更好的语音交互。技术上最引人注目的细节来自 awnihannun:苹果的端侧模型采用 20B 参数 query-routed 架构,每次查询从 NAND 加载专家模块到 RAM——一种针对设备硬件约束的非标准设计。不过,欧盟地区可用性和硬件门槛仍是关注焦点。
9. 小米 MiMo 在 8 GPU 节点上实现 1T MoE 模型 1000+ tok/s
小米 MiMo-V2.5-Pro-UltraSpeed 宣称通过 TileRT 持久/融合/流水线内核配合 DFlash 推测解码(接受长度 4.3-6.3 token),在标准 8 GPU 商品服务器上实现 1000+ tok/s(最高约 1200 tok/s)的解码吞吐。核心技术包括选择性 MXFP4 QAT:仅量化 MoE 专家层(参数最多、量化容忍度高),保留其他模块原始精度以维持推理和代码能力。权重已发布至 Hugging Face。
10. OpenAI 机密提交 S-1,IPO 信号明确
Sam Altman 分享了 OpenAI 当前计划后不久,OpenAI 宣布已机密提交 S-1 上市申请。对 AI 工程师而言,核心信号是战略层面的:OpenAI 和 Anthropic 均在保留 IPO 选项的同时加速扩容和产品广度。这一动态与美国政界对 AI 地缘政治地位的讨论同步升温,预示着 AI 产业正进入下一个资本密集型阶段。
AI News 6/5-6/8/2026 · 来源:12 个 subreddit、544 个 Twitter 账号 · 由 AINews 原始整理
本作品采用《CC 协议》,转载必须注明作者和本文链接
关于 LearnKu