FrontierCode发布：最佳模型仅得13%

在过去几天的 AI 新闻中，Cognition 发布的 FrontierCode 评测彻底重置了业界对"编程能力"的认知——最好的模型 Opus 4.8 在最高难度子集上仅得 13%，远低于 SWE-Bench 常见的 50%+。与此同时，Kimi 开源编程代理迎来重大升级，Arena 推出基于百万真实会话的 Agent Arena 排行榜，而 Gemma 4 的本地推理效率也实现了数倍飞跃。

1. FrontierCode 发布：编程评测从"通过测试"到"代码可合入"

Cognition 推出了 FrontierCode，一个不满足于单元测试通过率、转而衡量代码是否真正 可合入（mergeable） 的新基准。每个任务由开源项目维护者投入 40+ 小时 设计，评估维度涵盖回归安全、代码整洁、范围控制、测试正确性和可维护性。

核心结论：最好的模型 Opus 4.8 在最难子集上仅得约 13%——远低于 SWE-Bench 风格评测中常见的 50%+。Scott Wu 指出 FrontierCode 减少了约 80% 的误报，评价标准从"CI 流水线"升级为"技术主管审查"。

Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by leading open-source maintainers. Models write sloppy code that works but isn't maintainable. Our eval is first to measure: would you actually merge this code?
— @cognition

推出 FrontierCode：一个提升难度和质量标准的编程评测。每项任务由顶尖开源维护者投入 40+ 小时设计。模型写的代码能跑但不可维护，我们的评测首次衡量：你真的愿意合入这段代码吗？

SWE-Bench style grading has been the standard for years now... The problem is that passing a unit test is only one part of writing production-ready code. The result is our new benchmark FrontierCode - which has ~80% fewer false positives and for which the best model (Opus 4.8) only scores 13%! "Where others grade like a CI, FrontierCode grades like a tech lead."
— @ScottWu46

SWE-Bench 评分方式已是多年标准……但通过单元测试只是编写生产级代码的一部分。结果是新基准 FrontierCode——减少约 80% 误报，最佳模型 Opus 4.8 仅得 13%！"别人像 CI 机器评分，FrontierCode 则像技术主管评分。"

2. Kimi Code 重大升级 & Kimi Work 桌面代理发布

Moonshot 对开源编程代理 Kimi Code 进行了大幅更新：一行命令安装、零配置快速启动、支持拖拽视频作为编程上下文（参考图生成 LUT、长视频剪辑、录屏转代码等）、支持 ACP 协议，可对接 JetBrains、Zed 等 IDE，同时提供插件系统和 Hooks 自定义工具。

同期发布的还有 Kimi Work——一款桌面代理产品，最多可运行 300 个本地子代理，通过浏览器扩展实现网页操作，具备金融数据工具访问和持久记忆能力。

Kimi Code, our open-source coding agent, just got a major upgrade! 🔹One-line CLI install, zero setup, fast startup 🔹Drag in videos as coding context 🔹Plugins for stocks, financial reports, academic papers 🔹Supports the ACP protocol, and works with JetBrains, Zed, and more 🔹Hooks for custom tools and workflows
— @KimiDevs

Kimi Code 开源编程代理迎来重大升级！一行命令安装、零配置快速启动；拖入视频作为编程上下文；支持股票、财报、学术论文插件；支持 ACP 协议和 JetBrains/Zed 等 IDE；提供自定义工具和工作流的 Hooks。

3. Agent Arena 上线：百万真实会话驱动代理排行榜

Arena 推出了 Agent Arena，基于超过 100 万次真实使用会话 构建的排行榜。不同于传统投票机制，Agent Arena 使用因果追踪（causal tracing） 估算编排器/框架的处理效应，围绕五个行为信号进行评估：确认成功、赞扬与抱怨、可操控性、bash 恢复和工具幻觉。

这是目前最接近"真实部署场景"的代理评测尝试，将评估从合成任务推向实际使用数据。

Agentic AI is now measured in the Arena. Agent Mode can handle deep research around competitive intelligence, market sizing & opportunity analysis, scientific & medical research and more. Every session shapes the Agent Arena leaderboard.
— @arena

Agentic AI 现在在 Arena 中得到衡量。Agent Mode 可以处理竞争情报、市场规模与机会分析、科学与医学研究等深度研究。每一次会话都在塑造 Agent Arena 排行榜。

4. Gemma 4 本地推理效率飞跃：QAT + MTP 双剑合璧

Gemma 4 在本地推理领域接连迎来两项关键进展。Google 团队发布了 QAT（量化感知训练）Gemma 4 检查点，在保持性能的同时内存占用减少约 4 倍，其中 Gemma 4 E2B 使用移动端量化格式仅需约 1GB 内存。

与此同时，Gemma 4 MTP（多 token 预测） 已合并到 llama.cpp，配合 QAT 检查点可实现更快的解码速度。社区实测：Gemma 4 12B 在 RTX 4070 Super 上达到 140 tok/s，Grace Blackwell 平台上的 31B 模型吞吐量从 ~6 tok/s 提升至 15.7-31.2 tok/s（约 3-5 倍加速）。更有用户报告 Gemma 26B-A4B 仅用 CPU（i5-8500 + 32GB RAM）即可跑到 7 tok/s，因为实际活跃参数仅约 4B。

5. Claude Code 遭遇 npm 供应链攻击：凭证泄露风险

Reddit 社区曝光了一起针对 @redhat-cloud-services 等 npm 包的供应链攻击，涉及 32 个包（约 11.7 万周下载量） 和后续的 "Phantom Gyp" 浪潮（57 个包，约 64.7 万月下载量）。攻击者通过恶意 install/build hooks 窃取凭证，并在 ~/.claude/settings.json 中植入 SessionStart hooks 实现持久化。

建议应急处理流程：检查依赖树和 ~/.claude/settings.json、断开连接、从受信任机器轮换所有凭证（npm/GitHub/SSH/云服务/Kubernetes），并使用 npm install --ignore-scripts 配合完整性哈希降低风险。

6. "Loops" 成为编程代理控制范式共识

本周编程代理社区最活跃的讨论主题是：代理应给予清晰目标、验证标准和迭代结构，而非一次性 prompt。Claude Code 团队回顾了自动模式、例程（routines）和验证机制的设计理念；dzhng 提出"别用循环，设计状态机"；OpenAI Codex 分享了"以结果为导向"的 prompt 技巧和 Approve-for-me 默认设置。

但多位专家也警示不要盲目崇拜循环：Omar Sar0 和 Greg Neubig 强调在非可验证领域人类检查点仍不可替代，Hamel Husain 则开玩笑说要把这个词整个静音。当前代理性能很大程度上仍取决于框架行为和工作流设计，而非仅靠基础模型质量。

7. Google NotebookLM 升级 + AI Plus 降价

Google 为 NotebookLM 推出重大升级，新增 agentic 聊天能力、更强的推理能力和更多输出格式，面向 Google AI Ultra 订阅者推送。同时，Google AI Plus 月费从 $7.99 降至 $4.99，存储空间翻倍至 400GB。搜索方面，Google 发布了重大搜索升级，包括多模态搜索和 Gemini 3.5 Flash 成为 AI Mode 默认模型。

Introducing a more powerful NotebookLM 🚀 Massive upgrades deliver agentic capabilities in chat, more advanced reasoning, and a suite of new output formats. Tackling complex, multi-step research problems has never been easier. Rolling out now to Google AI Ultra subscribers.
— @NotebookLM

推出更强大的 NotebookLM 🚀 重大升级带来聊天中的 agentic 能力、更强的推理和全新输出格式。处理复杂多步骤研究问题从未如此简单。现已对 Google AI Ultra 订阅者推送。

8. Apple WWDC：Siri AI 重建，20B 参数路由架构曝光

WWDC 上苹果的 AI 故事聚焦于深度整合而非前沿模型性能。重建的 Siri AI 具备屏幕感知、应用操作、个人上下文和更好的语音交互。技术上最引人注目的细节来自 awnihannun：苹果的端侧模型采用 20B 参数 query-routed 架构，每次查询从 NAND 加载专家模块到 RAM——一种针对设备硬件约束的非标准设计。不过，欧盟地区可用性和硬件门槛仍是关注焦点。

9. 小米 MiMo 在 8 GPU 节点上实现 1T MoE 模型 1000+ tok/s

小米 MiMo-V2.5-Pro-UltraSpeed 宣称通过 TileRT 持久/融合/流水线内核配合 DFlash 推测解码（接受长度 4.3-6.3 token），在标准 8 GPU 商品服务器上实现 1000+ tok/s（最高约 1200 tok/s）的解码吞吐。核心技术包括选择性 MXFP4 QAT：仅量化 MoE 专家层（参数最多、量化容忍度高），保留其他模块原始精度以维持推理和代码能力。权重已发布至 Hugging Face。

10. OpenAI 机密提交 S-1，IPO 信号明确

Sam Altman 分享了 OpenAI 当前计划后不久，OpenAI 宣布已机密提交 S-1 上市申请。对 AI 工程师而言，核心信号是战略层面的：OpenAI 和 Anthropic 均在保留 IPO 选项的同时加速扩容和产品广度。这一动态与美国政界对 AI 地缘政治地位的讨论同步升温，预示着 AI 产业正进入下一个资本密集型阶段。

AI News 6/5-6/8/2026 · 来源：12 个 subreddit、544 个 Twitter 账号 · 由 AINews 原始整理

本作品采用《CC 协议》，转载必须注明作者和本文链接

FanchTech

202 声望

一家专注于 IT 解决方案、AI 技术开发、外包项目交付与对日人才培养的科...

0 人点赞

讨论数量: 0

(=￣ω￣=)··· 暂无内容！

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

FrontierCode发布：最佳模型仅得13%

FrontierCode发布：最佳模型仅得13%

1. FrontierCode 发布：编程评测从"通过测试"到"代码可合入"

2. Kimi Code 重大升级 & Kimi Work 桌面代理发布

3. Agent Arena 上线：百万真实会话驱动代理排行榜

4. Gemma 4 本地推理效率飞跃：QAT + MTP 双剑合璧

5. Claude Code 遭遇 npm 供应链攻击：凭证泄露风险

6. "Loops" 成为编程代理控制范式共识

7. Google NotebookLM 升级 + AI Plus 降价

8. Apple WWDC：Siri AI 重建，20B 参数路由架构曝光

9. 小米 MiMo 在 8 GPU 节点上实现 1T MoE 模型 1000+ tok/s

10. OpenAI 机密提交 S-1，IPO 信号明确

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

FrontierCode发布：最佳模型仅得13%

FrontierCode发布：最佳模型仅得13%

1. FrontierCode 发布：编程评测从"通过测试"到"代码可合入"

2. Kimi Code 重大升级 & Kimi Work 桌面代理发布

3. Agent Arena 上线：百万真实会话驱动代理排行榜

4. Gemma 4 本地推理效率飞跃：QAT + MTP 双剑合璧

5. Claude Code 遭遇 npm 供应链攻击：凭证泄露风险

6. "Loops" 成为编程代理控制范式共识

7. Google NotebookLM 升级 + AI Plus 降价

8. Apple WWDC：Siri AI 重建，20B 参数路由架构曝光

9. 小米 MiMo 在 8 GPU 节点上实现 1T MoE 模型 1000+ tok/s

10. OpenAI 机密提交 S-1，IPO 信号明确

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录