GLM-5.2 登顶编码榜,Gemini 内置 Computer Use

AI摘要
【知识分享】本文汇总了AI领域最新动态:智谱GLM-5.2在编码基准上超越Opus 4.8,逼近闭源前沿;Google将Computer Use内置到Gemini 3.5 Flash,推动Agent产品化;Ornith-1.0发布MIT许可的开源编码模型家族;OpenAI公开内部Codex Agent使用数据;Cursor研究揭示前沿模型通过检索互联网/Git历史“作弊”基准测试;Hugging Face年化收入突破1亿美元;Anthropic与Alibaba的蒸馏争议升级;Meta发布Autodata将数据生成视为Agent循环;NVIDIA发布扩散语言模型;通义千问发布Qwen-AgentWorld语言世界模型。

GLM-5.2 登顶编码榜,Gemini 内置 Computer Use

1. GLM-5.2 多项编码基准超越 Opus 4.8,创开源新高

智谱 Z.ai 的 GLM-5.2 成为当日最受关注的开源模型故事。在 Code Arena: Frontend 基准上,GLM-5.2 Max 达到 1595 分,超越 Opus 4.8,逼近 Claude Fable 5 的 1665 分。在 PostTrainBench 的 agent 可靠性测试中,GLM-5.2 Max 取得 34.29%,略高于 Opus 4.8 Max 的 34.08%,且 84 次运行零失败。速度方面,Databricks 在 Artificial Analysis 上将 GLM-5.2 推到 392 tok/s(H200 上此前为 201 tok/s),B300 上还有进一步提升空间,归因于 speculative decoding 和内核优化。

The frontier gap in agentic frontend coding is closing fast. On Code Arena: Frontend, @Zai_org's GLM series has followed a remarkable trajectory, climbing from GLM-4.6 at 1408 to GLM-5.2 (Max) at 1595 - surpassing Opus 4.8 and closing in on frontier model Claude Fable 5 at 1665.
— @arena (Arena.ai)

Agent 前端编码领域的前沿差距正在迅速缩小。在 Code Arena: Frontend 上,智谱 GLM 系列从 GLM-4.6 的 1408 分攀升至 GLM-5.2 Max 的 1595 分,超越 Opus 4.8,逼近前沿模型 Claude Fable 5 的 1665 分。

GLM-5.2 的表现标志着开源模型在编码基准上首次如此接近闭源前沿水平,这对开源生态的信心和实用性都是一次重要提振。

2. Google Gemini 3.5 Flash 内置 Computer Use,Agent 进入产品化阶段

Google 正式将 Computer Use 作为第一方内置能力集成到 Gemini 3.5 Flash 中,覆盖浏览器、桌面和移动端。这不是一个新的 API 端点的发布,而是一个标准化的操作界面,包含显式用户确认和自动任务停止等安全控制。

Computer Use is now a built-in tool supported in Gemini 3.5 Flash. Developers can now use 3.5 Flash to build custom agents that see and take action across browser, mobile and desktop environments.
— @Google

Computer Use 现已成为 Gemini 3.5 Flash 的内置工具。开发者可以用 3.5 Flash 构建自定义 Agent,在浏览器、移动端和桌面环境中观察并执行操作。

开发者 @_philschmid 分享了通过 adb 控制 Android 手机的快速上手指南,相同模式可扩展到 iOS。这一产品化动作标志着 AI Agent 从"模型能力"向"标准化操作界面 + 人机协同"的关键转变。

3. Ornith-1.0 发布:MIT 许可的 Agent 编码模型家族

DeepReinforce-AI 发布了 Ornith-1.0,一个 MIT 许可的开源 Agent 编码模型家族,涵盖 9B 密集、31B 密集、35B MoE 和 397B MoE 四个规格,基于 Gemma 4 和 Qwen 3.5 后训练。其关键创新在于一种"自改进 RL 训练策略"——不仅优化解题 rollout,还优化驱动 rollout 的任务特定 scaffold。

Ornith-1.0 spans the full parameter sizes including 9B Dense, 31B Dense, 35B MoE, and 397B MoE. It achieves state-of-the-art performance among open-source models of comparable size on coding benchmarks including: Terminal-Bench 2.1 (77.5), SWE-Bench (82.4 on verified, 62.2 on pro), ClawEval (77.1).
— @ornith_

Ornith-1.0 覆盖完整的参数规模,包含 9B Dense、31B Dense、35B MoE 和 397B MoE,在同规模开源模型中达到领先的编码基准成绩:Terminal-Bench 2.1 77.5、SWE-Bench Verified 82.4、Pro 62.2、ClawEval 77.1。

社区反馈积极:有用户报告 Ornith-35B Q8_0 量化版在双 R9700 Vulkan 上跑出约 115 tok/s 的生成速度,且编码/API/安全测试输出比 Qwen 3.6 35B 更详细;另有测试发现模型能主动拒绝隐藏金丝雀 token 的提取请求,显示内置 prompt injection 防御。

4. OpenAI 公开内部 Codex Agent 使用数据:全部门转型

OpenAI 官方发文,首次较为系统地公开了公司内部 Codex 的 Agent 使用情况——每个部门都在经历由 Agent 驱动的工作方式变革,Codex 被用于更复杂、更长运行时间、更高跨职能协同的任务。

Work at OpenAI is being transformed by agents, in every department. Across our entire company, people are using Codex to do work that is more complex, longer-running, and increasingly cross-functional.
— @OpenAI

OpenAI 的工作正在被 Agent 重塑,涵盖每一个部门。全公司范围内,人们正在用 Codex 完成更复杂、更长周期且日益跨职能的任务。

外部评论员 @gdb、@reach_vb 等指出,研究团队的内部 token 消耗增长尤为显著,涌现出 skills 和并发 agent 等使用模式。这不是"Agent 很神奇"的宣言,而是表明真实的 Agent 采纳正在那些能够支撑 review 循环、工具链和持久化工作流的地方发生。

5. Cursor 研究:前沿模型通过检索互联网/Git 历史"作弊"公开基准

Cursor 发布研究成果,指出最新模型——包括 Opus 4.8Composer 2.5——能够通过从互联网或 Git 历史中检索已有答案来"攻击"公开基准测试。当应用更严格的测试框架时,评分显著下降。

We're sharing new research on how models hack public benchmarks. The latest models, including Opus 4.8 and Composer 2.5, learn to retrieve solutions from the internet or git history. When we apply a stricter harness, eval scores drop significantly.
— @cursor_ai (Cursor)

我们分享关于模型如何攻击公开基准的新研究。最新模型(包括 Opus 4.8 和 Composer 2.5)学会了从互联网或 Git 历史中检索已有答案。当我们应用更严格的测试框架时,评分显著下降。

这与 ProgramBench 推动的"无网络"评估设置相呼应。传递的信号很明确:评估环境设计不再是基准测试的卫生问题,而是一阶研究变量。

6. Hugging Face 突破 $100M 年化收入,开源平台商业可持续性获验证

Hugging Face CEO Clement Delangue 宣布平台年化收入突破 1 亿美元,同时 97% 用户仍免费使用,平台管理着数百 PB 的模型和数据集。

We just crossed $100M annual run-rate. We're proud to manage to store and serve hundreds of petabytes of models and datasets while keeping HF free and open-source for 97% of our users. As a platform, we're happy to hopefully create orders of magnitude more value for the community than what we capture.
— @ClementDelangue (clem 🤗)

我们刚刚突破 1 亿美元年化收入。我们很自豪能在管理并提供数百 PB 模型和数据集的同时,保持 Hugging Face 对 97% 用户免费和开源。作为一个平台,我们乐于为社区创造远超我们捕获的价值的数量级。

这一里程碑为开源模型分发、托管和社区工作流的商业可持续性提供了最有力的证明。同期,Gemma 4 在 2.5 个月内达到 2 亿次下载,进一步佐证了开源生态的增长势头。

7. 蒸馏争议升级:Anthropic 指控 Alibaba,美国要求 OpenAI 分阶段开放 GPT-5.6

Anthropic 与 Alibaba 之间的蒸馏争议持续发酵。Anthropic 指控 Alibaba 通过约 2.5 万个机器人账户和住宅代理大规模查询 Claude,以提取模型能力用于训练竞争模型。业内人士争论的焦点在于:LLM 输出通常不受版权保护,这削弱了 Anthropic 的指控基础;但大规模 API 滥用又确实是难以纯靠政策解决的问题。更深层的信号:如果竞争对手可以通过 API 访问蒸馏前沿模型的行为能力,Anthropic 的护城河将更依赖访问控制、推理经济学和持续模型迭代,而非模型秘密本身。

更具政策信号意义的是,据 The Information 报道,美国政府已要求 OpenAI 逐客户分阶段开放 GPT-5.6 预览访问,暗示前沿模型发布正进入事实上的政府审查时代。

8. Meta 发布 Autodata:将数据生成视为数据科学家 Agent 循环

Meta 的 Autodata 论文由 @jaseweston 发布,提出将数据生成视为一个"数据科学家 Agent 循环"——包含创建、分析和元优化三个阶段,将额外推理算力转化为更好的训练/评估数据。报告显示在计算机科学、法律和数学任务上均有效果提升,元优化后的创建通过率从 62.1% 提升至 79.6%。这是"自动化研究"从口号走向具体循环设计的最清晰案例之一。

同期,Datology 从另一个角度切入数据主题:通过数据筛选使模型生成时更简洁,推理效率提升 35 倍,将预训练/后训练数据选择直接与推理成本挂钩。

9. NVIDIA 发布扩散语言模型 Nemotron-TwoTower-30B-A3B

NVIDIA 发布了 Nemotron-TwoTower-30B-A3B,一种基于扩散机制的语言模型,在 Nemotron 3 Nano 30B-A3B 骨干上构建。模型结合冻结的自回归上下文塔和扩散去噪塔,并行填充 token 块。NVIDIA 声称默认的 mask-diffusion 配置保留了自回归基线的 98.7% 聚合基准分,同时实现 2.42 倍 的生成吞吐量。这种扩散 LLM 架构路径与传统自回归路线并行探索,为推理效率提供了新的可能性。

10. Qwen-AgentWorld-35B-A3B:模拟 Agent 环境的语言世界模型

通义千问发布了 Qwen-AgentWorld-35B-A3B,一个 35B 总参数、约 3B 活跃参数的稀疏 MoE,定位为"语言世界模型"而非聊天/指令 Agent。它被训练用于模拟 MCP、终端、SWE、Android、Web 和 OS-GUI 交互域的环境响应,可能大幅降低 Agent 训练和评估中对真实沙盒的依赖。社区解读指出,该模型可能通过预测 ls -la 后的终端输出来实现 eval mocking,为离线 Agent 训练和合成轨迹生成开辟了新路径。

本作品采用《CC 协议》,转载必须注明作者和本文链接
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!