Claude Opus 4.8 发布,开源模型距前沿仅差 4 个月

Claude Opus 4.8 发布,开源模型距前沿仅差 4 个月

1. Claude Opus 4.8 发布:增量提升,实用导向

Anthropic 发布了 Claude Opus 4.8,作为 Opus 4.7 的同价位升级,重点改进长时间自主编程行为。同时推出 Claude Code 的 Fast 模式动态工作流,以及 claude.ai 上的推理力度控制设置。

Benchmark 结果显示:SWE-Bench Pro 69.2%、OSWorld-Verified 83.4%、GDPval-AA 1890、Finance Agent v2 53.9%,在多轮评测中领先或持平 Opus 4.7、GPT-5.5、Gemini 3.1 Pro。但独立评测反馈分歧较大:@arena 的 200+ 前端/代码测试显示 Opus 4.8 是增量进步而非碾压;CursorBench 显示效率提升但在误差范围内略逊于 4.7;@scaling01 指出 ALE-Bench 无进展;正面来看,@jeremyphoward 发现 4.8 在编程中比 4.7/GPT-5.5 更少"过度代理化"且更配合。

值得注意的是,许多 Reddit 用户更怀念 Opus 4.6,认为 4.7 是回退基线,4.8 继承了 4.7 的行为变化而非恢复 4.6 的推理特性。此外,claude.ai 上的推理力度开关被反馈为几乎无效。

Anthropic 同时发布了重要的平台级改进:

With Opus 4.8, you can add system instructions mid-conversation without breaking the prompt cache.

More cache hits means lower cost and latency for your API requests.
— @ClaudeDevs

使用 Opus 4.8,你可以在对话中途添加系统指令且不会破坏 prompt 缓存,更多缓存命中意味着更低的成本和延迟。

不过定价仍是社区主要抱怨点:@jeremyphoward 直言 Anthropic 在 API 性价比上做得不够,部分用户因订阅/API 经济性更倾向于选择 GPT-5.5。

2. OpenAI Codex 登陆 Windows,手机可远程操控

@OpenAI 宣布 Codex 的 computer use 功能现已支持 Windows,用户可通过 ChatGPT 移动端远程启动、审查和操控 Windows 上的任务。这意味着 Codex 正从浏览器内的代码助手演变为持久的远程开发操作员

同时,OpenAI 为后台 agent 添加了稳定的 identicon 标识,并在 Codex 中支持跨历史聊天内容搜索(@OpenAIDevs)。

Windows users, this one's for you. Computer use now works on Windows, so Codex can take action on your Windows computer.

And with Windows support for Codex in the ChatGPT mobile app, you can start, review, and steer tasks on the go while work continues on your Windows machine.
— @OpenAI

Windows 用户的好消息。Codex 现在可以在 Windows 上执行操作。通过 ChatGPT 手机端的 Windows 支持,你可以在外启动、审查和操控任务,工作会在你的 Windows 机器上继续进行。

此外,OpenAI 还更新了 gpt-5.5 instant,改进了谄媚倾向、事实性和多语言表现。

3. Google 发布 Gemini Spark:24/7 个人代理

@GeminiApp 向美国 AI Ultra 订阅用户推送了 Gemini Spark——一个可跨用户数字生态运行的 24/7 个人代理。它可以在用户指导下连接各数字服务,前台或后台运行均可。

Gemini Spark is now available to all Google AI Ultra subscribers in the U.S.

It can handle the heavy lifting and connect the dots across your digital ecosystem to take action where it matters most. Whether you watch it work or let it run in the background, Gemini Spark is always under your direction.
— @GeminiApp

Gemini Spark 现已向美国所有 AI Ultra 订阅用户开放。它能承担繁重工作,串联你的数字生态系统,在最需要的地方采取行动。无论是盯着它工作还是让它在后台运行,一切都在你的掌控之下。

同时,Google 也继续推进 Gemini Omni 多模态生成/编辑,并发布了面向视频/电影制作创意工作流的 Google Flow Agent

4. 多轮工具调用 RL 训练存在隐蔽 Bug:Token-In, Token-Out

@ClementDelangue 转发了 Hugging Face 团队的深度分析,揭示了大量进行工具调用多轮 RL 训练的项目存在静默的训练循环断裂。核心问题:解码模型输出、解析工具调用,然后对更新后的对话重新分词时,token 化结果可能与原始序列不一致,导致梯度落在模型从未实际采样的序列上——不报错,但数学上错误,梯度信号无意义。

Most people training agentic LLMs with RL right now have a silently broken training loop and have no idea.

The fix is one rule: never re-encode tokens you've decoded. Keep the sampled tokens in one buffer, never re-render them, and both failure modes disappear. That's Token-In, Token-Out done right.
— @ClementDelangue

大多数正在进行多轮 RL 训练的人,其训练循环已经静默断裂却毫不知情。修复方法只有一条规则:永远不要重新编码已解码的 token。将采样的 token 保持在单一缓冲区中,永不重新渲染,两个故障模式都会消失。这就是"Token 入,Token 出"的正确做法。

@johnschulman2 进一步强调,渲染器(renderers) 是消息与 token 之间的基础基础设施,其失败模式横跨训练/测试不匹配、缓存低效和 prompt 注入风险。

5. StepFun 3.7 Flash 发布:196B MoE,本地可跑

StepFun 发布了 Step 3.7 Flash,一个多模态 MoE 模型:196B 总参数、11B 激活参数,内置 1.8B ViT,声称推理速度可达 400 TPS。本地部署约需 128GB 内存,支持 BF16、FP8、NVFP4、GGUF 等多种格式,均已在 Hugging Face 提供。

Benchmark 表现亮眼:SWE-Bench Pro 56.26%、DeepSearchQA F1 92.82%、HLE(含工具)47.2,在 Terminal-Bench、Toolathlon、ClawEval 等 agentic 任务上大幅超越 Step 3.5 Flash。社区反馈称前代 3.5 的"无限思考"问题已修复,尽管中间推理过程仍显得近乎不连贯,但最终答案可"完美"得出。

值得称道的是,StepFun 主动将 llama.cpp 支持上游到主仓库PR #23845),而非像前代那样仅维护 fork。vLLM 夜间测试中,NVFP4 版本在 2× Pro 6k GPU 上以 64 并发达到约 2200 tok/s

6. llama.app 正式发布:llama.cpp 拥有官方统一入口

@ggerganov 宣布 llama.cpp 正式推出官方网站 llama.app,配备跨平台单行安装器和统一 llama 命令行入口点。

llama.cpp now has an official website: llama.app. Our goal is to make local AI accessible to everyone.

On the new landing page you'll find a single-line cross-platform installer. The installation provides a single unified llama entrypoint which you can use to run/serve models and interface with 3rd-party agentic applications.
— @ggerganov

llama.cpp 现在有了官方网站。我们的目标是让本地 AI 普及到每个人。新主页提供了一行跨平台安装器,安装后可获得统一的 llama 入口点,用于运行/托管模型并与第三方 agent 应用对接。

所有已下载的 GGUF 模型将自动可用,无需重新下载。后续计划聚焦于与本地友好的第三方 agent(如 Pi)的无缝集成。

7. EpochAI:开源模型与前沿差距缩至 4 个月

@EpochAIResearch 发布最新评估,指出 2026 年以来开源权重模型落后前沿专有模型的差距约为 4 个月。这与 @LangChain 的数据呼应:2026 年 4 月每 3 个 AI 团队中就有 1 个使用开源模型,而 9 个月前仅为五分之一。

We took another look at the capability gap between open-weight and proprietary models. Since the start of the year, open-weight models have lagged the state of the art by four months.
— @EpochAIResearch

我们重新审视了开源模型与专有模型之间的能力差距。今年以来,开源模型落后最前沿模型约四个月。

与此同时,@kimmonismus 指出 NVIDIA 正将其四个开源模型家族迁移至 Linux Foundation OpenMDW-1.1 许可证,以减少权重/代码/文档/数据之间的法律碎片化。

8. Starlette BadHost 漏洞波及 vLLM、MCP 等 LLM 基础设施

CVE-2026-48710("BadHost")漏洞影响 Starlette < 1.0.1,恶意 Host 头可绕过基于路径的授权检查。由于 Starlette 是 FastAPI 的核心依赖,间接影响 vLLM、LiteLLM、MCP 服务器、Hugging Face/Gradio MCP 集成、OpenAI 兼容代理,甚至可能影响部署在公网的 OpenWebUI。风险涵盖凭据/数据泄露、SSRF,部分场景下可导致 RCE。

社区指出,MCP 使用 stdio 传输模式的本地服务器不受 HTTP 层攻击影响,但 SSE/HTTP 传输部署需要立即检查 Starlette 版本。这成为 LLM 基础设施供应链接口安全的典型案例——深度嵌套的 Python 依赖树使可利用的传递依赖难以察觉。

9. llama.cpp Flash Attention VRAM 优化:节省约 2.4GB

合并的 PR ggml-org/llama.cpp#23764 将 Flash Attention 的 KQ 掩码分配从 f32 改为 f16,在 -ub 2048 时节省约 1.2GB VRAM,-ub 512 时节省约 300MB。随后的 PR #23861 再额外节省约 1.2GB。社区对贡献者 am17an 的高产表示赞赏,并指出持续 git pull llama.cpp 更新仍在不断带来可观的性能提升。

10. Zai ZCube 网络架构:GLM-5.1 推理成本降 33%,延迟降 40.6%

Z.ai 发布了 ZCube 网络架构,用于 ~1000 GPU 集群上的 GLM-5.1 推理。相比传统 ROFT spine-leaf 网络,ZCube 扁平化架构将交换机/光模块成本降低 33%、GPU 推理吞吐提升 15%、首 token P99 尾延迟降低 40.6%,主要通过避免 PD-disaggregation KV-cache 流量热点解决。该成果发表于 SIGCOMM '25,体现了推理优化瓶颈正从模型/运行时层向更底层的网络和系统基础设施转移。

本作品采用《CC 协议》,转载必须注明作者和本文链接
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!