霸榜不到半小时的 Opus 4.6,真实能力究竟如何?
2 月 5 日,Anthropic 毫无预警地发布了 Claude Opus 4.6。发布后二十分钟内,它登顶了多个基准测试榜单。
但半小时后,OpenAI 发布了 GPT-5.3 Codex,在编程和逻辑推理领域迅速反超。Opus 4.6 独享榜首的时间只有 37 分钟。
这看起来像一场精心策划的狙击战。但实测三天后,我发现 Opus 4.6 的目标可能不是争夺榜首,而是在实际工作场景中提供更全面的能力。
一、基准测试:全面领先但很快被反超
Opus 4.6 的核心卖点是能力的全面提升。几个关键数据:
Terminal-Bench 2.0(智能体编程):69.9%,超过 GPT-5.2 的 64.9% 和前代 Opus 4.5 的 63.1%。但很快被 GPT-5.3-Codex 的 75.1% 反超。
ARC-AGI-2(新问题求解):69.2%,相比前代 37.6% 接近翻倍,也超过 GPT-5.2 (X-High) 的 52.9%。这是单代模型在抽象推理上最大的进步。
GDPval-AA(知识工作评测):1606 Elo,比 GPT-5.2 的 1462 高出 144 分。换算下来,Opus 4.6 有约 70% 的概率胜过 GPT-5.2。
BrowseComp(搜索能力):84.0%,配合多 Agent 框架可达 86.8%,碾压所有对手。
这些数字看起来很美。但问题是,OpenAI 的反击来得同样迅速。
二、100 万 Token 记忆:不再”失忆”
Opus 4.6 另一个重大突破是 1M 长上下文,或者说记忆的质量。
虽然 Google 的 Gemini 早在两年前就做到了 1M 甚至 2M 的上下文窗口,但业内的痛点一直是”Context Rot”(上下文腐烂)——输入内容越多,模型越容易遗忘前面的指令,或在提取信息时出现幻觉。
Opus 4.6 在这方面交出了一份不错的答卷:
MRCR v2 测试(大海捞针):在 100 万 Token 的长文本中寻找隐藏信息的准确率达到了 76%。作为对比,前代 Sonnet 4.5 只有 18.5%。
实际应用:你可以一次性输入 5 年的财报、完整的法律卷宗或中型项目的全部代码,它能真正记住每个细节。
在处理长文档和复杂项目回溯时,Opus 4.6 目前没有对手。
三、500+ 零日漏洞:从”辅助”到”猎手”
Opus 4.6 在网络安全领域的表现同样值得关注。
Anthropic 官方披露(经第三方安全团队验证),Opus 4.6 在发布前的内部测试中,仅通过阅读开源代码库,就发现了超过 500 个此前未知的高危安全漏洞(Zero-day),没有使用任何专用工具。
这些漏洞遍布 Ghostscript、OpenSC 等核心基础库。大模型的能力发生了质变:
过去:帮你写代码,帮你修 Bug。
现在:像人类安全专家一样,通过逻辑推理预判代码中可能存在的逻辑陷阱。
Opus 4.6 成了开发者手中的双刃剑——最好的代码审计员,也可能是潜在的黑客工具(尽管 Anthropic 声称已做严格的安全对齐)。
四、自适应思考与 Agent 团队
Opus 4.6 引入了 Adaptive Thinking(自适应思考) 模式。
不同于 OpenAI o3 系列的强制”慢思考”,Opus 4.6 会根据问题难度自主决定是快速响应还是深度思考。
简单任务:极速响应,节省 Token 成本。
复杂任务:自动调用思维链,甚至在后台生成多个子 Agent 分工协作。
实测中,要求 Opus 4.6”设计一个类似 Figma 的原型并生成代码”时,它没有直接吐出代码,而是先生成”产品经理 Agent”梳理需求,再生成”UI 设计师 Agent”和”前端工程师 Agent”进行交互。这种原生多智能体协作能力,让它在处理复杂工程任务时的可用性大幅提升。
五、为什么会被 GPT-5.3 Codex 反超?
Opus 4.6 这么强,为什么风头还是被 OpenAI 抢走了?
纯代码能力的差距:在 Terminal-Bench 2.0 等纯编程基准测试中,GPT-5.3 Codex 拿下 75.1% 的高分,超出 Opus 4.6 的 69.9% 整整 5 个百分点。对只在乎代码健壮性的程序员来说,GPT-5.3 Codex 依然是首选。
速度权衡:OpenAI 的新模型在推理速度上优化得更激进,而 Opus 4.6 为了保证长上下文的准确性,在处理超长任务时略显迟缓。这反而在某种程度上拉近了两者之间的速度差距。
价格因素:Opus 4.6 维持了 $5/$25(每百万 Token)的定价,但使用 1M 上下文或 Fast Mode 后,Token 消耗量会成倍增加,实际成本甚至比前代 Opus 4.5 更高。
六、Arena.ai 权威排名揭晓
争论持续了两天。2 月 7 日,Arena.ai 给出了答案。
Arena.ai 的排名显示,Opus 4.6 在代码、文本、专家三大竞技场全部登顶第一:
代码竞技场:比前代 Opus 4.5 暴涨 106 分。
文本竞技场:得分 1496,压过 Gemini 3 Pro。
专家竞技场:领先第二名约 50 分,断层式领先。
在数以万计的真实人类盲测中,Opus 4.6 是那个让你最想点赞的模型。
七、总结:生产力工具的分化
霸榜不到半小时,不代表 Opus 4.6 失败了。AI 赛道正在发生明显的专业性分化:
如果你在做快速原型开发、Vibe-coding、结对编程,或需要在协作会议中实时生成代码和方案,Claude Opus 4.6 的响应速度和快速迭代能力让它成为最佳搭档。它不会让你在白板前等待,而是跟上你的思维节奏。
如果你在处理复杂的后端架构、底层系统优化、需要深度推理的算法设计,或希望模型能独立完成一整块工作而不频繁打断你,OpenAI GPT-5.3 Codex 的”慢工出细活”特性反而是优势。它会花更多时间思考,但交付的代码质量和系统性更强。
Opus 4.6 是你的”快速响应型队友”,Codex 5.3 是你的”深度专业型外包”。
更聪明的做法是:不要选边站队,而是让它们各司其职。前期快速验证想法时用 Opus 4.6 冲刺,需要打磨细节和处理复杂逻辑时切换到 Codex 5.3。甚至可以加上 Gemini 3 Pro 形成三角互证——三个模型的答案相互对照,通过差异看到盲区,通过共识获得信心。
在这个 AI 疯狂迭代的 2026 年,榜单排名的更替可能只需要几分钟,但真正的生产力提升,来自于理解每个工具的节奏,并让它们在正确的场景下发挥作用。
你的下一个开发流程,可能不是选一个模型,而是编排一支 AI 团队。
本作品采用《CC 协议》,转载必须注明作者和本文链接
关于 LearnKu