Anthropic:Claude正加速AI自我改进

AI摘要
【知识分享】本文汇总了2026年6月3日至4日期间AI领域十大重要动态,包括Anthropic报告显示Claude已撰写80%以上合并代码、NVIDIA发布550B参数开源模型Nemotron 3 Ultra、Cloudflare收购VoidZero并承诺Vite保持开源、Arena推出基于真实数据的Agent评测系统、OpenAI升级ChatGPT记忆系统、Google发布Gemma 4 12B无编码器架构模型、Cursor推出可分享画布功能、AI领袖联名呼吁DNA合成筛查、斯坦福研究显示AI在法律问答中优于教授、以及Cognition为Devin提供最高1000万美元生产力保障。

Anthropic:Claude正加速AI自我改进

1. Anthropic 发布递归自我改进报告:Claude 已撰写 80%+ 合并代码

6月4日,Anthropic 发布了当日讨论度最高的研究/政策报告,明确提出当前 AI 系统已展现出递归自我改进(RSI)的早期迹象——虽然尚未实现研究方向的全自主选择,但 AI 正在显著加速 AI 自身的开发进程。

Our internal data shows Claude is accelerating AI development—a possible path to recursive self-improvement, or AI autonomously building a more capable successor.

It's happening faster than we thought, and the implications deserve greater attention.
— @AnthropicAI

我们的内部数据显示 Claude 正在加速 AI 开发——这可能是通往递归自我改进的路径,即 AI 自主构建能力更强的继任者。这一切发生得比我们预想的更快,其影响值得更多关注。

报告中最具冲击力的运营数据:Anthropic 内部 80% 以上的合并代码现在由 Claude 撰写,工程师每季度产出代码量达到过去的 8 倍。在内部开放式工程任务中,Claude 的成功率在过去六个月内从约 26% 跃升至 76%。更令人瞩目的是,在一项重复进行的"优化小型模型训练脚本"测试中,Claude Opus 4 平均获得约 3 倍加速,而 Mythos Preview 则达到了约 52 倍

在治理层面,Anthropic 明确写道"世界应当拥有减缓或暂时暂停前沿 AI 开发的选择权",呼吁在 RSI 动态持续发展的背景下加强验证与协调机制。这一表态恰逢外界批评 Anthropic 近期削弱了其负责任扩展政策(RSP)中有关生物/化学风险的阈值

2. NVIDIA 发布 Nemotron 3 Ultra:550B MoE 开源模型,专为长运行 Agent 设计

NVIDIA 当天最重磅的技术发布来自 Nemotron 3 Ultra——一个完全开源的 550B 参数 MoE 模型,激活参数仅 55B,支持 1M token 上下文窗口,明确定位于长时间运行的 Agent 工作负载。

Introducing NVIDIA Nemotron 3 Ultra.

A frontier smart open model built for long-running agents that need to plan, reason, use tools and keep working across complex coding, research and enterprise workflows.

Up to 5x faster inference and up to 30% lower cost for agentic tasks.
— @nvidia

Nemotron 3 Ultra 是一个前沿智能开源模型,专为需要规划、推理、使用工具并持续处理复杂编码、研究和企业工作流的长时间运行 Agent 而构建。Agent 任务推理速度最高提升 5 倍,成本降低 30%。

架构上,Nemotron 3 Ultra 结合了混合 Mamba/AttentionLatentMoE原生多 token 预测(MTP),使用 NVFP4 精度20T token 上完成预训练,将低精度预训练推向了新的规模区间。

@ArtificialAnlys 的评测显示,使用 NVIDIA 推荐的 NVFP4 推理权重时 Intelligence Index 达到 47.7(BF16 下 48.2),是美国开源权重模型中最强的,但仍落后于 Kimi K2.6。在 BlackBox 上,该模型的输出速度超过 400 tok/s,在 Terminal-Bench 风格评估中处于任务延迟与性能的帕累托前沿。发布当天即获得 vLLM、Modal、Together、Fireworks、Ollama、Baseten、CoreWeave、Cline 等平台的首日支持。

3. Cloudflare 收购 VoidZero:Vite 保持 MIT 开源,打造完整 Agent 工具链

当日最大的开发者平台变动:Cloudflare 收购 VoidZero——即 Vite、Vitest、Rolldown、Oxc 和 Vite+ 背后的团队。

VoidZero, the team behind Vite, Vitest, Rolldown, Oxc, and Vite+, is joining Cloudflare. Vite stays open source, vendor-agnostic, and built for everyone.
— @Cloudflare

VoidZero 团队——Vite、Vitest、Rolldown、Oxc 和 Vite+ 背后的团队——将加入 Cloudflare。Vite 继续保持开源、供应商中立、为所有人构建。

Cloudflare 和 VoidZero 强调 Vite 保持 MIT 许可且供应商中立,Cloudflare 还承诺投入 100 万美元用于独立 Vite 生态发展基金。开发者的战略解读是:Cloudflare 正在整合一个越来越适合 AI Agent 的全栈工具链——前端/构建工具、运行时、存储、推理、部署原语和安全性集于一体。@wesbos 将其描述为 Cloudflare 正在组装"一个可以交给 LLM 来建站的整洁包裹"。

4. Arena 推出 Agent Arena:基于真实使用数据评测 Agent 性能

LMArena 团队正式推出 Agent Arena / Agent Mode,从数百万真实用户会话中测量 Agent 性能。模型在 Arena 中获得 web 搜索、文件系统、终端等工具,可完成编写代码、创建幻灯片、研究网页、构建应用和分析文档等复杂工作流。

Introducing Agent Arena: real-world agentic evals at scale.

Our leaderboard measures each model's agentic performance using causal inference across five signals: task success, steerability, error recovery, user praise vs. complaint, and tool hallucination.

This leaderboard snapshot is built from 300K+ tasks, 2M+ tool calls, and 40M lines of code by agents.
— @arena

Agent Arena 通过因果推断,从五个信号维度衡量每个模型的 Agent 性能:任务成功率、可操控性、错误恢复能力、用户称赞/抱怨比例以及工具幻觉率。该排行榜快照基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码。

当前排名:GPT-5.5 第一,随后是 Claude Opus 4.7GLM-5.1Gemini 3.1 ProKimi-K2.6

5. OpenAI 升级 ChatGPT 记忆系统:容量翻倍,新增摘要与操控功能

OpenAI 向美国 Plus/Pro 用户推出更强能力的 ChatGPT 记忆系统。

We've been researching new ways for ChatGPT memory to carry context across conversations and keep it useful over time.

Today, that work is rolling out as a more capable memory system in ChatGPT.
— @OpenAI

我们一直在研究让 ChatGPT 记忆跨对话传递上下文并长期保持有用的新方法。今天,这项工作以更强能力记忆系统的形式在 ChatGPT 中推出。

新系统包含记忆摘要、更多操控选项和翻倍的记忆容量。OpenAI 将这次更新定位为从"保存记忆"到"梦境"再到当前机制的长期研究路线的阶段性成果。同日,OpenAI 还宣布在 Responses 和 Completions API 中提供审核评分,以及展示全新 Codex iOS 应用插件,支持在浏览器中预览和热重载测试应用。

6. Google Gemma 4 12B 发布:无编码器架构,12B 对标 26B 性能

Google DeepMind 发布 Gemma 4 系列中的 Gemma 4 12B,采用独特的"无编码器架构"(encoder-free architecture),原生支持文本、图像和音频多模态输入,无需独立编码器。

社区评测显示,GPU 占用上 Gemma 4 12B 使用约 9 GB VRAM,生成速度约 80 tok/s;而 MoE 架构的 Gemma 4 26B-A4B 使用约 15 GB VRAM,生成速度约 138 tok/s(仅约 4B 激活参数)。Unsloth 已发布 2-bit GGUF 量化版本,仅 4.66 GB

在与 Qwen3.5-9B 的对比中,Qwen 在 5/8 项基准测试中胜出(MMLU-Pro、GPQA Diamond、TAU2、MMMU-Pro、MedXpertQA-MM),但 Gemma 在 LiveCodeBench v6、MMLU 和 MathVision 上领先。社区反馈指出 Gemma 在创意写作、角色扮演等非编码任务上感受更好,而 Qwen 则被批评推理模式可能浪费上下文(仅约 20% 有用)。

7. Cursor 推出可分享画布与上下文资源管理器

Cursor 发布了可分享画布(Canvases)上下文资源管理器两项新功能。

With canvases, Cursor can create apps like dashboards, reports, and internal tools.

Now you can publish a canvas and share it with your team via URL.
— @cursor_ai

通过画布功能,Cursor 可以创建仪表盘、报告和内部工具等应用。现在你可以发布画布并通过 URL 分享给团队。

画布功能允许 Cursor 生成的应用以 URL 形式分享,适用于仪表盘、报告和内部工具等场景。上下文资源管理器则提供交互式视图,展示 Agent 上下文的消耗分布,帮助开发者理解和管理 token 使用。

8. Altman、Amodei、Hassabis 联名呼吁美国强制 DNA 合成筛查

Sam Altman(OpenAI)、Dario Amodei(Anthropic)和 Demis Hassabis(Google DeepMind)签署联合公开信,呼吁美国国会立法要求对合成核酸订单进行强制筛查,以降低 AI 辅助病原体设计带来的生物安全风险。提案机制描述为订单级筛查而非合成禁令——类比于监控散装化肥等前体物质采购——在保留合法生物技术准入的同时标记可疑 DNA/RNA 序列或买家。

9. 斯坦福研究:AI 在法律问题解答中完胜法学教授

斯坦福大学一项研究(Law Professors Prefer AI Over Peer Answers)显示,在盲评实验中,由 16 位美国合同法教授出题、经 2918 次匿名对比评判后,LLM(报告中使用 Gemini 2.5 Pro)的平均胜率达到 75.33%,且被标记为有害的回答比例远低于教授(3.53% vs. 12.06%)。实验通过严格提示控制——要求模仿教授问答风格、限定字数 50-108 词、仅引用指定教材——降低了幻觉风险,更侧重测试法律推理与综合能力。研究者还提出可使用 LLM-as-judge 方法扩展到更多判断密集型领域。

10. Cognition 为 Devin 推出 AI 生产力保障:最高 1000 万美元

Cognition 为其 AI 编程代理 Devin 引入了一项 AI 生产力保障——如果产品未能产生正向工程价值,Cognition 将承担最高 1000 万美元的使用费用。该保障基于对 258 个企业会话的内部评估,其中最长任务达 64 小时以上,覆盖真实企业使用场景。这是 AI 编码工具领域首次出现此类商业保障,反映出供应商对 Agent 实际生产力的信心正从口号走向合同承诺。


本期覆盖 6/3/2026-6/4/2026,来源包括 12 个 subreddit、544 个 Twitter 账号。AINews 现已并入 Latent Space

本作品采用《CC 协议》,转载必须注明作者和本文链接
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!