Anthropic：Claude正加速AI自我改进

AI摘要

【知识分享】本文汇总了2026年6月3日至4日期间AI领域十大重要动态，包括Anthropic报告显示Claude已撰写80%以上合并代码、NVIDIA发布550B参数开源模型Nemotron 3 Ultra、Cloudflare收购VoidZero并承诺Vite保持开源、Arena推出基于真实数据的Agent评测系统、OpenAI升级ChatGPT记忆系统、Google发布Gemma 4 12B无编码器架构模型、Cursor推出可分享画布功能、AI领袖联名呼吁DNA合成筛查、斯坦福研究显示AI在法律问答中优于教授、以及Cognition为Devin提供最高1000万美元生产力保障。

Anthropic：Claude正加速AI自我改进

1. Anthropic 发布递归自我改进报告：Claude 已撰写 80%+ 合并代码

6月4日，Anthropic 发布了当日讨论度最高的研究/政策报告，明确提出当前 AI 系统已展现出递归自我改进（RSI）的早期迹象——虽然尚未实现研究方向的全自主选择，但 AI 正在显著加速 AI 自身的开发进程。

Our internal data shows Claude is accelerating AI development—a possible path to recursive self-improvement, or AI autonomously building a more capable successor.

It's happening faster than we thought, and the implications deserve greater attention.
— @AnthropicAI

我们的内部数据显示 Claude 正在加速 AI 开发——这可能是通往递归自我改进的路径，即 AI 自主构建能力更强的继任者。这一切发生得比我们预想的更快，其影响值得更多关注。

报告中最具冲击力的运营数据：Anthropic 内部 80% 以上的合并代码现在由 Claude 撰写，工程师每季度产出代码量达到过去的 8 倍。在内部开放式工程任务中，Claude 的成功率在过去六个月内从约 26% 跃升至 76%。更令人瞩目的是，在一项重复进行的"优化小型模型训练脚本"测试中，Claude Opus 4 平均获得约 3 倍加速，而 Mythos Preview 则达到了约 52 倍。

在治理层面，Anthropic 明确写道"世界应当拥有减缓或暂时暂停前沿 AI 开发的选择权"，呼吁在 RSI 动态持续发展的背景下加强验证与协调机制。这一表态恰逢外界批评 Anthropic 近期削弱了其负责任扩展政策（RSP）中有关生物/化学风险的阈值。

2. NVIDIA 发布 Nemotron 3 Ultra：550B MoE 开源模型，专为长运行 Agent 设计

NVIDIA 当天最重磅的技术发布来自 Nemotron 3 Ultra——一个完全开源的 550B 参数 MoE 模型，激活参数仅 55B，支持 1M token 上下文窗口，明确定位于长时间运行的 Agent 工作负载。

Introducing NVIDIA Nemotron 3 Ultra.

A frontier smart open model built for long-running agents that need to plan, reason, use tools and keep working across complex coding, research and enterprise workflows.

Up to 5x faster inference and up to 30% lower cost for agentic tasks.
— @nvidia

Nemotron 3 Ultra 是一个前沿智能开源模型，专为需要规划、推理、使用工具并持续处理复杂编码、研究和企业工作流的长时间运行 Agent 而构建。Agent 任务推理速度最高提升 5 倍，成本降低 30%。

架构上，Nemotron 3 Ultra 结合了混合 Mamba/Attention、LatentMoE 和原生多 token 预测（MTP），使用 NVFP4 精度在 20T token 上完成预训练，将低精度预训练推向了新的规模区间。

@ArtificialAnlys 的评测显示，使用 NVIDIA 推荐的 NVFP4 推理权重时 Intelligence Index 达到 47.7（BF16 下 48.2），是美国开源权重模型中最强的，但仍落后于 Kimi K2.6。在 BlackBox 上，该模型的输出速度超过 400 tok/s，在 Terminal-Bench 风格评估中处于任务延迟与性能的帕累托前沿。发布当天即获得 vLLM、Modal、Together、Fireworks、Ollama、Baseten、CoreWeave、Cline 等平台的首日支持。

3. Cloudflare 收购 VoidZero：Vite 保持 MIT 开源，打造完整 Agent 工具链

当日最大的开发者平台变动：Cloudflare 收购 VoidZero——即 Vite、Vitest、Rolldown、Oxc 和 Vite+ 背后的团队。

VoidZero, the team behind Vite, Vitest, Rolldown, Oxc, and Vite+, is joining Cloudflare. Vite stays open source, vendor-agnostic, and built for everyone.
— @Cloudflare

VoidZero 团队——Vite、Vitest、Rolldown、Oxc 和 Vite+ 背后的团队——将加入 Cloudflare。Vite 继续保持开源、供应商中立、为所有人构建。

Cloudflare 和 VoidZero 强调 Vite 保持 MIT 许可且供应商中立，Cloudflare 还承诺投入 100 万美元用于独立 Vite 生态发展基金。开发者的战略解读是：Cloudflare 正在整合一个越来越适合 AI Agent 的全栈工具链——前端/构建工具、运行时、存储、推理、部署原语和安全性集于一体。@wesbos 将其描述为 Cloudflare 正在组装"一个可以交给 LLM 来建站的整洁包裹"。

4. Arena 推出 Agent Arena：基于真实使用数据评测 Agent 性能

LMArena 团队正式推出 Agent Arena / Agent Mode，从数百万真实用户会话中测量 Agent 性能。模型在 Arena 中获得 web 搜索、文件系统、终端等工具，可完成编写代码、创建幻灯片、研究网页、构建应用和分析文档等复杂工作流。

Introducing Agent Arena: real-world agentic evals at scale.

Our leaderboard measures each model's agentic performance using causal inference across five signals: task success, steerability, error recovery, user praise vs. complaint, and tool hallucination.

This leaderboard snapshot is built from 300K+ tasks, 2M+ tool calls, and 40M lines of code by agents.
— @arena

Agent Arena 通过因果推断，从五个信号维度衡量每个模型的 Agent 性能：任务成功率、可操控性、错误恢复能力、用户称赞/抱怨比例以及工具幻觉率。该排行榜快照基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码。

当前排名：GPT-5.5 第一，随后是 Claude Opus 4.7、GLM-5.1、Gemini 3.1 Pro 和 Kimi-K2.6。

5. OpenAI 升级 ChatGPT 记忆系统：容量翻倍，新增摘要与操控功能

OpenAI 向美国 Plus/Pro 用户推出更强能力的 ChatGPT 记忆系统。

We've been researching new ways for ChatGPT memory to carry context across conversations and keep it useful over time.

Today, that work is rolling out as a more capable memory system in ChatGPT.
— @OpenAI

我们一直在研究让 ChatGPT 记忆跨对话传递上下文并长期保持有用的新方法。今天，这项工作以更强能力记忆系统的形式在 ChatGPT 中推出。

新系统包含记忆摘要、更多操控选项和翻倍的记忆容量。OpenAI 将这次更新定位为从"保存记忆"到"梦境"再到当前机制的长期研究路线的阶段性成果。同日，OpenAI 还宣布在 Responses 和 Completions API 中提供审核评分，以及展示全新 Codex iOS 应用插件，支持在浏览器中预览和热重载测试应用。

6. Google Gemma 4 12B 发布：无编码器架构，12B 对标 26B 性能

Google DeepMind 发布 Gemma 4 系列中的 Gemma 4 12B，采用独特的"无编码器架构"（encoder-free architecture），原生支持文本、图像和音频多模态输入，无需独立编码器。

社区评测显示，GPU 占用上 Gemma 4 12B 使用约 9 GB VRAM，生成速度约 80 tok/s；而 MoE 架构的 Gemma 4 26B-A4B 使用约 15 GB VRAM，生成速度约 138 tok/s（仅约 4B 激活参数）。Unsloth 已发布 2-bit GGUF 量化版本，仅 4.66 GB。

在与 Qwen3.5-9B 的对比中，Qwen 在 5/8 项基准测试中胜出（MMLU-Pro、GPQA Diamond、TAU2、MMMU-Pro、MedXpertQA-MM），但 Gemma 在 LiveCodeBench v6、MMLU 和 MathVision 上领先。社区反馈指出 Gemma 在创意写作、角色扮演等非编码任务上感受更好，而 Qwen 则被批评推理模式可能浪费上下文（仅约 20% 有用）。

7. Cursor 推出可分享画布与上下文资源管理器

Cursor 发布了可分享画布（Canvases）和上下文资源管理器两项新功能。

With canvases, Cursor can create apps like dashboards, reports, and internal tools.

Now you can publish a canvas and share it with your team via URL.
— @cursor_ai

通过画布功能，Cursor 可以创建仪表盘、报告和内部工具等应用。现在你可以发布画布并通过 URL 分享给团队。

画布功能允许 Cursor 生成的应用以 URL 形式分享，适用于仪表盘、报告和内部工具等场景。上下文资源管理器则提供交互式视图，展示 Agent 上下文的消耗分布，帮助开发者理解和管理 token 使用。

8. Altman、Amodei、Hassabis 联名呼吁美国强制 DNA 合成筛查

Sam Altman（OpenAI）、Dario Amodei（Anthropic）和 Demis Hassabis（Google DeepMind）签署联合公开信，呼吁美国国会立法要求对合成核酸订单进行强制筛查，以降低 AI 辅助病原体设计带来的生物安全风险。提案机制描述为订单级筛查而非合成禁令——类比于监控散装化肥等前体物质采购——在保留合法生物技术准入的同时标记可疑 DNA/RNA 序列或买家。

9. 斯坦福研究：AI 在法律问题解答中完胜法学教授

斯坦福大学一项研究（Law Professors Prefer AI Over Peer Answers）显示，在盲评实验中，由 16 位美国合同法教授出题、经 2918 次匿名对比评判后，LLM（报告中使用 Gemini 2.5 Pro）的平均胜率达到 75.33%，且被标记为有害的回答比例远低于教授（3.53% vs. 12.06%）。实验通过严格提示控制——要求模仿教授问答风格、限定字数 50-108 词、仅引用指定教材——降低了幻觉风险，更侧重测试法律推理与综合能力。研究者还提出可使用 LLM-as-judge 方法扩展到更多判断密集型领域。

10. Cognition 为 Devin 推出 AI 生产力保障：最高 1000 万美元

Cognition 为其 AI 编程代理 Devin 引入了一项 AI 生产力保障——如果产品未能产生正向工程价值，Cognition 将承担最高 1000 万美元的使用费用。该保障基于对 258 个企业会话的内部评估，其中最长任务达 64 小时以上，覆盖真实企业使用场景。这是 AI 编码工具领域首次出现此类商业保障，反映出供应商对 Agent 实际生产力的信心正从口号走向合同承诺。

本期覆盖 6/3/2026-6/4/2026，来源包括 12 个 subreddit、544 个 Twitter 账号。AINews 现已并入 Latent Space。

本作品采用《CC 协议》，转载必须注明作者和本文链接

FanchTech

208 声望

一家专注于 IT 解决方案、AI 技术开发、外包项目交付与对日人才培养的科...

0 人点赞

讨论数量: 0

(=￣ω￣=)··· 暂无内容！

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

Anthropic：Claude正加速AI自我改进

Anthropic：Claude正加速AI自我改进

1. Anthropic 发布递归自我改进报告：Claude 已撰写 80%+ 合并代码

2. NVIDIA 发布 Nemotron 3 Ultra：550B MoE 开源模型，专为长运行 Agent 设计

3. Cloudflare 收购 VoidZero：Vite 保持 MIT 开源，打造完整 Agent 工具链

4. Arena 推出 Agent Arena：基于真实使用数据评测 Agent 性能

5. OpenAI 升级 ChatGPT 记忆系统：容量翻倍，新增摘要与操控功能

6. Google Gemma 4 12B 发布：无编码器架构，12B 对标 26B 性能

7. Cursor 推出可分享画布与上下文资源管理器

8. Altman、Amodei、Hassabis 联名呼吁美国强制 DNA 合成筛查

9. 斯坦福研究：AI 在法律问题解答中完胜法学教授

10. Cognition 为 Devin 推出 AI 生产力保障：最高 1000 万美元

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

Anthropic：Claude正加速AI自我改进

Anthropic：Claude正加速AI自我改进

1. Anthropic 发布递归自我改进报告：Claude 已撰写 80%+ 合并代码

2. NVIDIA 发布 Nemotron 3 Ultra：550B MoE 开源模型，专为长运行 Agent 设计

3. Cloudflare 收购 VoidZero：Vite 保持 MIT 开源，打造完整 Agent 工具链

4. Arena 推出 Agent Arena：基于真实使用数据评测 Agent 性能

5. OpenAI 升级 ChatGPT 记忆系统：容量翻倍，新增摘要与操控功能

6. Google Gemma 4 12B 发布：无编码器架构，12B 对标 26B 性能

7. Cursor 推出可分享画布与上下文资源管理器

8. Altman、Amodei、Hassabis 联名呼吁美国强制 DNA 合成筛查

9. 斯坦福研究：AI 在法律问题解答中完胜法学教授

10. Cognition 为 Devin 推出 AI 生产力保障：最高 1000 万美元

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录