Anthropic:Claude正加速AI自我改进
Anthropic:Claude正加速AI自我改进
1. Anthropic 发布递归自我改进报告:Claude 已撰写 80%+ 合并代码
6月4日,Anthropic 发布了当日讨论度最高的研究/政策报告,明确提出当前 AI 系统已展现出递归自我改进(RSI)的早期迹象——虽然尚未实现研究方向的全自主选择,但 AI 正在显著加速 AI 自身的开发进程。
Our internal data shows Claude is accelerating AI development—a possible path to recursive self-improvement, or AI autonomously building a more capable successor.
It's happening faster than we thought, and the implications deserve greater attention.
— @AnthropicAI我们的内部数据显示 Claude 正在加速 AI 开发——这可能是通往递归自我改进的路径,即 AI 自主构建能力更强的继任者。这一切发生得比我们预想的更快,其影响值得更多关注。
报告中最具冲击力的运营数据:Anthropic 内部 80% 以上的合并代码现在由 Claude 撰写,工程师每季度产出代码量达到过去的 8 倍。在内部开放式工程任务中,Claude 的成功率在过去六个月内从约 26% 跃升至 76%。更令人瞩目的是,在一项重复进行的"优化小型模型训练脚本"测试中,Claude Opus 4 平均获得约 3 倍加速,而 Mythos Preview 则达到了约 52 倍。
在治理层面,Anthropic 明确写道"世界应当拥有减缓或暂时暂停前沿 AI 开发的选择权",呼吁在 RSI 动态持续发展的背景下加强验证与协调机制。这一表态恰逢外界批评 Anthropic 近期削弱了其负责任扩展政策(RSP)中有关生物/化学风险的阈值。
2. NVIDIA 发布 Nemotron 3 Ultra:550B MoE 开源模型,专为长运行 Agent 设计
NVIDIA 当天最重磅的技术发布来自 Nemotron 3 Ultra——一个完全开源的 550B 参数 MoE 模型,激活参数仅 55B,支持 1M token 上下文窗口,明确定位于长时间运行的 Agent 工作负载。
Introducing NVIDIA Nemotron 3 Ultra.
A frontier smart open model built for long-running agents that need to plan, reason, use tools and keep working across complex coding, research and enterprise workflows.
Up to 5x faster inference and up to 30% lower cost for agentic tasks.
— @nvidiaNemotron 3 Ultra 是一个前沿智能开源模型,专为需要规划、推理、使用工具并持续处理复杂编码、研究和企业工作流的长时间运行 Agent 而构建。Agent 任务推理速度最高提升 5 倍,成本降低 30%。
架构上,Nemotron 3 Ultra 结合了混合 Mamba/Attention、LatentMoE 和原生多 token 预测(MTP),使用 NVFP4 精度在 20T token 上完成预训练,将低精度预训练推向了新的规模区间。
@ArtificialAnlys 的评测显示,使用 NVIDIA 推荐的 NVFP4 推理权重时 Intelligence Index 达到 47.7(BF16 下 48.2),是美国开源权重模型中最强的,但仍落后于 Kimi K2.6。在 BlackBox 上,该模型的输出速度超过 400 tok/s,在 Terminal-Bench 风格评估中处于任务延迟与性能的帕累托前沿。发布当天即获得 vLLM、Modal、Together、Fireworks、Ollama、Baseten、CoreWeave、Cline 等平台的首日支持。
3. Cloudflare 收购 VoidZero:Vite 保持 MIT 开源,打造完整 Agent 工具链
当日最大的开发者平台变动:Cloudflare 收购 VoidZero——即 Vite、Vitest、Rolldown、Oxc 和 Vite+ 背后的团队。
VoidZero, the team behind Vite, Vitest, Rolldown, Oxc, and Vite+, is joining Cloudflare. Vite stays open source, vendor-agnostic, and built for everyone.
— @CloudflareVoidZero 团队——Vite、Vitest、Rolldown、Oxc 和 Vite+ 背后的团队——将加入 Cloudflare。Vite 继续保持开源、供应商中立、为所有人构建。
Cloudflare 和 VoidZero 强调 Vite 保持 MIT 许可且供应商中立,Cloudflare 还承诺投入 100 万美元用于独立 Vite 生态发展基金。开发者的战略解读是:Cloudflare 正在整合一个越来越适合 AI Agent 的全栈工具链——前端/构建工具、运行时、存储、推理、部署原语和安全性集于一体。@wesbos 将其描述为 Cloudflare 正在组装"一个可以交给 LLM 来建站的整洁包裹"。
4. Arena 推出 Agent Arena:基于真实使用数据评测 Agent 性能
LMArena 团队正式推出 Agent Arena / Agent Mode,从数百万真实用户会话中测量 Agent 性能。模型在 Arena 中获得 web 搜索、文件系统、终端等工具,可完成编写代码、创建幻灯片、研究网页、构建应用和分析文档等复杂工作流。
Introducing Agent Arena: real-world agentic evals at scale.
Our leaderboard measures each model's agentic performance using causal inference across five signals: task success, steerability, error recovery, user praise vs. complaint, and tool hallucination.
This leaderboard snapshot is built from 300K+ tasks, 2M+ tool calls, and 40M lines of code by agents.
— @arenaAgent Arena 通过因果推断,从五个信号维度衡量每个模型的 Agent 性能:任务成功率、可操控性、错误恢复能力、用户称赞/抱怨比例以及工具幻觉率。该排行榜快照基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码。
当前排名:GPT-5.5 第一,随后是 Claude Opus 4.7、GLM-5.1、Gemini 3.1 Pro 和 Kimi-K2.6。
5. OpenAI 升级 ChatGPT 记忆系统:容量翻倍,新增摘要与操控功能
OpenAI 向美国 Plus/Pro 用户推出更强能力的 ChatGPT 记忆系统。
We've been researching new ways for ChatGPT memory to carry context across conversations and keep it useful over time.
Today, that work is rolling out as a more capable memory system in ChatGPT.
— @OpenAI我们一直在研究让 ChatGPT 记忆跨对话传递上下文并长期保持有用的新方法。今天,这项工作以更强能力记忆系统的形式在 ChatGPT 中推出。
新系统包含记忆摘要、更多操控选项和翻倍的记忆容量。OpenAI 将这次更新定位为从"保存记忆"到"梦境"再到当前机制的长期研究路线的阶段性成果。同日,OpenAI 还宣布在 Responses 和 Completions API 中提供审核评分,以及展示全新 Codex iOS 应用插件,支持在浏览器中预览和热重载测试应用。
6. Google Gemma 4 12B 发布:无编码器架构,12B 对标 26B 性能
Google DeepMind 发布 Gemma 4 系列中的 Gemma 4 12B,采用独特的"无编码器架构"(encoder-free architecture),原生支持文本、图像和音频多模态输入,无需独立编码器。
社区评测显示,GPU 占用上 Gemma 4 12B 使用约 9 GB VRAM,生成速度约 80 tok/s;而 MoE 架构的 Gemma 4 26B-A4B 使用约 15 GB VRAM,生成速度约 138 tok/s(仅约 4B 激活参数)。Unsloth 已发布 2-bit GGUF 量化版本,仅 4.66 GB。
在与 Qwen3.5-9B 的对比中,Qwen 在 5/8 项基准测试中胜出(MMLU-Pro、GPQA Diamond、TAU2、MMMU-Pro、MedXpertQA-MM),但 Gemma 在 LiveCodeBench v6、MMLU 和 MathVision 上领先。社区反馈指出 Gemma 在创意写作、角色扮演等非编码任务上感受更好,而 Qwen 则被批评推理模式可能浪费上下文(仅约 20% 有用)。
7. Cursor 推出可分享画布与上下文资源管理器
Cursor 发布了可分享画布(Canvases)和上下文资源管理器两项新功能。
With canvases, Cursor can create apps like dashboards, reports, and internal tools.
Now you can publish a canvas and share it with your team via URL.
— @cursor_ai通过画布功能,Cursor 可以创建仪表盘、报告和内部工具等应用。现在你可以发布画布并通过 URL 分享给团队。
画布功能允许 Cursor 生成的应用以 URL 形式分享,适用于仪表盘、报告和内部工具等场景。上下文资源管理器则提供交互式视图,展示 Agent 上下文的消耗分布,帮助开发者理解和管理 token 使用。
8. Altman、Amodei、Hassabis 联名呼吁美国强制 DNA 合成筛查
Sam Altman(OpenAI)、Dario Amodei(Anthropic)和 Demis Hassabis(Google DeepMind)签署联合公开信,呼吁美国国会立法要求对合成核酸订单进行强制筛查,以降低 AI 辅助病原体设计带来的生物安全风险。提案机制描述为订单级筛查而非合成禁令——类比于监控散装化肥等前体物质采购——在保留合法生物技术准入的同时标记可疑 DNA/RNA 序列或买家。
9. 斯坦福研究:AI 在法律问题解答中完胜法学教授
斯坦福大学一项研究(Law Professors Prefer AI Over Peer Answers)显示,在盲评实验中,由 16 位美国合同法教授出题、经 2918 次匿名对比评判后,LLM(报告中使用 Gemini 2.5 Pro)的平均胜率达到 75.33%,且被标记为有害的回答比例远低于教授(3.53% vs. 12.06%)。实验通过严格提示控制——要求模仿教授问答风格、限定字数 50-108 词、仅引用指定教材——降低了幻觉风险,更侧重测试法律推理与综合能力。研究者还提出可使用 LLM-as-judge 方法扩展到更多判断密集型领域。
10. Cognition 为 Devin 推出 AI 生产力保障:最高 1000 万美元
Cognition 为其 AI 编程代理 Devin 引入了一项 AI 生产力保障——如果产品未能产生正向工程价值,Cognition 将承担最高 1000 万美元的使用费用。该保障基于对 258 个企业会话的内部评估,其中最长任务达 64 小时以上,覆盖真实企业使用场景。这是 AI 编码工具领域首次出现此类商业保障,反映出供应商对 Agent 实际生产力的信心正从口号走向合同承诺。
本期覆盖 6/3/2026-6/4/2026,来源包括 12 个 subreddit、544 个 Twitter 账号。AINews 现已并入 Latent Space。
本作品采用《CC 协议》,转载必须注明作者和本文链接
关于 LearnKu