Cursor Composer 2.5 发布,10倍算力训新模型

Cursor Composer 2.5 发布,10倍算力训新模型

1. Cursor 发布 Composer 2.5,并披露正在从零训练更大模型

5月18日,Cursor 发布了其迄今最强的模型 Composer 2.5,强调在长时间任务上的持续工作能力和复杂指令遵循方面都有显著提升。为推广新模型,Cursor 宣布接下来一周将加倍用户的包含用量。

Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running tasks, and more reliable at following complex instructions. For the next week, we're doubling the included usage of the model.
— @cursor_ai

Cursor 发布 Composer 2.5,这是我们迄今为止最强大的模型。它更智能,在长时间任务上表现更好,在遵循复杂指令方面也更可靠。接下来一周我们将加倍用户的包含用量。

随后,Cursor 披露了更深的战略布局:正在从零训练一个规模远超以往的模型,使用 10 倍于此前 的总算力,并获得了 Colossus 2 百万 H100 等效算力集群 的访问权限,项目代号 "SpaceXAI"。社区反应集中在性价比和编码质量上,用户普遍认为这是相比 Composer 2 的重大升级,尤其称赞其在协作消息/更新中的表现改善。社区评论称其效率/成本性能表现出色,协作行为如消息和更新也有明显改进,而非仅靠原始基准分数。

2. Cognition 发布 Devin Auto-Triage:永不掉线的 AI 值班工程师

Cognition 发布了 Devin Auto-Triage,定位为具备长期记忆的 AI "第一响应者"。Devin 可以持续监控收到的 bug、告警和线上事故,自主调查问题,并返回上下文分析、下一步建议或直接生成修复 PR。

Introducing Devin Auto-Triage: Your AI first-responder with long-term memory. Devin can monitor incoming bugs, alerts, and incidents, investigate them, and come back with context, next steps, or a PR.
— @cognition

发布 Devin Auto-Triage:具有长期记忆的 AI 第一响应者。Devin 可以监控传入的 bug、告警和事故,进行调查,并带着上下文、下一步建议或 PR 返回。

该功能采用 Manager/Subagent 架构,支持长期记忆和 PR 自动生成。早期用户如 Modal 评价其比常见的自建 triage 自动化更有用。与此同时,LangChain 发布了 LangSmith Engine,定位为 Agent 缺失的 CI/CD 循环——自动从生产 trace 中检测失败、聚类问题、起草修复和评估方案,配套推出 SmithDB 作为专门为 Agent 可观测性设计的数据库层。两条产品线共同指向一个趋势:Agent 基础设施正在向可观测性 + 自动化闭环收敛,而非停留在"与 Agent 聊天"的交互模式。

3. Qwen3.7 Preview 登上 Arena,阿里稳居全球第六文字实验室

Qwen3.7 Preview 系列正式登陆 LMSys Arena。在文字排行榜中,Qwen3.7 Max Preview 位列总榜 #13,其中数学 #7、专家级 #9、软件与 IT #9、编程 #10。在视觉排行榜上,Qwen3.7 Plus Preview 排名总榜 #16。这使得阿里巴巴成为 Arena 统计中第 6 大文字模型实验室第 5 大视觉模型实验室

Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overall. Alibaba is now the #6 lab. — #7 Math, #9 Expert, #9 Software & IT, #10 Coding. In Vision Arena: Qwen3.7 Plus Preview ranks #16 overall, making Alibaba the #5 lab.
— @arena

Qwen3.7 Preview 由阿里巴巴通义千问团队登陆 Arena 文字和视觉榜单。文字榜单中 Qwen3.7 Max Preview 排名第 13,阿里成为第 6 大实验室。数学第 7、专家第 9、软件与 IT 第 9、编程第 10。视觉榜单 Qwen3.7 Plus Preview 排名第 16,阿里成为第 5 大实验室。

这一成绩延续了中国 AI 实验室在通用和专业领域齐头并进的趋势。同期,字节跳动开源了 Lance——统一多模态模型,包含 3B 视频 + 3B 图像 + 3B 解码器组件,支持图像/视频理解、生成和编辑。

4. Anthropic 收购 Stainless,强化开发者工具链垂直整合

Anthropic 宣布收购 Stainless——这家 SDK 和 MCP 服务器平台自 Anthropic API 最早时期起就为其所有 SDK 提供技术支持。

Anthropic is acquiring @stainlessapi, an SDK and MCP server platform that has powered every Anthropic SDK since the earliest days of our API.
— @AnthropicAI

Anthropic 正在收购 Stainless,这个 SDK 和 MCP 服务器平台自我们 API 最早时期起就为每个 Anthropic SDK 提供技术支持。

从战略角度看,这标志着 Anthropic 在开发者体验、SDK 生成和协议层面的持续垂直整合,不局限于模型质量竞争。同时,有分析指出 Anthropic 和 OpenAI 在 34 家顶级 AI 创业公司产生的模型/应用收入中所占份额正在上升,表明基础模型提供商的经济集中度可能正在提高。

5. llama.cpp 为 Qwen3.6 添加 MTP 支持,推理吞吐提升 78%

Georgi Gerganov 宣布 llama.cpp 为 Qwen3.6 全系添加了 MTP(Multi Token Prediction,多头预测)支持,称之为本地 AI 生态的"重要里程碑"。

llama.cpp adds MTP for the Qwen3.6 family. This is a significant milestone for the local AI ecosystem. The performance jump with these changes is massive and elevates local inference on commodity hardware further.
— @ggerganov

llama.cpp 为 Qwen3.6 系列添加 MTP 支持。这是本地 AI 生态的重要里程碑,性能跃升巨大,进一步提升了普通硬件上的本地推理能力。

社区实测数据印证了这一点:Qwen3.6-27B dense 模型在 A10G GPU 上使用 --spec-type draft-mtp --spec-draft-n-max 3 后,吞吐量从 25 tok/s 跃升至 45 tok/s(+78%)。在消费级硬件上同样显著:Qwen 35B Q4_XL 在双 RTX 5060 Ti 上以 --parallel 2 配合 MTP 可达到约 180 tok/s,对比无 MTP 的 127 tok/s 提升约 42%。不过 MTP 增益因工作负载和采样参数而异——代码类任务收益明显,短文生成场景在 MoE 模型上偶有减速。

6. Anthropic 发布 Claude Code 最佳实践,Fast Mode 默认启用 Opus 4.7

Anthropic 密集更新了开发者工具:发布 Claude Code 最佳实践指南,覆盖百万行级 monorepo、遗留系统和微服务架构场景;在 Claude Console 中添加了 prompt cache diagnostics(提示缓存诊断工具);同时将 Fast Mode 默认切换至 Opus 4.7,为编码场景提供更低延迟的体验。有用户报告 Claude Opus 4.7 相比 4.6 在某些重构任务上有退化,但整体反馈积极。

OpenAI 同期扩展了 Codex 工作流:新增 Zoom 插件、支持手机端远程执行及"保持 Mac 唤醒"功能,让长时间运行的 Codex 任务可以从手机 App 继续。Microsoft 则将 GitHub Copilot CLI 和 VS Code 远程控制推送至正式版。三家的产品方向高度一致:后台执行、远程监督、Agent 扇出,而非仅仅交互式代码补全。

7. Elon Musk 诉 OpenAI 案败诉,法官采纳陪审团裁决

5月18日,奥克兰联邦法院陪审团裁定 Elon Musk 败诉。法院认定 Musk 针对 Sam Altman、OpenAI 和 Microsoft 提出的"违反慈善信托"指控已超过 3 年诉讼时效,因此不触及 OpenAI 非营利/营利治理转换的实质性问题。法官 Yvonne Gonzalez Rogers 采纳了陪审团的咨询裁决,并对上诉前景表示怀疑。Musk 将此败诉归因于"日历上的技术性问题",并表示将向第九巡回法院上诉。社区普遍认为审判的主要价值在于披露了大量内部 DM 和邮件。

8. François Chollet 提出编码 Agent 心智模型,行业共识聚焦约束与验证

Keras 作者 François Chollet 对编程 Agent 给出了一个精辟的思维模型,在社区获得广泛共鸣:

A mental model for working with coding agents is that they're blind squirrels running into a maze and bumping into walls. You must place the walls (verifiable constraints) strategically so that they end up in the general region you want them in.
— @fchollet

使用编程 Agent 的心智模型:它们就像盲松鼠冲进迷宫撞墙。你必须战略性地放置墙壁(可验证约束),让它们最终落在你想要的大致区域。

这一洞见与行业实践共识高度一致:Agent 的质量更多取决于验证面、任务分解和反馈循环,而非单纯的 prompt 技巧。本周来自从业者的多项建议——在 Python/ML 代码中大量使用 assert 实现快速失败、为长时间运行的 Agent 构建端到端和增量评估、按阶段成熟度而非 Agent 数量来构建多 Agent 系统——都以不同方式呼应了这一主题。Richard Sutton 浓缩 26 个词的"苦涩教训"也在本周获得高互动,核心思想"聚焦随算力扩展的搜索和学习方法"与上述 Agent 验证导向一脉相承。

9. 社区实测焦点:硬件推理跑分与 4B 小型编码 Agent

Reddit 社区本周产出了几项有技术参考价值的实测内容:

M5 MacBook Pro vs DGX Spark vs RTX 6000 推理跑分(1217 活跃度):基准数据显示 RTX 6000 内存带宽约 1800 GB/s、M5 约 600 GB/s、DGX Spark / Strix Halo 约 256 GB/s。核心结论:当模型和上下文能完全装入 VRAM 时 RTX 6000 最强,一旦溢出到系统内存 M5 的统一内存架构更稳定;Strix Halo 在价格和功耗效率上有优势。社区呼吁减少平台之争,关注实际工作负载匹配。

SmallCode:4B 参数编码 Agent 声称自测 87% 基准分(1240 活跃度):基于 Gemma 4 模型(每词元仅激活 4B 参数),通过复合工具链、编译/lint 反馈循环、失败分解、token 预算和符号代码图等 harness 方法达成高成功率。项目 MIT 开源在 GitHub。但社区质疑基准可信度——"87% 的自我选定任务"而非标准评测,要求使用可复现的标准基准对比。

10. 研究前沿精选:架构搜索、MoE 设计和训练数据策略

本周几篇论文聚焦于"更好的训练信号"而非"更大的模型":

  • Meta AIRA:通过 Agent 驱动的神经架构搜索,在 350M、1B 和 3B 规模上 24 小时内超越 Llama 3.2。创新点在于将搜索拆分为规划 Agent(AIRA-Compose)和实现 Agent(AIRA-Design),展示了 Agentic 方法在 ML 系统设计中的潜力。
  • "Slicing and Dicing MoEs":训练 2000+ 个 MoE 语言模型后得出结论,MoE 设计空间的主要变量归结为专家大小和专家数量,而非其他被频繁讨论的配置旋钮。
  • On-Policy Mix:针对数据分布持续演变这一悬而未决的问题,提出适用于预训练、中期训练和指令微调各阶段的动态数据混合策略。
  • Pedagogical RL:指出即使推理轨迹本身正确,如果对当前学生策略而言过于"意外",也可能是糟糕的训练数据;提出基于惊喜度门控模仿和 spike 感知奖励的方法来生成学生可学习的轨迹。
  • Abliterlitics:在 Qwen3.6-27B 上花费 85 GPU 小时对比 5 种 abliteration 方法,发现 Huihui 综合保持基准能力最优(非 GSM8K 平均仅降 0.5pp,HarmBench ASR 98.5%),Heretic 权重修改最少(KL=0.0037),Abliterix 副作用最大(Lambda 困惑度 3.18→9.12)。关键发现:所有 abliterated 模型 HarmBench ASR 接近 100%,但 GSM8K 原始分数受 thinking-budget 耗尽影响严重。

另外,Figure AI 本周直播了一场"人机大赛",社区将当前人形机器人阶段类比为"汽车诞生第二年",认为即便速度只有人类一半,通过 24/7 连续运行和电池/机队轮换仍具经济价值。

本作品采用《CC 协议》,转载必须注明作者和本文链接
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!