微软 Build 发布 MAI-Thinking-1 推理模型

AI摘要
【知识分享】微软Build大会发布MAI-Thinking-1推理模型(35B MoE,AIME 97%),并推出7款MAI系列模型及109页技术报告。同时,GitHub Copilot桌面应用、OpenAI Codex Sites、Google DeepMind Co-Scientist等发布,聚焦AI Agent、自研芯片MAIA 200及成本优化案例,展示行业向Agent原生开发与多模型协作演进。

微软 Build 发布 MAI-Thinking-1 推理模型

6 月 2 日,微软在 Build 大会上以"模型工厂"姿态高调亮相,一口气发布 7 款 MAI 系列模型,并释出 109 页透明度空前的技术报告。同时,OpenAI Codex Sites、GitHub Copilot 桌面应用、Google DeepMind Co-Scientist 等重要发布也密集登场。以下为当日最重要的 10 个事件。

1. 微软发布 MAI-Thinking-1:35B MoE 推理模型,97% AIME,53% SWE-Bench Pro

微软 CEO Mustafa Suleyman 在 Build 上宣布了 MAI-Thinking-1——微软首款推理模型。这是一款 35B 活跃参数的 MoE 架构模型,拥有 256K 上下文窗口,在 AIME 2025 上达到 97%,SWE-Bench Pro 达 53%(与 Opus 4.6 持平),Surge 盲测总体质量偏好度超越 Sonnet 4.6。

Super excited to announce seven new world-class MAI models today. They represent what we consider a new era in AI designed to keep you in control and on the frontier.
First is our text foundation model, MAI-Thinking-1, exceptionally strong on reasoning and SWE tasks.

  • It's a 35B active parameter MoE with a 256K context window. Independent human raters on Surge prefer it for overall quality in blind side-by-sides versus Sonnet 4.6, and it's achieved 97% on AIME 2025, the key measure of its general-purpose reasoning abilities.
  • It's at 53% on SWE Bench Pro, placing it right alongside Opus 4.6 on one of the toughest coding benchmarks.
  • And since we co-designed our models with our own silicon, MAI-Thinking-1 is optimized on our MAIA 200 chip. Benchmarking head-to-head against the GB200, we see 30% better performance per dollar as well as a 1.4x performance-per-watt gain when running our MAI models on the MAIA 200 end-to-end.
    — @mustafasuleyman

非常激动地宣布今天我们发布了七款世界级的 MAI 新模型。首先是我们的文本基础模型 MAI-Thinking-1,推理和 SWE 任务极其强大。它是 35B 活跃参数的 MoE,256K 上下文窗口。Surge 盲测中人类评委整体质量偏好度超越 Sonnet 4.6,AIME 2025 达 97%,SWE Bench Pro 达 53%,与 Opus 4.6 并驾齐驱。由于与自研芯片 MAIA 200 协同设计,端到端性能/美元比 GB200 高 30%,性能/瓦特提升 1.4 倍。

该模型预训练消耗 30T tokens,使用 8192 GB200 GPU 训练。社区对模型"零蒸馏、零合成数据"的技术路线反应热烈,Hanna Hajishirzi 将其描述为"简单配方、严谨科学、自我蒸馏、耐心和出色基础设施"的成果。

2. MAI 模型家族全览:Code-1-Flash、Image-2.5、Transcribe-1.5、Voice-2

微软同步发布了覆盖推理、代码、图像、语音转录和语音合成的完整模型家族:

Seven new models launching at Build: let's go!
Reasoning. Code. Image. Transcribe. Voice.
Built from scratch on a clean data lineage, designed for efficiency, working seamlessly as a family of models
— @MicrosoftAI

Build 大会发布七款新模型!推理、代码、图像、语音转录、语音合成。全部从零打造,拥有清洁数据血统,为效率而设计,无缝协作的模型家族。

  • MAI-Code-1-Flash:定位为 VS Code 和 GitHub Copilot CLI 的高效编码模型,仅 5B 参数即达到 SWE-Bench Pro 的 51%,接近 Haiku 级别的尺寸/成本。独立总结显示其实际为 137B 总参数的 MoE 架构(5B 活跃),256K 上下文,宣称"比 Claude 4.5 Haiku 更强更高效"。
  • MAI-Image-2.5:图像编辑排行榜第 2 名,Chatbot Arena 评分 1401,超越 Nano Banana 2 10 分,被描述为"推进帕累托前沿"——在同价位段无敌。
  • MAI-Transcribe-1.5:语音转文字模型,276 倍实时速度,AA-WER 仅 2.4%,在 Artificial Analysis 排行榜综合排名第 3,支持 43 种语言,包含关键词偏置功能。定价为每 1000 分钟音频 6 美元。
  • MAI-Voice-2:语音合成模型,技术细节较少,已通过 OpenRouter 等渠道上线。

3. 109 页技术报告:被誉为"前沿模型透明度的黄金标准"

微软同步发布了 MAI-Thinking-1 的 109 页技术报告,在技术社区引发轰动。多位研究人员称其为"该规模模型最透明的报告之一",@nrehiew_ 表示"可以作为今天 LLM 训练的更新版教科书",@stochasticchasm 称其为"金矿"。

报告披露的信息包括:

  • 完整的数据 pipeline 细节:基于 Common Crawl 加私有来源,不使用任何合成数据,针对不同领域设计了子 pipeline
  • 内部 NLL 评估集组成:50% 代码、17.5% STEM、17.5% 数学、10% 通用知识、5% 多语言
  • 架构选择基于"效率增益(EG)"指标:候选架构需要用额外多少计算量才能匹敌基线的损失
  • RL 从零推理基础开始:一个约 <20% AIME 的检查点直接跃升至 >95%,起点"无任何推理经验"
  • 使用了 DSPy 优化的 GEPA LLM 裁判进行预训练数据质量评分
  • 披露了各迭代的精确 MFU 数字

4. GitHub Copilot 桌面应用:Agent 原生的软件开发体验

GitHub 推出了 GitHub Copilot 桌面应用,定位为"Agent 原生软件开发的桌面主场"。

Introducing the GitHub Copilot app, the desktop home for agent-native software development on GitHub
— @pierceboggan

推出 GitHub Copilot 桌面应用,GitHub 上 Agent 原生软件开发的桌面主场。

核心功能包括:

  • Canvases:用户与 Agent 之间的双向协作界面
  • 跨设备连续性:CLI、移动端、Web、本地和云端无缝切换
  • GitHub 成为 Agent 工作流中心
  • Copilot CLI 实验性功能:终端 UI(多标签页)、内置反馈/Rubber Duck、提示词调度、语音输入

5. Windows 成为 Agent 运行平台:Surface RTX Spark Dev Box 与 Solara/Scout 概念

微软 Windows 团队将 Build 定位为"让 Windows 成为 Agent 可信执行平台"的转折点。Yusuf Mehdi 强调"更快的开发者执行、Agent 安全执行层、本地运行的无计量智能"。

硬件栈方面:

  • Surface RTX Spark Dev Box:128GB 统一内存,110 TOPS AI 性能,20 CPU 核心,配套 70+ PowerToys 工具
  • Project Solara:Agent 优先设备平台,概念包括桌面 AI 伴侣和带摄像头/麦克风/传感器的可穿戴徽章
  • Microsoft Scout:始终在线的个人工作 Agent
  • 展示了本地运行 120B 参数模型、DGX Station 本地运行 1 万亿参数模型

6. Microsoft Web IQ:为 AI Agent 重构的搜索 API

微软发布 Web IQ 推理/搜索 API 套件,覆盖网页、新闻、图片和视频。Jordi Ribas 指出经典搜索引擎为人类设计,但未来的搜索需求将来自 AI Agent,"可能产生 1000 倍的查询量"。Web IQ 从 Bing 技术栈重新架构,针对质量、延迟和 Token 效率优化,声称已为包括 Copilot 和 ChatGPT 在内的"几乎所有行业 AI Agent 和聊天机器人"提供底层支持。

7. MAIA 200 自研芯片:对标 GB200,性能/瓦特领先 40%

微软披露 MAIA 200 自研 AI 芯片与 MAI 模型协同设计的细节:端到端运行 MAI 模型时性能/美元比 GB200 高 30%,性能/瓦特提升 1.4 倍。Mustafa Suleyman 预测 AI 计算量将在未来三年增长 1000 倍,从当前约 5e27 FLOPs 的前沿规模增至 2029 年的 5e30 FLOPs。同时 Foundry 已托管超过 11000 个模型,其中 10928 个来自 Hugging Face。

8. OpenAI 推出 Codex Sites:将想法一键部署为网站和应用

OpenAI 发布 Sites in Codex,允许团队将想法、文档和计划转化为可部署的内部网站和应用。

Building apps has never been easier.
With Sites, Codex can turn your work, ideas, and plans into an interactive website or app your team can explore, use, and share with a URL.
Rolling out to Business and Enterprise plans, before expanding more broadly.
— @OpenAI

构建应用从未如此简单。通过 Sites,Codex 可以将你的工作、想法和计划转化为交互式网站或应用,团队可通过 URL 探索、使用和分享。先面向 Business 和 Enterprise 方案推出,随后扩大覆盖。

同步扩展了角色专用的 Codex 插件,覆盖销售、数据分析、创意制作、产品设计和公共股权工作流,接入 62 个应用和 110 项技能。

9. Harvey + LangChain:法律 Agent 验证成本从 $18,000 降至 $18

Harvey 与 LangChain Labs 合作展示了法律 Agent 验证器的极端成本优化:用 DeepSeek V4 Flash 替代 Opus 4.7 作为验证裁判,在保持 94-96% 一致率的情况下,逐条验证成本降低 18 倍,批量验证成本降低约 1000 倍。

DeepSeek v4 Flash preserved much of the Opus 4.7 verifier signal with 94-96% agreement, between batch mode and per-criterion mode.
This came with a massive reduction in cost: 18x cheaper on per-criterion verification, and ~1,000x cheaper on batch verification.
In an RL setting with 3,200 rollouts, the cost of verification drops from $18,000 to $18.
— @harvey

DeepSeek V4 Flash 在逐条和批量模式下都与 Opus 4.7 保持 94-96% 的一致率。成本大幅降低:逐条验证便宜 18 倍,批量验证便宜约 1000 倍。在 3200 次 RL rollout 中,验证成本从 $18,000 降至 $18。

该工作基于 1200+ 法律任务、24 个执业领域的 Legal Agent Benchmark(LAB),每个答案平均需评分 50+ 条评判标准。

10. Google DeepMind 发布 Co-Scientist:多 Agent 科学假设生成系统

Google DeepMind 发布了基于 Gemini 的多 Agent 系统 Co-Scientist,能够对复杂科学问题生成、辩论和演化新假设。

We believe AI can be a dedicated research partner to help discover the next breakthrough.
Enter Co-Scientist: our latest Gemini-based multi-agent system that can generate, debate and evolve novel hypotheses for complex scientific problems
— @GoogleDeepMind

我们相信 AI 可以成为帮助发现下一个突破的专职研究伙伴。推出 Co-Scientist:我们最新的基于 Gemini 的多 Agent 系统,能够针对复杂科学问题生成、辩论和演化新假设。

已有合作案例帮助识别肝纤维化靶点、ALS 治疗思路和衰老相关基因线索。同期还有 Crafter/CraftEditor 可编辑科学图表生成工作流(五 Agent 协作,含栅格转 SVG)引发关注。


此外,当日还有 NVIDIA Nemotron 3 Ultra(550B 开源 MoE 模型)、H Company Holo 3.1(本地计算机操作模型系列)、Perplexity 混合 Agent 推理、Nous Hermes Desktop、Cognition Devin Desktop 等发布,充分体现了"Agent 为主角"的行业趋势。

本作品采用《CC 协议》,转载必须注明作者和本文链接
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!