OpenAI 发布首款自研推理芯片 Jalapeño

OpenAI 发布首款自研推理芯片 Jalapeño

1. OpenAI 发布首款自研 AI 推理芯片 Jalapeño

OpenAI 正式发布了其首款自研 AI 芯片 Jalapeño,专为 LLM 推理设计,与 Broadcom 合作制造。芯片将服务于 ChatGPT、Codex、API 流量及未来的 Agent 产品。OpenAI 的战略信号非常明确:掌握更多技术栈——芯片、内核、内存、网络、调度、部署——从而降低对商用 GPU 供应的依赖,同时提升算力经济性和产品行为的可控度。

We've designed and built our first AI chip: Jalapeño.

Designed from the ground up by OpenAI and brought to production with @Broadcom, Jalapeño is purpose-built for the LLM workloads powering ChatGPT, Codex, the API, and future agentic products.

Chips are foundational to the AI economy. Building our own expands our full-stack platform from products to models to infrastructure, and will help us scale intelligence, serve more people, and expand access to AI.
— @OpenAI

我们设计并制造了首款 AI 芯片:Jalapeño。由 OpenAI 从零设计、与 Broadcom 合作量产,Jalapeño 专为驱动 ChatGPT、Codex、API 及未来 Agent 产品的大模型推理负载而生。芯片是 AI 经济的基石。自研芯片使我们的全栈平台从产品延伸到模型再到基础设施,将帮助我们扩展智能、服务更多用户、扩大 AI 的普及。

社区逆向分析推测 Jalapeño 的架构接近 TPU,@scaling01 估算其采用近光罩极限尺寸的芯片面积,约 216GB HBM3E~7.1–7.4 TB/s 带宽~10 PFLOPS FP4 算力。即便这些数字尚未获得官方确认,信号已经很明确:超大规模推理芯片已成为前沿实验室的标配。@kimmonismus 还特别指出,Jalapeño 从设计到流片仅用了 9 个月,对于高性能 ASIC 而言异常迅速,据称 OpenAI 自己的模型加速了这一进程。

2. Qualcomm 收购 Modular,推理编译器格局重塑

同一天,编译器/运行时领域也迎来重大变动。Chris Lattner 宣布 Qualcomm 将收购 Modular,旨在统一加速计算平台并推动开放软件生态。

I'm excited to share that Qualcomm is acquiring Modular: this will accelerate our path to unifying accelerated compute with an open platform. This will also mark a new era in open software development for Qualcomm.
— @clattner_llvm

我很兴奋地宣布 Qualcomm 将收购 Modular:这将加速我们统一加速计算开放平台的进程,也将标志着 Qualcomm 开放软件开发的新纪元。

同时 Modular 方面表示 Mojo 的开源计划保持不变。两家公司合并意味着在 NVIDIA/CUDA 之外,垂直整合的推理栈竞争将更加激烈——Qualcomm 的硬件布局加上 Modular 的 Mojo 语言与 MAX 平台,有可能形成一套从边缘到云的完整 AI 编译与部署方案。

3. Anthropic Claude 嵌入 Slack,Karpathy 称其为"组织级框架"

Anthropic 将 Claude 深度嵌入 Slack 团队工作流,多位重量级人物对此发表看法。Andrej Karpathy 认为很多人低估了这件事的意义,它不是一个简单的 Slack Bot 或功能,而是一个"组织级框架"(org-level harness)。

This is correct, I think a number of people on the tl didn't read past the title and made inferences and comparisons that are just wrong and then use it as an opportunity to take cheap shots. This is not a "feature" like some crappy Slack bot and it's certainly not a Claw, though it has aspects of it. It is an org-level harness. The difference will become clearer over time.
— @karpathy

说得对,我认为很多人在时间线上没读完标题就做出了错误的推断和比较,然后借机嘲讽。这不是什么蹩脚 Slack Bot 那样的"功能",也绝对不是一个 Claw——尽管它有类似之处。这是一个组织级框架。区别会随着时间推移越来越清晰。

@gallabytes 则描述了从 Claude Code("结对搭档")到 Tags("管理团队")的体验飞跃。Hugging Face 也在同一天披露了其内部自建的 Slack 编程 Agent Moon Bot,强调自托管、自定义工具、可审计会话和零锁定。整个趋势表明:团队越来越需要 Agent 原生体验,但许多人更愿意拥有自己的框架和记忆层,而非将组织智能外包给供应商。

4. Anthropic 公布 Agent Identity 身份模型

Anthropic 详细阐述了 Claude 在 Slack 中的"Agent Identity"身份模型,这是企业级 Agent 最棘手的设计问题之一。

When Claude is working in a channel with four people, whose credentials does it use?

The answer: its own. When tagging Claude, Claude gets provisioned like any other teammate, with its own credentials.

We call this access model "agent identity".
— @ClaudeDevs

当 Claude 在一个有四个人的频道中工作时,它用谁的凭证?答案是:它自己的。当你 @ Claude 时,Claude 会像任何其他团队成员一样被分配,拥有自己的凭证。我们称这种访问模型为"Agent Identity"。

Claude 获得自己的凭证,所有操作可审计且归属明确,权限可由管理员统一撤销。这一设计受到了广泛关注,但也引发了争议:@KentonVarda 认为逐 Agent 授权无法规模化,主张采用基于能力的细粒度安全模型;@random_walker 则警告了隐性知识锁定、提示注入风险和预算不透明等问题。

5. 阿里 Qwen 发布 Qwen-AgentWorld 语言世界模型

阿里巴巴 Qwen 团队发布了 Qwen-AgentWorld,定位为原生"语言世界模型",能在单一模型内模拟 7 种 Agent 环境:MCP、搜索、终端、SWE、Web、OS、Android。

Meet Qwen-AgentWorld — a native language world model that simulates 7 agent environments (MCP, Search, Terminal, SWE, Web, OS, Android) within a single model. Environment modeling is the training objective from day one, not a post-hoc adaptation.

LLMs are trained to be better agents — better at acting in environments. But nobody has trained them to model the environments themselves.
— @Alibaba_Qwen

认识 Qwen-AgentWorld——一个原生语言世界模型,能在单一模型中模拟 7 种 Agent 环境(MCP、搜索、终端、SWE、Web、OS、Android)。环境建模从一开始就是训练目标,而非事后适配。LLM 被训练成更好的 Agent——更好地在环境中行动。但没人训练它们去建模环境本身。

Qwen 开源了 Qwen-AgentWorld-35B-A3B(35B MoE,3B 激活参数,256K 上下文)和 AgentWorldBench 基准。其重要发现包括:单轮环境预测能力可零样本迁移到多轮 Agent 任务;用语言世界模型作为环境的可控模拟 RL(Controllable Sim RL)训练效果甚至超过真实环境训练。该模型在 AgentWorldBench 上超越了 Claude Opus 4.8 和 GPT-5.4。

6. OpenThoughts-Agent 发布开源 Agent 训练数据方案

OpenThoughts-Agent 发布了一套完整的开源 Agent 模型数据整理与训练管线,进行了 超过 100 个对照消融实验

OpenThoughts-Agent: Data Recipes for Agentic Models

"a fully open data curation pipeline for training agentic models"

"more than 100 controlled ablation experiments to systematically investigate each stage of the pipeline"

Key findings: The choice of instructions is among the most important factors. The strongest model by benchmark performance does not necessarily make the best teacher. Filtering training data to retain the execution traces with more model turns improves the resulting training sets.

"We then assemble a training set of 100K examples and fine-tune Qwen3-32B, which yields an average accuracy of 44.8% across seven agentic benchmarks"
— @iScienceLuvr

OpenThoughts-Agent:Agent 模型的数据配方。一套完全开放的 Agent 模型数据整理管线。超过 100 个对照消融实验,系统性地研究管线的每个阶段。关键发现:指令的选择是最重要的因素之一;基准测试最强的模型不一定是最好的教师;保留更多模型轮次的执行轨迹能改善训练集效果。最终使用 10 万样本对 Qwen3-32B 进行微调,在 7 个 Agent 基准上达到平均 44.8% 的准确率。

核心发现对实践者很有价值:指令选择的影响远大于预期、最强基准模型≠最佳教师、更长的执行轨迹有帮助、数据源多样性比重复少数顶级源更重要。

7. GLM-5.2 持续领跑开源模型,登顶多项排行榜

GLM-5.2 继续主导开源模型的讨论。CoreWeave 表示其已在 Artificial Analysis 和 Agent Arena 上名列开源模型榜首,Baseten 和 Cursor 也迅速提供了服务支持。@nutlope 将 GLM-5.2 与 Opus 4.8 在 Web 任务上对比:质量相当输出 tokens 约 2 倍、速度更快、成本约 3 倍更低。在 Code Arena: Frontend 中 GLM-5.2 Max 同样领先强敌。

值得关注的是 @fchollet 指出 GLM-5.2 在 ARC-AGI-2 上取得了开源模型迄今最强成绩(22.8%),但社区对其与西方前沿闭源模型的真实差距仍有争议。更广泛的信号是:中国开源模型已在编程、Agent、知识工作等领域持续"进入牌桌"。此外,月之暗面 Kimi API 已上架 AWS Marketplace,方便企业采购;华为据称将展示 950 SuperPOD 级 NPU 集群系统。

8. Agent Memory 成为系统层新焦点

记忆(Memory)正成为 Agent 差异化竞争的核心层。Weaviate Engram 正式 GA,将记忆定位为异步基础设施:提取、去重、协调、作用域限定记忆,而非简单将所有内容塞入上下文。@hwchase17 展示了 LangSmith/Context Hub 的"睡眠时计算"(sleep-time compute)工作流——离线分析轨迹后写回为记忆。@dair_ai 引用论文观点:Agent 记忆应作为完整的数据管理层来评估——包括存储、检索、更新、整合、生命周期管理——而非仅以最终任务成功率衡量。

9. Anthropic 政策风波:出口管制诉讼与蒸馏指控

Anthropic 处于多项政策争议的中心。Legion 对特朗普时期的 AI 出口管制发起了首次重大法律挑战,主张托管模型的访问不等同于导出权重或技术数据。与此同时,此前广泛讨论的 Mythos 报道有了更多背景:据称 Anthropic 模型在一次受限测试中发现了美国敏感系统的漏洞,但一些评论者警告早先的报道可能有所夸大。

更具冲击力的是,Anthropic 指控阿里巴巴关联运营商使用约 2.5 万个虚假账户2880 万次 Claude 交互来蒸馏前沿能力到 Qwen 级系统。如果属实,这将把"对抗性蒸馏"从传闻升级到执法和地缘政治层面。

10. 中国 AI 芯片生态:7 家公司出货 H100 级芯片,国产替代加速

Reddit /r/LocalLLaMA 上的一篇高热度帖子系统梳理了中国 AI 芯片格局:华为昇腾、阿里平头哥、百度昆仑芯、MetaX、摩尔线程、壁仞、Iluvatar CoreX 七家公司已出货 H100/H200 级 AI 加速器。关键型号包括昇腾 910C/910D/950 路线图(搭配国产 HBM)、阿里平头哥 PG1 服务器(16×96GB,总计 1.536TB 显存)、MetaX C600(144GB HBM3e)、摩尔线程 S5000(80GB,1 PFLOPS)。更大层面的判断是:中国 AI 基础设施正从 NVIDIA/CUDA 依赖转向国产全栈——OAM 类模块、自研互联、SMIC 制造、近 100% 利用率,且 Qwen/DeepSeek/GLM 等开源模型越来越多地优先适配非 NVIDIA 加速器。

不过社区也提出了务实质疑:软件栈成熟度(CUDA 兼容性、驱动、编译器/运行时)仍是最大瓶颈;部分标称"已出货"的产品实际仍处于"即将出货"阶段;从 GDDR6 产品跳至 HBM3e 量产是不小的制造与集成挑战。


本期 AI 新闻日报基于 2026年6月23-24日 AI News 整理,覆盖 12 个 Subreddit、544 个 Twitter 账号。本期因 Discord 访问被关闭,Discord 部分未包含。

本作品采用《CC 协议》,转载必须注明作者和本文链接
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!