Claude Tag 发布:Slack 原生 AI 团队成员
Claude Tag 发布:Slack 原生 AI 团队成员
1. Anthropic Claude Tag 发布,AI 加入 Slack 成为团队一员
6 月 23 日,Anthropic 发布了 Claude Tag,这是 AI 产品从"聊天机器人"向"持久、异步、嵌入组织的智能体"转变的最清晰信号。Claude 现在可以作为团队成员加入 Slack,拥有你指定的频道和工具访问权限,你只需 @ 它并委派任务,即可继续专注于其他工作。Anthropic 透露,内部版本已在编写产品团队 65% 的代码,包括 Claude Tag 自身的大部分代码。
Introducing Claude Tag, a new way for teams to work with Claude.
In Slack, Claude joins as a team member with access to the channels and tools you choose. Tag Claude in and delegate tasks to it while you focus on other work.
— @claudeaiClaude Tag 是团队与 Claude 协作的新方式。在 Slack 中,Claude 作为团队成员加入,拥有你选择的频道和工具权限。@ Claude 并将任务委派给它,同时你专注于其他工作。
Andrej Karpathy 将 Claude Tag 定位为 LLM UI/UX 的第三次重大范式转变——从"去网站访问",到"下载桌面应用",再到"一个自包含、持久、异步的实体,带着组织级工具和上下文与人类团队并肩工作"。
This is a new paradigm for interacting with Claude that is significantly more "inline" with all the other human activity org-wide... Imo this is the 3rd major redesign of LLM UIUX. The first paradigm was that the LLM is a website you go to, the second was that it is an app you download to your computer. This third one is that it is a self-contained, persistent, asynchronous entity with org-wide tools and context, working alongside teams of humans.
— @karpathy这是与 Claude 交互的全新范式,大大更"内嵌"于组织的所有人类活动之中……在我看来这是 LLM UI/UX 的第三次重大重新设计。第一个范式是 LLM 是一个你去访问的网站,第二个是它是一款你下载到电脑的应用。第三个则是:它是一个自包含、持久、异步的实体,拥有组织级工具和上下文,与人类团队并肩工作。
在开源生态中,类似思路也在涌现:StarAgent 使用 tmux + Tailscale + Web 仪表盘多路复用编码代理会话;Self-Harness 提出让代理挖掘失败案例并自我改进的方法;Hermes Agent 新增 /learn 命令,可以摄取文档和 URL 来合成新技能。
2. Prime Intellect prime-rl v0.6.0:万亿参数 MoE 规模 RL 训练
Prime Intellect 发布了 prime-rl v0.6.0,这是当天最具技术实质性的系统发布。该团队声称其技术栈现在支持对 万亿参数 MoE 模型进行强化学习训练,步时间低于 5 分钟,约 3 天内完成约 1000 步,包括在 131k 上下文下的 GLM-5 agentic SWE 设置。
Today we're releasing prime-rl v0.6.0 — enabling RL at trillion-parameter MoE scale on agentic workloads at the highest efficiency. We've relentlessly optimized our RL infra. The result: GLM-5 on agentic SWE tasks at 131k context and sub-5-minute step time.
— @PrimeIntellect今天我们发布 prime-rl v0.6.0——以最高效率在 agentic 工作负载上实现万亿参数 MoE 规模的强化学习。我们不懈地优化了 RL 基础设施。结果是:GLM-5 在 131k 上下文中运行 agentic SWE 任务,步时间不到 5 分钟。
该版本在推理(wide-EP、FP8 推理、llm-d 路由器、Mooncake、KV-cache CPU 卸载)、训练(FSDP2、Deep-EP、DSA CP、FP8 训练、路由器重放)和 rollout 编排(重写核心、支持 GLM5、Kimi、Nemotron)方面均有显著优化。更广泛的行业趋势是:Agent 训练正在变成一个基础设施问题,W&B/OpenPipe 将 RL 吞吐量重新定义为 trajectories/sec 而非 tokens/sec,声称通过新的 Megatron 后端实现 12 倍吞吐量提升,在 4 个 GPU 上可达 35 trajectories/s。
3. GLM-5.2 开源模型势头强劲,逼近前沿闭源模型
GLM-5.2 成为当天讨论最多的开源模型能力跃升。多个实践者报告其编码和 agentic 工作流质量已接近前沿闭源模型:@_xjdr 发现 GLM-5.2 找到了 GPT-5.5 xhigh 遗漏的复杂 C++/Rust bug;@nutlope 报告其输出 2 倍 token 数却比 Opus 更快、便宜 3 倍且质量相当;@UnslothAI 展示了 1-bit GLM-5.2 GGUF 在 Mac Studio M3 Ultra 256GB 上以约 21.6 tok/s 本地运行。
DeepSWE 基准测试图表显示 GLM-5.2 [max] 得分约 44%,平均成本 $3.92/task,低于顶级专有代理(60-70%),但比许多 Claude/GPT 变体更便宜。在 Reddit 上,用户主观评价 GLM-5.2 "比 Sonnet 更好",并强调其关键优势:虽然部署困难且昂贵,但可以自托管,无按 token 计费的 API 成本。
更广泛地,社区对"路由 + 更小/更便宜的模型"作为核心技术栈模式越来越有信心。@jpschroeder 认为 DeepSeek V4 Flash 可处理约 80% 的 Claude/Codex 任务,且比 Fable 便宜 137 倍。GitHub Copilot App 也推出了 Bring Your Own Key 功能,支持 Ollama、Foundry 等本地模型。
4. Apple container:Docker Desktop 在 Mac 上变得可选
Apple 的 container 项目(github.com/apple/container)引起了巨大关注,目前在 GitHub 已获 26.5k stars。该项目让开发者可以在 Apple Silicon Mac 上原生运行 Linux 容器,无需安装 Docker Desktop、无需后台守护进程消耗内存,也无需支付每开发者每月 $21 的商业许可费。
Apple just made Docker Desktop optional on Mac. And it is completely free... You can now run Linux containers natively on your Mac without installing Docker Desktop, without a background daemon hogging your RAM, and without paying $21 a month per developer for a commercial license.
— @twtayaanApple 刚让 Docker Desktop 在 Mac 上变得可选。而且完全免费……你现在可以在 Mac 上原生运行 Linux 容器,无需安装 Docker Desktop,无需后台守护进程消耗内存,也无需为商业许可每月每个开发者支付 $21。
核心特性包括:使用 macOS 26 虚拟化在 Apple Silicon 上直接运行 Linux 容器作为轻量级 VM;完全 OCI 兼容,可从 Docker Hub 等拉取任意镜像;Swift 编写并针对 Apple Silicon 优化;标准容器 CLI 语法;Apache-2.0 开源。继微软上月通过 WSL Containers 让 Docker Desktop 在 Windows 上可选后,Apple 在 Mac 端完成了同样的事情——"为 GUI 包装付费的时代正在悄然终结"。
5. Mistral OCR 4 发布,支持 170 种语言结构化识别
Mistral AI 发布了 Mistral OCR 4,声称可生成带边界框、块分类和内联置信度分数的结构化 OCR,支持 170 种语言。
Introducing Mistral OCR 4. It creates structure with bounding boxes, block classification, and inline confidence scores in 170 languages.
— @MistralAI推出 Mistral OCR 4。它在 170 种语言中创建带有边界框、块分类和内联置信度分数的结构化输出。
但基准测试迅速引发争议:@NielsRogge 指出 Mistral 声称在 OlmOCRBench 上 "SOTA",但 Hugging Face 公开排行榜上它仅排名 第 3,落后于其他开源模型。与此同时,Baidu Unlimited-OCR 也登陆 Hugging Face,OCR 领域突然变成竞争激烈的开源前沿。
6. Krea 2 开源权重:未蒸馏模型助力社区微调
Krea 发布了 Krea 2 开源权重,包含两个版本:Krea 2 Raw(未蒸馏的中期训练模型,专为微调/后训练设计)和 Krea 2 Turbo(更快的蒸馏推理模型,具有广泛的美学多样性)。
today, we release the open weights of Krea 2. welcome Krea 2 Raw and Krea 2 Turbo, an undistilled model from mid-training meant to be fine-tuned, and a fast distilled version with a wide aesthetic diversity.
— @krea_ai今天,我们发布 Krea 2 的开源权重。欢迎 Krea 2 Raw 和 Krea 2 Turbo——一个来自中期训练的未蒸馏模型,用于微调;以及一个快速的蒸馏版本,具有广泛的美学多样性。
该版本包含技术报告、day-0 Hugging Face/diffusers 支持和即时 LoRA 生态系统支持。这种"发布未蒸馏原始检查点"的策略值得注意,因为它为社区提供了更好进行真正后训练的基础,而不仅仅是精炼的推理产物。
7. 中国 7 家 AI 加速器公司出货 H100/H200 级芯片
Reddit LocalLlama 上一份详尽的行业地图显示,7 家中国公司正在出货或规划 H100/H200 级别 AI 加速器,包括华为昇腾、阿里 T-Head、百度昆仑芯、MetaX、摩尔线程、壁仞和 Iluvatar CoreX,许多在过去 6 个月内 IPO。关键规格包括华为昇腾 910C/910D/950 路线图、阿里 PG1 服务器(16×96GB = 1.536TB HBM)、MetaX C600(144GB HBM3e)、摩尔线程 S5000(80GB、1 PFLOPS)。核心论点是:Qwen、DeepSeek、GLM 等中国开源模型可能越来越多地为国产非 NVIDIA 芯片协同优化。
社区反应偏实用和怀疑:用户开玩笑问阿里的 1.5TB VRAM 服务器能否在 AliExpress 上买到;也有人指出持续瓶颈将是软件栈而非原始规格。华为昇腾的非 CUDA 软件栈被强调为主要兼容性风险,多个"已出货"声明被批评为实际是路线图项目。
8. Microsoft FastContext-1.0:4B 代码仓库探索子代理
微软开源了 FastContext-1.0(huggingface.co/microsoft/FastContext-1.0-4B-SFT),一个 4B 参数的仓库探索子代理,通过并行只读 READ/GLOB/GREP 调用,返回紧凑的文件路径+行号引用。报告显示其能带来显著的代理性能提升:SWE-bench Pro 上 GPT-5.4 +5.5、GLM-5.1 +5.0,SWE-QA 上节省高达 60.3% 的 token。
技术上的新颖之处不在于"子代理架构"本身,而在于训练此探索器返回精确的文件-行引用而非完整搜索追踪。微软 README 声称,在 GPT-5.4 追踪中,仓库搜索/读取占工具调用轮的 56.2% 和主代理 token 的 46.5%。社区讨论焦点是 FastContext 是否比静态代码图/仓库映射方法更能找到跨文件依赖,从而值得增加这一额外环节。
9. 中国硬件改装者逆向 V100,自制单槽半高显卡
一位中国硬件改装者声称花费 1 年时间逆向工程 NVIDIA Tesla V100 模块的 2,963 个引脚信号,并将其重制为单槽/半高定制 PCB,支持最多 8 路 NVLink,售价极低:16GB 版 ¥1,499(约 $220),32GB 版 ¥3,999(约 $590)。还提供了通过 MCIO 接口的 4 路 NVLink 适配器,声称提供 100 GB/s 的 GPU 间带宽。
Reddit 社区对这项工程表示赞叹,但对使用翻新/重新焊接 V100 模块的可靠性表示担忧,特别是二次 BGA 返工可能导致 HBM 故障。有评论者指出 V100 SXM PCB 文件可能在网络上流传,质疑是否真正"逆向工程"。另一个实用问题是如何为密集多卡部署获取单槽水冷头。
10. Agent 训练基础设施转向:以 trajectories/sec 衡量新标准
W&B 与 OpenPipe 联合提出了衡量 RL 训练吞吐量的新框架,将关注点从 tokens/sec 转向 trajectories/sec,声称通过新的 Megatron 后端为 ART 带来 12 倍吞吐量提升,在 4 个 GPU 上 GRPO 类工作负载可达 35 trajectories/s。Vibrant Labs 则发布了 Ecom Bench——一个包含 40 个任务的实时 Shopify 基准,为浏览器代理提供确定性验证,旨在保持 Web 代理训练/评估的开放性和可复现性。这些进展共同表明行业正在向"开放后训练栈 + 可验证环境 + 任务特定 rollout"的基础设施方向转移。
本作品采用《CC 协议》,转载必须注明作者和本文链接
关于 LearnKu