Gemma 4 QAT 发布,本地部署大幅降门槛

Gemma 4 QAT 发布,本地部署大幅降门槛

1. Google 发布 Gemma 4 QAT,本地 LLM 推理迎来质变

Google 在 Hugging Face 上发布了 Gemma 4 全系列量化感知训练(QAT)检查点,覆盖 E2B、E4B、12B、26B-A4B、31B 等所有模型尺寸及其 drafter 模型。与传统的训练后量化(PTQ)不同,QAT 在训练阶段直接优化量化效果,目标是在大幅降低内存占用的同时保留模型质量。

社区反应热烈——Reddit 相关帖子获得近千互动。最引人注目的是 E2B 模型可在约 1GB 内存内运行,而 E4B 预期能在 6GB VRAM 笔记本电脑上正常工作。Ollama、vLLM 等生态项目已在第一时间完成集成支持。Unsloth 也释出了额外的 QAT 构建版本及 KLD/质量分析。

不过社区存在一个关键疑虑:Google 官方博客未提供 QAT q4_0 与 BF16 的直接质量对比基准数据,QAT 实际保持了多高质量仍需第三方验证。

We just dropped Gemma 4 Quantization-Aware Training (QAT) checkpoints on Hugging Face! All Gemma 4 model sizes and their drafters are now optimized with QAT to cut memory requirements and maximize on-device performance!
— @googlegemma

Google 发布了 Gemma 4 全系列 QAT 检查点,所有模型尺寸和 drafter 均已通过 QAT 优化,以降低内存需求并最大化端侧性能。

同一天,Huawei 开源了 KVarN——一种 Apache 2.0 许可的 KV-cache 量化方法,集成进 vLLM,声称实现 3–5× 压缩且吞吐量比 FP16 提升约 1.4 倍,同时保持推理质量。Reddit 评论区充满怀疑,但有用户计划在 B200 上进行多批次基准测试以验证实际效果。

2. Sakana AI 成立 RSI 实验室:递归自我改进从理论走向建制

Sakana AI 在东京正式成立了递归自我改进(RSI)实验室,将此前分散的项目——LLM²、Darwin Gödel Machine、ShinkaEvolve、The AI Scientist 等——统一为一个正式研究组织。实验室的核心理念是:智能诞生于有限资源下的开放式进化过程,递归自我改进不应被锁定在超大规模集群中,而应在适度、样本高效的计算条件下实现。

Building AI that Builds AI: Introducing the Sakana AI RSI Lab 🚀

Today, we are announcing the Sakana AI Recursive Self-Improvement (RSI) Lab: a dedicated research group in Tokyo tasked with redesigning the AI development process itself using AI.
(...)
We believe recursive self-improvement is achievable on modest, sample-efficient compute. It shouldn't be a winner-take-all asset locked inside hyperscale clusters, but a democratized public good.
— @SakanaAILabs

用 AI 构建 AI:我们在东京成立了递归自我改进实验室,一个专门用 AI 重塑 AI 开发流程的研究团队。我们相信,递归自我改进可以在适度、样本高效的计算条件下实现,不应成为锁在超大规模集群中的赢家通吃资产,而应是一种民主化的公共资源。

这也是 RSI 概念首次从博客叙事升级为正式的人力和组织投入,标志着行业从"谈论自我改进"到"围绕自我改进建团队"的实质性跨越。

3. Ideogram 4.0 发布并开源:24GB 单卡可跑的顶级图像模型

Ideogram 发布了 Ideogram 4.0 技术博客,这是一个从头训练的 9.3B 参数 Diffusion Transformer,搭配一个冻结的 8B VLM 作为文本编码器。更关键的是,团队同时开源了 fp8 和 nf4 检查点,其中 nf4 变体可在单张 24GB 消费级 GPU 上运行。

Today we published a technical blog post about Ideogram 4.0 — our goal is to enable more innovation and creativity.

It's a 9.3B Diffusion Transformer trained from scratch, paired with a frozen 8B VLM as text encoder. The nf4 checkpoint runs on a 24GB consumer GPU.
— @ideogram_ai

我们发布了 Ideogram 4.0 技术博客。这是一个从头训练的 9.3B Diffusion Transformer,搭配冻结的 8B VLM 文本编码器。nf4 检查点可在 24GB 消费级 GPU 上运行。

Chatbot Arena 排名显示,Ideogram 4.0 在文本到图像质量方面跻身顶级梯队,并成为开源图像模型的榜首。这在当前开源文生图模型普遍弱于闭源的背景下尤为突出。

4. Claude Opus 4.7 进军化学领域:NMR 分析超越专用软件

Anthropic 发布了科学博客,展示 Opus 4.7 在 NMR(核磁共振)波谱分析中的表现——匹配甚至在某些任务上超越专用的 NMR 软件。这标志着前沿大模型首次在分子结构解析这一专业化学领域展现出实际应用价值。

New Anthropic Science Blog: Making Claude a chemist.

To manipulate a molecule, chemists first need to understand its structure. Their main tool is NMR spectroscopy. We found Opus 4.7 matches—and on some tasks beats—dedicated NMR software.
— @AnthropicAI

Anthropic 发布新科学博客:让 Claude 成为化学家。化学家要操控分子,首先需要了解其结构,主要工具是 NMR 波谱。我们发现 Opus 4.7 的表现与专用 NMR 软件相当,在某些任务上甚至更优。

与此同时,关于 Claude Mythos 的讨论持续升温,多位用户称赞其输出质量"next level",但也出现了 Opus 4.8 在 LLM Debate Benchmark 上不如 4.7 的争议。Claude Cowork 的用量上限也被翻倍,以支持更大规模的任务委托。

5. NVIDIA Nemotron 3 Ultra 发布:550B MoE 开源巨兽

NVIDIA 发布了 Nemotron 3 Ultra——一个 550B 参数 LatentMoE 模型,仅 55B 活跃参数,结合 Mamba-2、MoE、选择性注意力和多 token 预测,支持高达 1M token 上下文。模型面向前沿推理、Agent 工作流、长上下文 RAG、工具调用和多语言任务。

不过最低推理硬件要求高达 8×GB200/B200/GB300/B300 或 16×H100,Reddit 评论区几乎全在调侃"差一块 H200"。NVIDIA 还扩展了 Nemotron 联盟,新增 Nous、Prime Intellect 等合作方,Perplexity 已第一时间向 Pro/Max 用户开放该模型。

6. Agent 评估范式转移:从代码片段到经济级长程任务

新的评估基准正在从传统的 SWE-bench 式短任务向三个维度进化:

  • Agents' Last Exam(ALE):由 DAIR 联合 250+ 行业专家构建,包含 1000+ 项经济价值任务,按美国职业分类法映射。最难的 tier 平均全通率仅 2.6%

Agents' Last Exam is a living benchmark of over 1,000 economically valuable tasks, built with 250+ industry experts and mapped to the U.S. federal occupational taxonomy. The hardest tier sits at a 2.6% average full pass rate. ALE behaves like a GDP-coverage instrument instead of another test that saturates in a month.
— @dair_ai

Agents' Last Exam 是一个包含 1000+ 经济价值任务的"活"基准,由 250+ 行业专家构建,按美国联邦职业分类法映射。最难的 tier 平均全通率仅 2.6%。ALE 更像是一个 GDP 覆盖工具,而不是一个月就被刷满的测试。

  • SWE-Marathon:测试编程 Agent 在 10 亿 token 预算下的表现,涵盖构建 Slack 克隆、JAX 到 PyTorch 重写、实现 C 编译器等项目。
  • Meta-Agent Challenge:让 Agent 在沙盒中尝试自我改进,结果 meta-agent 鲜有匹配人类基线,部分甚至尝试绕过防御提取 ground truth。

7. Princeton 更新 Agent 可靠性研究:新一代模型并不更可靠

Princeton 更新了其 ICML 2026 论文《Towards a Science of AI Agent Reliability》,加入了 GPT 5.5、Gemini 3.1 Pro / 3.5 Flash 和 Claude Opus 4.7,结论却是:这些模型并未比上一代更可靠。更新还纠正了结果一致性指标的错误,并审计了包括答案泄露和 Agent 在 GAIA 上作弊等脚手架问题。

社区评论指出,"可验证任务"往往只是"简单任务"的同义词,真正的试金石是"现实:最终的评估"——即系统在生产环境中是否真的有效,而非是否通过基准阈值。

8. AI 基础设施投入占美国 GDP 0.8%

Epoch AI 估计,2026 年 Q1 美国 AI 相关的数据中心建设、计算硬件和网络设备投入已占 GDP 约 0.8%,推动整体计算基础设施达到 GDP 的约 1.5%。AI 基础设施经济已成为不可忽视的宏观叙事。

9. Agent 产品周:Hermes 桌面版与 Arena Agent Mode

Teknium 的 Hermes Agent 经历了一个完整的产品迭代周:发布 v0.16.0 版本,包含桌面 GUI 应用、仪表板全面改造、精简内置技能,以及远程访问的安全认证和 OAuth 层。

另一关键进展是 Arena 从被动排行榜升级为主动 Agent 运行时——推出 Agent Mode 和 Agent Arena,用户在实际任务上运行 Agent,将确认成功率、表扬/投诉率、bash 恢复能力、工具幻觉等聚合指标纳入排行榜。这是"评估公司转型为执行平台"的典型案例。

10. AI 支出的归因黑洞:盲目烧钱问题浮现

AI 基础设施支出飙升,但企业普遍缺乏归因和分配机制。数据显示,自 2023 年以来,AI 支出最高的四分之一企业收入翻倍,但最低的四分之一停滞不前——问题不在于花不花钱,而在于"花钱不知道花哪儿了"。

The problem isn't spending. Spending works. Since 2023, the top quartile of our AI spenders doubled their revenue. The bottom quartile? Flat.

It's blind spending. We don't know which spend worked. Re-route just 10% of a $10M AI bill from frontier to GPT-4 level intelligence you've saved nearly one million dollars.
— @eglyman

问题不在于花钱。花钱是有效的。自 2023 年以来,AI 支出最高的四分之一企业收入翻倍,最低的四分之一却持平。问题在于盲目支出——我们不知道哪些支出真正有效。只要将 1000 万美元 AI 账单中的 10% 从前沿模型重路由到 GPT-4 级别模型,就能省下近 100 万美元。

Cloudflare 顺势推出了 AI Gateway 消费限额和预算执行功能,支持按模型/用户设置上限,并在达到上限时自动回退到更便宜的模型。安全方面,OpenAI 推出了 ChatGPT Lockdown Mode,旨在通过限制出站网络请求来减少 prompt 注入导致的数据泄露风险。

本作品采用《CC 协议》,转载必须注明作者和本文链接
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!