Cognition 融资 10 亿美元,估值 260 亿
Cognition 融资 10 亿美元,估值 260 亿
1. Cognition 宣布超 10 亿美元融资,估值 260 亿美元,年化收入达 4.92 亿美元
AI 编程代理赛道迎来了迄今为止最重量级的商业信号。Cognition 宣布完成超 10 亿美元融资,估值达 260 亿美元,由 Lux Capital、General Catalyst 和 8VC 联合领投。公司透露,自年初以来企业使用量增长超过 10 倍,年化运行收入(run-rate revenue)已达 4.92 亿美元。
Devin 发布至今仅两年,云端 AI 编码代理已从小众走向主流,成为增长最快的软件开发方式。Cognition 的客户包括 Exa 等知名公司,用户评价积极。这是继 OpenAI、Anthropic 之后,AI 应用层公司拿下的最大规模融资之一,标志着编码代理已经从实验性工具演化为大型商业产品。
1/ We've raised over $1B at a $26B valuation, led by @Lux_Capital, @generalcatalyst, and @8vc. Our enterprise usage has grown >10x since the start of this year, and our run-rate revenue grew to $492 M. We launched Devin two years ago as the first AI software engineer. Since then, cloud agents have gone from niche to mainstream, and today they are the fastest growing way to create software.
— @cognition我们已完成超 10 亿美元融资,估值 260 亿美元。自年初以来企业使用量增长超过 10 倍,年化收入达 4.92 亿美元。我们两年前发布 Devin 作为首个 AI 软件工程师。此后云端代理从小众走向主流,如今已成为最快的软件开发方式。
2. 推理成本断崖式下降:DeepSeek V4-Pro 和 MiMo V2.5 通过架构创新实现永久降价
DeepSeek 正式将 V4-Pro 的 75% 降价设为永久价格,同时小米 MiMo 将 V2.5 价格大幅下调最高 99%。这不是简单的补贴价格战——降价的背后是一系列架构级突破。
DeepSeek V4-Pro 采用混合注意力架构,引入 Compressed Sparse Attention(每 4 个 token 压缩为 1 个 KV 条目)和 Heavily Compressed Attention(每 128 个 token 压缩为 1 个条目),使 100 万 token 上下文下的 KV 缓存仅为 V3.2 的 10%,单 token 推理 FLOPs 降至 27%。模型总参数 1.6 万亿,但每次仅激活 490 亿参数。MiMo 则通过 Sliding Window Attention + SGLang HiCache 将 KV 缓存数据传输量压缩至约 1/7,缓存容量提升 5 倍。
V4-Pro 现价为每百万输出 token 0.87 美元,MiMo V2.5-Pro 约 3 美元。一年前这个价位只能买到小型蒸馏模型,现在拿到的是拥有百万 token 上下文的顶级推理模型。
DeepSeek just made its 75% price cut on V4-Pro permanent. Xiaomi's MiMo slashed V2.5 pricing by up to 99%, effective today. Most coverage frames this as a price war. The more interesting part is the engineering that makes these numbers sustainable. V4-Pro's KV cache at 1M tokens is 10% (!!) of V3.2's. Single-token inference FLOPs drop to 27% (!!). The model has 1.6 trillion total parameters but only activates 49 billion per token through MoE routing.
— @kimmonismusDeepSeek 已将 V4-Pro 的 75% 降价设为永久价格。小米 MiMo 将 V2.5 价格下调最高 99%,即日生效。大多数报道将此视为价格战,但更有趣的是让这些数字可持续的底层工程。V4-Pro 在 100 万 token 时 KV 缓存仅为 V3.2 的 10%,单 token 推理 FLOPs 降至 27%。模型总参数 1.6 万亿,每次仅通过 MoE 路由激活 490 亿参数。两家公司能承诺永久降价,是因为降低成本来自于架构本身——Attention 机制处理的 FLOPs 更少,缓存占用更小,服务成本在结构上更低。
3. ESMFold2 发布:蛋白质结构预测与设计的开源引擎
Alex Rives 团队正式发布 ESMFold2,一个用于蛋白质结构预测、设计和发现的开源科学引擎。新模型在蛋白质相互作用(尤其是抗体,这是治疗药物中的关键形态)上达到了最先进水平。团队已针对五个癌症和免疫学相关的治疗靶点设计和验证了迷你蛋白结合物和单链抗体,成功率高,亲和力达到具有治疗活性的水平。
伴随发布的还有一份包含 68 亿个蛋白质的图谱和 11 亿个预测结构,规模超越 AlphaFold DB。更引人注目的是,团队利用大语言模型的可解释性技术来理解 ESM 如何表示蛋白质,发现模型的表征空间在尺度、复杂度和抽象层次上呈现出结构性组织,反映了一个世纪以来通过经验科学建立的蛋白质生物学理解——而这一切完全通过蛋白质序列的语言建模自主涌现。
Today we're announcing ESMFold2, an open scientific engine to power prediction, design, and discovery across protein biology. The new model delivers state of the art performance on protein interactions, especially antibodies, a critical modality for therapeutics. We're also releasing an atlas of 6.8 billion proteins, and 1.1 billion predicted structures. A world model of protein biology emerges through language modeling.
— @alexrives今天发布 ESMFold2,一个开放的科学引擎,赋能蛋白质生物学的预测、设计和发现。新模型在蛋白质相互作用(尤其是抗体,治疗药物的关键形态)上达到最先进水平。我们同时发布 68 亿蛋白质图谱和 11 亿预测结构。通过语言建模,蛋白质生物学的世界模型自主涌现。
4. Sakana AI DiffusionBlocks:逐块训练深度网络,大幅降低内存需求
Sakana AI 在 ICLR 2026 上发表了一项可能改变深度学习训练范式的技术——DiffusionBlocks。该方法将深度网络的前向传播重新解释为扩散模型的去噪步骤,从而实现每次仅训练一个独立块,而无需将整个网络全部保存在内存中。
在 ViTs、DiTs、掩码扩散模型、自回归 Transformer 和循环深度 Transformer 上,DiffusionBlocks 均匹配了端到端训练的性能,同时大幅降低内存需求。这为在有限硬件条件下训练更大模型开辟了新路径。
For over a decade, we've accepted that end-to-end backprop is the only way to train deep networks. We found a new way to break the network into blocks and train them independently. The trick? Treating the network's forward pass like a diffusion model denoising a signal. We matched end-to-end performance across ViTs, DiTs, and LLMs while training just one isolated block at a time.
— @hardmaru十多年来,我们接受端到端反向传播是训练深度网络的唯一方式。我们发现了一种新方法,将网络拆分为块并独立训练。诀窍是什么?将网络的前向传播视为扩散模型对信号去噪。我们在 ViTs、DiTs 和 LLMs 上匹配了端到端性能,同时每次只训练一个独立块。
5. Trajectory 发布持续学习平台,获 1500 万美元融资
Trajectory 由来自 DeepMind、OpenAI、Apple、Meta Superintelligence 等团队的研究员和 Stripe、Figma 的产品团队组成,宣布获得 1500 万美元融资,投资方包括 Jeff Dean、李飞飞等重量级个人投资者。公司定位为持续学习(Continual Learning)平台,致力于让企业利用产品使用信号和代理追踪数据,持续对大规模智能体模型进行后训练,使其超越通用前沿模型。
其合作伙伴包括 Clay、Harvey、Decagon、Mercor、Rogo 等顶级 AI 原生公司,部分系统已投入生产使用。Trajectory 的愿景是:每一次修正、每次重试、每次编辑都会让产品更智能——AI 永远不会从零开始。
Today @MichaelElabd, @QuantumArjun, and I are excited to announce Trajectory. We are a research lab and product company building the platform for Continual Learning. We've raised $15M from @Conviction, @BessemerVP, @radicalvcfund, @jeffdean, @drfeifei and more. AI will never again start on day one. Every correction, every retry, every edit will make products smarter.
— @rronak_今天我和 Michael Elabd、Arjun 宣布 Trajectory。我们是一个研究实验室兼产品公司,构建持续学习平台。我们已从 Conviction、Bessemer、Radical Ventures、Jeff Dean、李飞飞等获得 1500 万美元融资。AI 将永远不会再从第一天开始。每一次修正、每次重试、每次编辑都会让产品更智能。
6. LangChain Deep Agents v0.6 发布,Delta Channels 将检查点存储压缩 100 倍
LangChain 发布了 Deep Agents v0.6,核心更新是 Delta Channels 机制:一个 200 回合的编码代理会话,无 Delta Channels 时检查点存储高达 5.3 GB,启用后仅需 129 MB,压缩比达到约 100 倍,且不影响可观测性和恢复能力。
与此同时,LangChain 还发布了 Fleet 中的 computer use 功能和 Context Hub(用于版本化代理上下文和技能管理),LangSmith Engine 则致力于将评估→诊断→修复的循环自动化,让追踪反馈转化为可复用的评测器。
Deep Agents v0.6 brings Delta channels, reducing checkpoint storage by up to 100x for long-running agents, without sacrificing observability or resilience. Here's a 200-turn coding agent session. Without Delta Channels: 5.3GB of checkpoint storage. With Delta Channels: 129mb.
— @LangChainDeep Agents v0.6 引入 Delta Channels,将长期代理的检查点存储压缩高达 100 倍,且不影响可观测性和恢复能力。一个 200 回合的编码代理会话,无 Delta Channels:5.3GB 检查点存储。有 Delta Channels:129MB。
7. Qwen 27B 本地编码能力惊艳社区,评测接近 Sonnet 水平
Qwen 家族的 27B 密集模型在本地 LLM 社区引发热烈讨论。有用户报告用 Opencode 运行该模型,仅凭三个参考文件(控制台 API、手柄控制、TypeScript 着色器)就一次性生成了一款可直接玩的 HTML5 打砖块游戏,包含完整的音效、存档和 API 集成。社区普遍认为该模型的 Web 应用一次性生成能力接近 Sonnet 水平。
一家基准测试机构甚至因 Qwen 27B 的表现过于突出而重新检查了评测方法,将其与 GPT-5.2 和 Sonnet 4.5 并列。不过用户也报告了一项重要限制:模型在 64K context 以下表现最佳,64K 后开始下降,128K 后显著退化。解决方案是定期将状态汇总到文件、重置会话并重新加载。
8. ITBench-AA 发布:所有前沿模型 Kubernetes 运维得分低于 50%
Artificial Analysis 与 IBM 联合发布了 ITBench-AA,这是一个新的大型企业运维基准测试,模拟 Kubernetes 环境下的真实事故响应。结果令人警醒:所有前沿模型得分均未超过 50%。最高的 Claude Opus 4.7 获得 47%,GPT-5.5 获得 46%,开源模型中最高的 GLM-5.1 Reasoning 仅为 40%。
同天还有两个值得关注的基准测试涌现:DeepSWE(113 个任务、91 个仓库、5 种语言,平均修改 7 个文件,比 SWE-Bench Pro 多 5.5 倍代码量)和 AgingBench(评估部署后代理因压缩、干扰和记忆更新导致的退化问题)。这三个基准共同指向一个方向:长周期、复杂、真实的 Agent 工作流评估正在成为新标准。
9. OpenAI Codex 企业级管控升级:私有 MCP、WIF 和管理 API
OpenAI 持续收紧 Codex 的产品体系,宣布在 Codex 中逐步淘汰 GPT-5.2 和 GPT-5.3-Codex,全面转向 GPT-5.5。同时推出一系列企业级安全和管理功能:私有 MCP 连接(通过仅出站 HTTPS 实现)、Workload Identity Federation(WIF)身份集成、以及扩展的管理 API,涵盖消费告警、IP 白名单、数据保留策略和托管工具管理。
此外,OpenAI 还发布了一份引人注目的案例研究,展示如何通过追踪审查员的修正反馈,自动改进税务代理的评测和修复循环——将 trace 信号转化为持续改进引擎。
10. 企业 AI 预算告急:Uber 四个月花光全年预算,微软取消部分 Claude Code 许可
企业 AI 采纳正在遭遇现实的预算冲击。据报道,Uber 在 2026 年前四个月就花光了全年 AI 预算,但 COO Andrew Macdonald 表示公司仍无法将 Claude Code Token 消费增长与有价值的面向消费者功能产出挂钩。与此同时,据 The Verge 报道,微软已开始取消部分内部 Claude Code 许可,转向统一使用 GitHub Copilot,同时 Copilot 定价即将调整——有用户估算当前 40 美元/月的用量在新定价下可能涨至 600 美元/月。
Reddit 讨论揭示了一个深层问题:当 AI 成本从个体感知中抽离时,员工缺乏优化 Token 用量或选择更便宜模型的动力。一些公司已开始实施每月 100-250 美元的个人 AI 额度上限。这场讨论指向的是企业 AI 治理的核心挑战——从"AI 无处不在"转向有成本意识的模型路由和用量管理。
本作品采用《CC 协议》,转载必须注明作者和本文链接
关于 LearnKu