Meta Brain2Qwerty v2 非侵入脑解码突破
Meta Brain2Qwerty v2 非侵入脑解码突破
1. Meta 发布 Brain2Qwerty v2,非侵入式脑机接口重大里程碑
Meta 发布了 Brain2Qwerty v2,这是目前性能最高的非侵入式端到端脑信号实时句子解码系统。该系统基于 MEG 和 EEG 技术,从原始脑信号中实时解码句子,不仅能识别字符级别,还能解码词汇和语义,使得整体通信准确度大幅提升。实验在 9 名志愿者的受控打字场景下训练,最佳参与者达到 78% 词准确率,整体平均约 61%。Meta 同时开源了 v1/v2 的训练代码,BCBL 则释出了 v1 数据集。
We're sharing the next major milestone in our non-invasive brain-to-text decoder research: Brain2Qwerty v2. Building on v1, which was published today in @Nature, Brain2Qwerty v2 is the highest-performing end-to-end pipeline capable of real-time sentence decoding from raw brain signals. It advances beyond character-level performance to decoding words and semantics, enabling accuracy for overall communication.
— @AIatMeta我们分享非侵入式脑转文本解码器研究的下一重大里程碑:Brain2Qwerty v2。在今日发表于 Nature 的 v1 基础上,v2 是性能最高的端到端流水线,能从原始脑信号实时解码句子,超越字符级表现进入词汇和语义解码,实现整体通信准确度。
值得一提的是,Meta 在研究中使用了 Auto Research 工作流——由编码 agent 驱动的自动实验闭环,发现并实现了超越标准超参数优化的改进,进一步降低了词错误率。这在 ML 系统研究中开辟了"agent 辅助科学实验"的新范式。
2. Cursor 上线 iOS 版,支持云端 Agent 与远程操控
Cursor 正式发布 iOS 应用,开发者可以随时从手机启动始终在线的云端 agent,或远程操控运行在电脑上的 agent。应用内支持 PR diff 审查、Live Activities 通知等功能。Composer 2.5 在 7 月 5 日前享 75% 折扣。
Introducing Cursor for iOS. Build from anywhere by launching always-on cloud agents. Or remotely control agents running on your computer from the app. Composer 2.5 is 75% off in the app now through July 5.
— @cursor_ai推出 Cursor for iOS。随时随地通过启动始终在线的云端 agent 进行开发,或从应用远程操控电脑上的 agent。Composer 2.5 现享 75% 折扣至 7 月 5 日。
这是 Cursor 从 IDE 工具向"移动+云端"agent 平台演进的关键一步,让"从手机指挥 agent 写代码"从愿景变为可操作的产品。
3. Cognition 推出 Devin Fusion,混合模型编排降低 35% 成本
Cognition 发布了 Devin Fusion,一种新的混合模型编码 harness。与传统的模型路由不同,Fusion 在维护一个昂贵的"规划者"模型的同时,将边界清晰的子任务分发给更便宜的模型,保持缓存局部性和上下文连续性,在保持 Fable 级别编码质量的前提下降低 35% 成本。
Conventional model routing sucks. It passes benchmarks but fails to write code you'd actually merge. Introducing Devin Fusion, a new hybrid-model harness for agentic coding. In testing, it reduces the cost of Fable-level intelligence by 35% and still feels good to use.
— @cognition传统模型路由很糟糕,能过基准测试但写不出你真正会合并的代码。推出 Devin Fusion,一种新的混合模型 agent 编码 harness,测试中将 Fable 级智能的成本降低 35%,且使用体验依然出色。
社区关注的配套技术还包括 sidekick(子任务委派)和 mid-session routing(会话中途路由),Jerry Liu 特别指出 sidekick 式委派的缓存效率优势。这标志着 agent 系统从"选最好模型"转向"编排工程"的重心迁移。
4. Arena 达到 1 亿美元 ARR,从学生项目到评估公司
LMArena(现名 Arena.ai)在推出评估产品仅 8 个月后,年化收入运行率达到 1 亿美元。平台累计超 7 亿次对话、8200 万+ 投票,月活用户超 1000 万。Arena 正从偏好排行榜转型为 Agent 模式评估平台,新增任务完成率、幻觉率等客观指标。
Arena reached a $100M annual revenue run rate just 8 months after launching our evaluation product. We started as a research project at UC Berkeley with a simple mission: measure AI progress through real-world use. As AI shifts from chatbots to agents taking on longer, higher-stakes work, the problem matters more than ever.
— @arenaArena 在推出评估产品仅 8 个月后达到 1 亿美元年收入运行率。我们从 UC Berkeley 的研究项目起步,使命很简单:通过真实世界使用来衡量 AI 进展。随着 AI 从聊天机器人转向承担更长、更高风险任务的 agent,这个问题比以往任何时候都重要。
Arena 日益成为模型部署后 CI/CD 评估层,其 Agent Arena 评估长时间运行的 agent 如何使用工具、适应反馈、从错误中恢复。
5. Cline 推出 $9.99/月开放模型订阅,GLM 5.2 领衔
Cline 推出每月 $9.99 的订阅服务,以 2-5 折优惠提供 GLM 5.2、DeepSeek、Kimi、MiniMax、Mimo、Qwen 等开放权重模型的 API 访问,降低开发者面对 API key 管理和多供应商切换的摩擦。通过 npm i -g cline 注册还可享 $1.99 首月优惠。
We've been impressed with GLM-5.2 and so are introducing a $9.99/month subscription to give you 2-5x discounted access to it and other open weight models like DeepSeek, Kimi, MiniMax, Mimo, Qwen.
— @cline我们对 GLM-5.2 印象深刻,因此推出 $9.99/月订阅,以 2-5 倍折扣提供它及其他开放权重模型(DeepSeek、Kimi、MiniMax、Mimo、Qwen)的访问。
这标志着开放模型从"讨论要不要用"进入"商业产品化"阶段。
6. Snowflake 开源 Arctic RL,ZoRRo 实现 6 倍训练加速
Snowflake 开源了 Arctic RL 项目,集成 VeRL 和 SkyRL,核心组件 ZoRRo 仅需一个配置标志即可启用。ZoRRo 提供高达 6 倍 actor-update 加速和 3.5 倍端到端训练提速,将 Arctic-Text2SQL-R2 训练从 ~5 天缩短到 ~36 小时(32 块 H200)。Arctic-Text2SQL-R2 在企业 SQL 基准上以 48.7 分击败 Gemini 3.1 Pro(47.9)和 Claude 4.7(47.3)。同时开源了 Text-to-SQL 和多跳 QA 训练方案。
ZoRRo delivers up to 6x actor-update acceleration and a 3.5x end-to-end training speedup, reducing Arctic-Text2SQL-R2 training from ~5 days to ~36 hours on 32 H200 GPUs. Arctic-Text2SQL-R2 achieved higher accuracy scores (48.7) than Gemini 3.1 Pro (47.9) and Claude 4.7 (47.3) on Snowflake's evaluated enterprise SQL benchmark.
— @StasBekmanZoRRo 提供高达 6 倍 actor-update 加速和 3.5 倍端到端训练提速,将 Arctic-Text2SQL-R2 训练从约 5 天缩减到约 36 小时(32 块 H200)。Arctic-Text2SQL-R2 在 Snowflake 企业 SQL 基准上取得更高准确度(48.7),超越 Gemini 3.1 Pro(47.9)和 Claude 4.7(47.3)。
这是 RL 训练基础设施领域最强的开源发布之一,提供了完整的可复现方案。
7. DeepSeek DSpark 成单 GPU 推测解码新标杆
DeepSeek 的 DSpark 被认为是推测解码领域的重要进展,核心在于更好的 draft 生成和更智能的验证调度。相比 Eagle3,DSpark 的接受长度提升 30.9%,比 DFlash 提升 16.3%(Qwen3-4B 上测试)。DSpark 已部署在 DeepSeek-V4-Flash 和 V4-Pro 的预览推理引擎中,vLLM 社区正在积极集成。
相关的 llama.cpp 也在本周期迎来重磅合并:DeepSeek V4 支持和 DFlash 扩散式文本生成正式合入主分支。DFlash 被视为未来 DDTree/JetSpec 等速度优化的基础。
8. GLM-5.2 极端本地推理:753B 模型跑在 2 台 Mac 上
社区出现了令人瞩目的本地推理实验:用户通过 Unsloth 动态 IQ1_S 量化(名义 1.6 bit,有效约 2.1 bit),将 GLM-5.2 753B 模型压缩到 202GB,分片部署在 2 台 M5 Max(各 128GB 统一内存)上,通过单根 Thunderbolt 5 线缆使用 llama.cpp RPC 连接,实现 ~16 tok/s 的生成速度,16K 上下文,q8 KV 缓存,无需 SSD 换页。
另一组对比测试中,GLM-5.2 Q1_S 在双 RTX 3090 上以 ~3-6 tok/s 的速度单次生成约 7.5 万 token 的 Three.js 游戏,质量被 Opus 4.8 和 GPT-5.5 评为优于 Qwen 3.6 27B Q8。这引发了关于"超大模型极低量化 vs 较小模型高精度"推理质量的核心讨论。
9. Claude 正式登陆 Azure Foundry GA
Claude Opus 4.8 和 Haiku 4.5 现已在 Microsoft Azure Foundry 中正式可用(GA),支持 Azure 身份认证、计费、治理控制、prompt 缓存和 thinking 模式。这标志着 Anthropic 在企业级云基础设施上的部署进入成熟阶段,企业客户可在合规框架内使用前沿 Claude 模型。
10. 中国开放模型军备竞赛加速,Meituan LongCat 2.0 即将登场
多个信号表明中国开放权重模型竞争持续升温。美团即将发布的 LongCat 2.0 / Owl Alpha 参数达 1.6T 总参 / ~48B 激活,100 万上下文,35T 训练 token,采用 n-gram embeddings 和稀疏注意力,据称训练于 5 万块中国国产加速器。如果属实,这将是首个在此规模上使用国产硬件训练的前沿级模型。
此外,Cline 的订阅套餐打包了 GLM 5.2、DeepSeek、Kimi、MiniMax、Qwen 等模型,社区也在测试 GLM 5.2 与 Kimi、MiniMax 的混合 agent(MoA)配置。同时有观点指出,对前沿 API 的限制可能适得其反,推动开发者转向可控的开放权重模型。
本作品采用《CC 协议》,转载必须注明作者和本文链接
关于 LearnKu