DeepSeek V4-Pro 75% 折扣永久化

DeepSeek V4-Pro 75% 折扣永久化

1. DeepSeek V4-Pro 75% 折扣永久化,推理成本碾压 GPT-5.5 和 Opus 4.7

5 月 22 日,DeepSeek 官方宣布将此前临时性的 DeepSeek-V4-Pro 75% 降价正式永久化。这一决定直接改变了 LLM 推理市场的成本结构——Artificial Analysis 随后给出了精确的量化数据:V4 Pro 的一方 API 价格降至 $0.435/1M 输入、$0.87/1M 输出、$0.0036/1M 缓存输入。按 7:2:1 混合比例折算,实际约 $0.18/1M tokens。在 Artificial Analysis 智力指数上运行 V4 Pro(最高推理力度)仅需约 $268,比 Gemini 3.1 Pro Preview 便宜 3 倍,比 GPT-5.5 便宜 12 倍,比 Claude Opus 4.7 便宜 19 倍

We are making our discount permanent! 🎉 Enjoy building with DeepSeek-V4-Pro and bring your innovative ideas to life! 🚀
— @deepseek_ai

我们决定将折扣永久化!🎉 尽情用 DeepSeek-V4-Pro 打造你的创新想法吧!🚀

DeepSeek has made its temporary 75% price cut on the first-party V4 Pro API permanent, putting V4 Pro on the Pareto frontier of Intelligence Index vs Cost to Run Intelligence Index alongside V4 Flash. Running the Artificial Analysis Intelligence Index on V4 Pro at first-party pricing costs ~$268, ~3x cheaper than Gemini 3.1 Pro Preview ($892), ~12x cheaper than GPT-5.5 ($3,357), and ~19x cheaper than Claude Opus 4.7 ($5,117).
— @ArtificialAnlys

DeepSeek 已将 V4 Pro 一方 API 的 75% 临时降价永久化,使 V4 Pro 与 V4 Flash 并列站在智力指数 vs 运行成本的帕累托前沿。在 V4 Pro 上一方运行 Artificial Analysis 智力指数仅需约 $268,比 Gemini 3.1 Pro Preview($892)便宜约 3 倍,比 GPT-5.5($3,357)便宜约 12 倍,比 Claude Opus 4.7($5,117)便宜约 19 倍。

社区普遍将此解读为 DeepSeek 推动「智能过于便宜以至于无法计量」的战略。与此同时,据 Bloomberg 报道,DeepSeek 正在推进 102.9 亿美元融资,创始人梁文锋重申了 AGI 导向的路线图,承诺继续发布开源模型而非追求短期商业化。红迪上不少评论者认为,开放权重不会显著损害 API 收入——本地推理用户占比极小,且模型架构优势的保质期仅有约一年。

2. Greg Brockman:模型本身不再是产品

OpenAI 总裁 Greg Brockman 用一句话精准概括了当前 AI 产品的核心范式转移:「the model alone is no longer the product.」模型质量不再构成护城河,真正的竞争壁垒在于模型 + 脚手架(harness)+ 工作流 + UI + 记忆 + 经济学的复合体系。

the model alone is no longer the product
— @gdb

模型本身已不再是产品。

这一观点得到了多位从业者的呼应:@dzhng 主张顶级产品需要模型 <> 脚手架 <> 产品三者共生;@signulll 将环境 AI 与智能体 AI 定位为计算界面的新接缝;@teortaxesTex 则警示脚手架研究有可能陷入「复刻 Claude Code」的同质化陷阱。从 OpenAI Codex 的持续迭代到 Claude Code 的 /workflows 功能试探,各家公司正在产品的上层堆栈展开激烈竞争,而非仅仅比拼模型 benchmark。

3. Anthropic Glasswing:一个月发现上万高危漏洞

Anthropic 公布了 Project Glasswing 的阶段性成果。这一 AI 网络安全协作项目在过去一个月内,与合作伙伴一起在关键基础软件中发现了超过一万个高危或严重级别的漏洞。Anthropic 明确警告,业界需要为 Claude Mythos Preview 等模型所能发现的漏洞量级做好适应准备。

Last month we launched Project Glasswing, our collaborative AI cybersecurity initiative. Since then, we and our partners have found more than ten thousand high- or critical-severity vulnerabilities in essential software.
— @AnthropicAI

上个月我们启动了 Project Glasswing,这是我们协作式的 AI 网络安全计划。此后,我们与合作伙伴在关键基础软件中发现了超过一万个高危或严重级别的漏洞。

这一数据是迄今为止针对「AI 驱动的网络攻击能力已进入生产化阶段」最有力的证据之一。与此同时,Perplexity 开源了只读扫描器 Bumblebee,可检测 macOS/Linux 上的风险包和 AI 工具配置;CEO Arav Srinivas 表示企业部署将需要智能体沙箱加持续安全工程。

4. MCP 2026-07-28 RC:协议告别状态,进入无状态时代

MCP(Model Context Protocol)发布了 2026-07-28 版本候选。最重要的架构变更:协议彻底无状态化——不再有握手过程、不再需要 session ID、任意请求可以打到任意服务器实例。这极大简化了扩缩容和负载均衡的运维复杂度。

The release candidate for MCP 2026-07-28 is out. The protocol is now stateless: no handshake, no session id, any request can hit any server instance. Plus extensions as first-class (MCP Apps, Tasks), auth hardening, and a proper deprecation policy so we don't have to do this again.
— @dsp_

MCP 2026-07-28 版本候选已发布。协议现已无状态:无握手、无 session ID、任何请求可打到任何服务器实例。此外,扩展(MCP Apps、Tasks)纳入一等公民、认证强化,以及一套正式弃用策略,确保我们不用再来一次。

RC 还将 MCP Apps 和 Tasks 等扩展提升为一等公民,并引入了认证加固和正式弃用策略。对于使用 MCP 的基础设施团队来说,告别 sticky session 和 handshake 状态管理是一个重大的运维利好。

5. Google I/O:Gemini Spark 全天候智能体 + Project Genie 世界生成

Google 在 I/O 大会上密集发布了一系列面向持久化 AI 的产品。Gemini Spark 被定位为「7×24 个人 AI 智能体」,负责管理重复性任务、技能和工作流。更引人注目的是 Google DeepMind 推出的 Project Genie + Street View:用户可以将美国任意真实地点转化为可交互的虚拟世界,面向 Google AI Ultra 订阅用户通过 Google Labs 开放。

Project Genie 🤝 @GoogleMaps Street View. You can now take real U.S. places and transform them into new, interactive worlds. 🌍
— @GoogleDeepMind

Project Genie 🤝 @GoogleMaps 街景。现在你可以将美国真实地点转化为全新的交互式世界。🌍

此外,Google 还发布了 Gemini Omni,用于对话式视频创作/编辑和自定义虚拟形象。@emollick 特别强调了「原生可编辑视频的全模态系统」的里程碑意义。至此,Google 的智能体布局已明确从对话助理扩展到「持久化 + 世界模拟 + 多模态创作」三位一体。

6. Qwen3.7-Max 预告:中国前沿模型军团持续施压

阿里 Qwen 团队正式预告了 Qwen3.7-Max,第三方测评显示该模型在指令遵循、上下文可靠性和稳定性方面有显著提升,与 Claude Opus-4.6 Max 在多个 benchmark 上互有胜负。与此同时,@scaling01 指出在 ALE-Bench 测试中,Kimi-K2.6、DeepSeek-V4 和 GLM-5.1 等中国模型已超越多款西方模型。

在本地部署侧,社区对 Qwen3.6 35B A3B 的热情持续高涨。有用户在 RTX 4070 Super(12GB VRAM)上使用 ik_llama.cpp 跑出了 110 tok/s 的推理速度,比上游 llama.cpp 提升约 23%。还有用户分享了将 repeatable 流程转化为 pi 代码智能体技能的实际工作流,涵盖 VPS 运维、PDF 转 EPUB、Playwright 测试等场景。

但红迪用户也理性指出:Qwen 历史上从未开放过 Max 系列的权重,所以「等开源版本」的标题可能不切实际;即便开源,也可能是不同架构/规模的模型,不能期望直接对标 Max 的性能。

7. OpenAI Codex Thursday #6:远程计算机访问、Appshots 等大幅更新

OpenAI 发布了 Codex 的第六次重大更新(「Codex Thursday No. 6」),新增功能包括:Appshots(应用快照)、/goal 命令改进、锁屏状态下的远程计算机使用、注释模式、插件共享以及数据分析。Greg Brockman 单独强调了 Appshots 的重要性,用户反馈出现了有意义的范式转变:有人说记不起用 Codex 之前是怎么写代码的,也有人称已经一个多月没打开传统 IDE 了。

不过产品短板同样明显:@theo 称赞了 T3 Code 的远程功能领先,但连发两条推文对比称 Codex 的远程工作流仍有 bug。在 Claude 一侧,Claude Code 的 auto mode 扩展至 Pro 计划并加入 Sonnet 4.6 支持;Antigravity 2.0 因 IDE 兼容问题引发反弹后紧急澄清并修补。此外,Cursor 也开放了 SDK 供团队构建自定义智能体——这标志着 coding agent 正从单一工具走向可编程平台。

8. Gemini 3.5 Flash:benchmark 大涨,用户反馈却冰火两重天

Gemini 3.5 Flash 在 benchmark 上表现亮眼:@OfficialLoganK 报告其在 GDPval 上大幅超越 3.1 Pro,「已在与前沿模型竞争」;Design Arena 将其排在总榜第 16 位,较 Flash Preview 跳升 16 位。然而多位构建者质疑其实用价值:@Alezander907 发现浏览器智能体场景仅微幅提升但成本更高;@giffmana 直言如果品牌仍暗示廉价,这就不是 Flash 的真正进步;@jeremyphoward 更是尖锐批评该模型「以最大化评估分数为目标优化,而非与人类协作」。

这些争议进一步呼应了 @HamelHusain 对当前工具链过度依赖量化评估、缺乏定性人类判断的批评。在 r/singularity 上,有用户刻意拿「300+140」这个简单算术测试 Gemini 3.5 Flash——默认 Standard thinking 下模型竟然接受错误的 440 结果,但切换到 Extended thinking 后正确纠正。社区普遍认为这暴露的是 Gemini App 默认推理配置过于保守的产品设计问题,而非模型能力的根本缺陷。

9. Agent 工作流蒸馏:推理成本直降至 1%

@dair_ai 关注的论文提出了一个具备变革性经济学内涵的技术方向:将完整的智能体工作流——包括多步骤调用、工具使用、草稿本和决策结构——蒸馏进模型权重,在保持接近前沿质量的条件下实现 约 100 倍的推理成本降低。这是迄今为止「将昂贵运行时智能体循环编译为廉价可部署模型」最清晰的技术论证,为大规模部署智能体系统扫清了核心经济障碍。

理论层面同样活跃:@RyanBoldi 提出 Vector Policy Optimization(VPO),认为 RL 中的标量奖励塌缩会破坏测试时扩展能力,改用向量值奖励反而能提升标量目标上的搜索性能。@lateinteraction 将其定位为「为更多样化环境和目标训练 LLM」。架构方向上,@ChunyuanDeng 提出 LT2,一种结合稀疏和线性注意力的线性时间循环 Transformer;@Jianlin_S 提出移动分位数均衡方法实现无需损失惩罚的序列级负载均衡;Allen AI 发布 ArtifactLinker,可预测模型在哪些 benchmark 上可能登顶——在 benchmark 蔓延的当下,这是一个元评估利器。

10. Runway Aleph 2.0 + Z-Image 6B:多模态视觉双双提速

Runway 发布了 Aleph 2.0,支持最长 30 秒的 1080p 多镜头序列,且可以对特定元素进行定向编辑而不影响场景其余部分。在语音侧,Cartesia 的 Sonic-3.5 被 Artificial Analysis 评为 Speech Arena 新晋 TTS 冠军,Elo 达 1218,支持 42 种语言,端到端首音频延迟声称仅 82ms。

在图像生成领域,腾讯发布了 Z-Image 6B,一款基于像素空间(无 VAE)的生成器,原生支持 1K 分辨率,并提供从 Flux/SD 模型迁移的框架。社区注意到「不开 VAE」正在成为一种新的技术趋势,可能与 Lodestone 等去潜空间模型形成竞争。相关生态也在快速跟上:AI Toolkit 已支持 Z-Image L2P 1k 训练,Pixal3D 也发布了配套 demo。

本作品采用《CC 协议》,转载必须注明作者和本文链接
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!