DeepSeek V4 最新信息全汇总
截至 目前,,DeepSeek 官方并未公开发布 V4 的模型卡、可调用的官方 V4 API 或正式公告。**目前官方对外主推与可用的,是 DeepSeek-V3.2(chat / reasoner),上下文 128K,并在 API 文档中给出完整规格与价格。
1) 目前最强“权威报道”:V4 预计 2026 年 2 月中旬发布,主打编程 + 超长代码提示词
目前关于 V4 的发布时间与定位,信息质量最高的一条来自 Reuters(援引 The Information):
发布时间:预计 2026 年 2 月中旬(mid-February)
定位:下一代模型 V4,重点强化 coding
亮点:对 极长的代码提示词(very long / extremely long coding prompts)处理能力有显著提升
对比说法:内部测试声称在编码任务上可能超过一些头部模型(注意:这是“内部测试说法”,外部未验证)
状态:DeepSeek 未对报道置评,Reuters 无法独立核实
网上很多二次传播会把日期进一步具体化到 “2 月 17 日”(因为 2026 农历新年在 2 月 17 日),但这属于媒体/社区推断,并非官方确认。
2) 官方“可验证事实”:现在真正能用到的是 DeepSeek-V3.2(128K、工具调用、上下文缓存、明确价格)
在 V4 未正式落地之前,你能依赖的“硬信息”都在 DeepSeek 官方 API 文档里:
模型:deepseek-chat、deepseek-reasoner 对应 DeepSeek-V3.2(非思考/思考)
上下文长度:128K
功能:JSON Output、Tool Calls、(Beta)前缀补全、(Beta)FIM 补全(chat 支持)
价格:输入 token 分 cache hit/miss,输出另计(官方表格给出具体数值)
这意味着:即便 V4 还没来,DeepSeek 已经在接口层把“面向 Agent / 长上下文工程任务”的基础设施铺好了(例如默认启用的上下文缓存)。
3) 为什么大家相信 V4 会“更能写工程”?两条强信号:Engram(条件记忆)与 mHC(可扩展训练稳定性)
如果你只看“传闻说 V4 更强”,会很虚;但 DeepSeek 最近确实发布了两项可被论文/代码验证的研究成果,它们与“长上下文 + 工程级编码”非常相关。
3.1 Engram:把“记忆/查找”从昂贵计算中拆出来,让模型更适合超长上下文
DeepSeek 团队在 2026 年 1 月发布论文 《Conditional Memory via Scalable Lookup》(arXiv: 2601.07372),并开源对应实现仓库 deepseek-ai/Engram。核心点是:
提出 conditional memory 作为新的“稀疏轴”,补足 MoE 之外的能力
用 Engram 做到近似 O(1) 的知识/模式查找(基于 N-gram embedding 的现代化实现)
论文报告在推理、代码、数学、长上下文检索等方面都有提升(例如 HumanEval、长上下文检索指标等)
还强调了基础设施友好:可把巨大表 offload 到 host memory 并通过确定性寻址做预取,减少 GPU 内存瓶颈
这条线索与 Reuters 提到的 “very long coding prompts” 方向是高度一致的:当你的提示词包含大量代码、依赖与上下文时,越能“查”而不是“算”,越有机会把算力留给真正难的推理与规划。
3.2 mHC:为“更大规模训练”解决稳定性与效率问题
另一项是 mHC: Manifold-Constrained Hyper-Connections(2025-12-31 上 arXiv)。论文的要点是:在更复杂的连接结构(Hyper-Connections)带来性能收益的同时,容易破坏残差连接的 identity mapping,从而引发训练不稳定与开销;mHC 通过“投影到特定流形”恢复性质,并做了工程优化,旨在 更稳定、更可扩展地训练。
可以关注网站:deepseekv4.dev/ 可以在第一时间提供deepseek v4的最新资讯。
本作品采用《CC 协议》,转载必须注明作者和本文链接
关于 LearnKu