DeepSeek不必是救世主 | 以Agent为马|算法|智能体|预训练|大模型|kimi|agent|deepseek

DeepSeek不必是救世主 | 以Agent为马

2026-02-14 22:36:20　来源: 未尽研究

上海举报

分享至

去年，DeepSeek在春节前夕发布了R1模型，让硅谷震撼，让华尔街不安。它为中国大模型厂商重新埋头研究与训练验证了路径，也开启了中国开源模型阵营狂飙突进的一年。

春节已经成为新的一年的前哨战。近期，Kimi、智谱、MiniMax与豆包，都先后赶在春节前，发布自己的旗舰模型。外界不免揣测，它们都担心一旦迟到，在品牌形象与市场竞争中都落后一程。

前沿模型“智能”水平排名

（按照ArtificialAnalysis，目前美国最强模型来自Anthropic，中国来自智谱）

如今，压力给到了DeepSeek。市场期待它继续成为春节的英雄，以及承担中国AI生态的“救世主”角色。它该如何回应市场对它的期待，又或者，它必须回应吗？

DeepSeek确实正在酝酿些什么。全新长文本模型结构测试正在中，支持最高100万token上下文。它会是市场等待了DeepSeek-V4吗？事实上，去年5月、8月、10月与12月，市场就这么期待过。最终，DeepSeek交付了DeepSeek-R1-0528、DeepSeek-V3.1、DeepSeek-V3.2-Exp与DeepSeek-V3.2。

期间，DeepSeek还尝试了UE8M0 FP8、DSA、上下文光学压缩、mHC与Engram等方向的探索。它们的核心思路之一就是“稀疏化”，让“专家”、“精度”、“注意力”与“记忆”变得更为稀疏。人们相信在即将到来的V4上，能够继续找到这些改良的技术的影子。

然而，市场的聚光灯已经转向智能体（AI Agent），更确切地说，是智能体化（Agentic AI）。后者开始追求自主决策、长期任务规划、智能体间交互，以及端到端执行的新范式。Anthropic称，AI已经能写出90%的代码，再往前一步，就是完成90%端到端的软件工程（SWE）。火爆的OpenClaw让人相信，在获得足够权限后，Agentic应用会变得多么强大与危险。

2026年的旗舰大模型，将主要是原生Agentic大模型。在美国，Anthropic的Claude Opus 4.6与OpenAI的GPT-5.3-Codex相继上线，尤其是OpenAI推出1000token/秒的Codex-Spark，将编码竞争推向白热化。在国内，月之暗面的Kimi-K2.5、智谱的GLM-5、稀宇科技的MiniMax-M2.5，以及今天字节跳动的Doubao-Seed-2.0，都在宣传自己的智能体能力。

其中，Kimi-K2.5引入了智能体集群（Agent Swarm）技术，并提出并行智能体强化学习（PARL），准确率更高，用时更少；GLM-5在编程能力上实现了与Claude Opus 4.5对齐，又提出异步智能体强化学习算法，使模型能够持续从长程交互中学习，以极少的人工干预自主完成 Agentic 长程规划与执行。MiniMax-M2.5则号称是第一个不需要考虑使用成本可以无限使用的前沿模型，“1万美元可以让4个Agent连续工作一年”。

DeepSeek-V3.1早已宣告迈向Agent时代，但又会如何定义扑面而来的Agentic时代。它能否凭借推理效率、工具集成、记忆机制与极致经济性，在落地体验中再度确立新的标杆？

也许，DeepSeek未必还需要一个单独的“R系列”。R象征推理与认知，对标OpenAI的o系列模型；而Agentic时代，更强调执行与工程，更需要对标OpenAI的Codex。DeepSeek原本就拥有Coder与Math系列模型，编码与数理证明，都是通往AGI（通用人工智能）的“元能力”，它们二者共同构成模型的自我改进系统，加速递归式进化。

市场同样期待DeepSeek继续验证国产算力生态协同的潜力。长期以来，它对此的探索主线，一直都是如何在有限的资源下通过架构创新，最大程度上地提升训练与推理的效率。去年年底，DeepSeek-V3.2用新架构DSA，在长上下文场景中实现了端到端的显著加速；今年年初，Engram的条件记忆有望“成为下一代稀疏大模型中不可或缺的基础建模范式”。

OpenAI的Codex-Spark证明，响应速度至关重要，是创造价值的关键。它运行在Cerebras晶圆级引擎上，这又正是国内推理生态所缺乏的。DeepSeek能否用“算法”换“算力”，抹平这种硬件级别的差距？

而且，从算法上着手，精简步骤，不仅能够提升响应速度，尤其是部分必须高速精准响应的场景，还能够减轻上下文的压力。此前，中国开源模型常被诟病，“冗长思考”不受制约，消耗token过高，将逐步侵蚀成本优势。此前，DeepSeek提到，会在未来的工作中，聚焦于提升模型推理链的智能密度，以改善效率。

比推理更重要的是训练，预训练仍然是后训练的起点。英伟达的Blackwell架构正在成为美国AI基础设施中的训练主力，谷歌的TPUv7也将在Gemini 4的训练中发挥关键作用。即使H200能尽快在国内部署，短期内中国大模型训练的算力来源，也仍处于Hopper时代。目前，国内AI芯片厂商的性能叙事仍主要围绕Hopper架构展开，而在大规模集群场景下的稳定性与综合效率表现，尚未形成充分的实践数据支持。

DeepSeek在论文中承认，由于训练算力不足，DeepSeek-V3.2在世界知识的覆盖广度上，仍落后于领先的专有闭源模型。该团队计划在后续迭代中，通过扩大预训练算力规模，来弥补这一知识差距。不必怀疑，当DeepSeek-V4发布的时候，国产AI芯片会Day0深度全栈适配；但市场更期待它的预训练会基于国产AI芯片，并再一次改写市场对英伟达叙事的定价。

人们欣赏DeepSeek精致的研究，市场也期待原生多模态的DeepSeek-V4。Gemini 3已经是原生支持文本、图像、音频和视频输入的大模型，Kimi-2.5也强调文本与视觉的联合优化。要继续对标谷歌、OpenAI，似乎DeepSeek必须有所动作。

但是，技术创新必须站在可验证的物理边界上，而不是情绪边界上。芯片、能源、网络，以及算法等整套生态，决定了算力的上限。而算力正在限制中国开源模型进一步追赶的后劲，在预训练和后训练方面已经表现出来。任何“算法乐观主义”，在特定时间内，都只能在这个边界内优化。而AGI更是一项系统工程，远超单一大模型的参数规模或版本更新。

DeepSeek的使命是探索AGI。只做大模型是无法实现AGI的，尤其是只做语言大模型，它的局限性也越来越明显。现在更接近现实的AGI形态，是知行合一的，它有认知能力、执行能力、长期约束、现实反馈闭环，等等。Claude大模型经常被中国的开源模型集体刷榜碾压，但它的收入以每年十倍的速度增长，在编程这一通用功能领域的突破，为通往AGI开辟了一条蹊径。

或许，真正长期主义的期待，是允许DeepSeek继续深度求索，而不是让市场的所有焦虑与愿望，都在某一个时刻集中投射到同一个名字之上。在公司创始人梁文锋看来，创新就是昂贵且低效的，有时候伴随着浪费，它需要尽可能少的干预和管理，让每个人有自由发挥的空间和试错机会。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.