网易首页 > 网易号 > 正文 申请入驻

DeepSeek杀出一条血路:国产大模型突围不靠运气!

0
分享至

作者|高见观潮 高恒

进入2025年末,全球大模型赛道的技术焦点几乎被Google重新夺回。Gemini 3 Pro横空出世,在多个权威基准上超越所有开源模型,重新确立了闭源阵营的技术高地。一时间,业内关于"开源模型是否已到极限""Scaling Law是否真的撞墙"的质疑声再起,一股迟滞情绪在开源社区弥漫。

但就在此时,DeepSeek没有选择沉默。12月1日,它一口气发布了两款重磅模型:推理性能对标GPT-5的DeepSeek-V3.2,以及在数学、逻辑和多轮工具调用中表现异常强势的Speciale版本。这不仅是对技术能力的集中展示,也是在当前算力资源并不占优的前提下,对闭源"新天花板"的正面回应。

这不是一次简单的模型更新。DeepSeek试图在后Scaling时代找出一条全新路径:如何用架构重塑弥补预训练差距?如何通过"工具使用中的思考链"实现低token高效率的智能体表现?更关键的是,Agent为何从附属功能变成了模型能力跃迁的核心引擎?

本文将围绕这三条主线展开分析:DeepSeek是如何在技术瓶颈下突破的?为何率先在开源阵营中重注Agent?而这是否意味着,开源模型仍有穿透闭源护城河的那条路?

一、从落后到并跑,DeepSeek靠什么杀入第一梯队

在顶级AI模型的竞技场中,开源选手一直被认为只能"追平",难以真正"对抗"。但这一次,DeepSeek-V3.2交出的成绩单,已不再是追赶者的姿态。

根据DeepSeek官方公布的数据,V3.2在公开的推理类基准测试中,已全面对标GPT-5,仅略低于Gemini 3 Pro。在多个关键评估中,它不仅稳定胜出Kimi-K2-Thinking,还成功刷新了国内开源模型在推理能力上的最高纪录。在数学、逻辑、复杂问答等任务中,DeepSeek-V3.2的表现接近闭源领先模型,已足以跻身"全球第二梯队"的头部。

这背后的关键,并非大模型"继续放大"就能解释。DeepSeek的突破,核心在于对底层架构的重塑,尤其是稀疏注意力机制(DSA)的引入。传统Transformer架构中,注意力机制对每一个token都要计算与前序所有token之间的关系,其计算复杂度呈平方级增长,成为大模型推理中的主要成本瓶颈。

而DSA所引入的"闪电索引器"(Lightning Indexer),则相当于在这场计算中装上了一套"快速预判器"——它不再对所有token做全量注意力分配,而是通过极少量、低精度的索引头(可在FP8上运行)快速筛出最关键的token对,只对这些核心位置进行精算。这样的设计,使得模型的核心注意力机制从平方级复杂度降至近线性,即便在128K这样的超长上下文输入中,也能保持相对稳定的计算负担。

值得注意的是,DeepSeek在引入DSA时并未选择激进替换,而是采取了"密集预热—稀疏过渡"的双阶段训练策略。在模型预训练的早期阶段,保留原始注意力结构,仅训练索引器模仿原始分布;而后再在后训练阶段逐步替换为稀疏结构,实现无中断切换。这种"架构渐变式演进",让V3.2在长上下文推理中不仅效率提升,精度也未受损。Fiction.liveBench、AA-LCR等长文本任务测试显示,V3.2在信息召回、上下文一致性和压缩表达能力方面的得分均有显著上升。

但更具行业价值的突破,并不止于此。DeepSeek在V3.2中首次提出"Thinking in Tool-Use"的工具使用范式,将模型的执行链条从"思考→调用工具→结束"改造为"思考→调用→继续思考→再调用"的交错逻辑。这种机制与近年来Agent领域提出的"Interleaved Thinking"方向高度一致,不仅提升了工具调用的逻辑持续性,也让模型能够在一次任务中反复复用推理中间状态。

这种能力,在真实的Agent场景中尤为关键。现实任务往往并非一步到位,而是需要多轮信息获取、验证与策略修正。如果每次调用工具都让模型"失忆"一次,就意味着它必须不断从头再推一次。而V3.2的做法,是明确将"推理轨迹"保留为上下文中的一部分,在工具返回新信息后,接续原思考路径继续向下延伸。这样的机制不仅减少了重复token生成,也大幅降低了因状态漂移造成的逻辑中断。

归根结底,DeepSeek的这轮技术跃迁,并非靠更大的FLOPs堆出来,而是靠"更聪明地用算力"。DSA让计算分配更有效,交错思维让工具调用更稳定,两个维度共同指向一个目标:让模型真正成为一个"可持续思考的智能体",而不仅是一个大号的语言补全器。

这也意味着,在规模红利见顶之后,未来模型的竞争焦点,将逐步从"参数多少"回归到"思维组织力"与"能效比"。而V3.2,恰好是这一转向的早期注脚。

二、押注Agent,不是跟风,而是战略拐点

相比模型性能上的技术突破,DeepSeek-V3.2在战略路径上的最大变化,是它将"Agent能力"与"推理能力"并列,明确写入技术文档的核心指标。这是过去国内开源模型几乎未曾公开强调过的方向调整。在DeepSeek看来,Agent不再是工具调用的附属模块,而是模型能力释放与产业落地之间的桥梁,甚至是未来大模型平台化的前哨站。

这种判断并非脱离现实的技术浪漫。过去一年,大模型行业经历了一个重要转向:企业开始意识到,"更聪明的聊天机器人"带来的边际价值正在减退,真正具备"动作能力"的Agent,才是有望形成商业闭环的核心角色。从自动写报告、自动生成报表,到批量工单处理与代码修复,企业愿意为这些"可执行"的智能体付费,而不是为一句更像人类的话语买单。

这也解释了为何DeepSeek在V3.2后训练阶段投入大量资源打造Agent训练体系,并自建了一套规模化的任务生成流水线。据官方披露,团队为此合成了超过1800个智能体环境,并围绕Agent任务设计了约85,000条高复杂度任务提示。这些任务并非来源于人工标注,而是通过环境构建器与轨迹评分机制自动生成,并借助强化学习形成闭环训练。

这种做法跳出了传统预训练依赖海量对话语料的思路。相比之下,Agent任务轨迹具备更强的结构性、验证性和稀缺性。一旦构建完成,训练效果将远优于常规"对话式补全"。更关键的是,强化学习机制使得模型能力可以不断通过反馈回路优化,而不再受限于预训练阶段的单向迭代。

DeepSeek在训练中采用了自研的GRPO(Group Relative Policy Optimization)策略,并对其进行了深度本地化适配,以适应大规模多轮任务训练。在这一过程中,模型不仅需要优化单轮产出的合理性,更要平衡多轮任务中的推理一致性与语言表达稳定性。为避免传统RL中"灾难性遗忘"的问题,DeepSeek将推理奖励、语言一致性得分与任务完成度打分整合为多维奖励信号,使得模型在训练中持续保持Agent执行链的完整性。

而要支撑这一复杂的训练机制,模型自身的"状态感知能力"也必须同步升级。V3.2在架构中引入了完整的上下文管理策略:模型只会在用户发出新消息时重置思考状态,而在连续的工具调用过程中,其推理轨迹将被完整保留。这意味着模型可以持续积累"思维残留",在工具返回新信息后继续推理而非重启逻辑。这种"状态延续机制"成为Agent多轮行为连续性的重要保障,也使得模型能胜任更复杂、跨阶段的任务拆解。

从系统逻辑上看,DeepSeek对Agent的理解已从"任务执行插件"上升到了"模型操作系统"的组成部分。它不是一个外挂,而是模型核心运行结构的一部分。这种系统观的转变,意味着未来大模型平台的形态将趋近于一个调度操作系统:模型本身是OS内核,Agent是用户态的执行程序,插件工具则成为可调用模块。谁掌握了Agent层的标准,谁就可能在AI时代掌控平台话语权。

这也是为何DeepSeek试图主导"交错式思维+工具使用"的统一范式,并提出"Thinking in Tool-Use"这样的底层设计语言。这不仅是技术细节的不同,更是一种平台思维的显现。

对行业而言,DeepSeek的这一轮转向标志着一个新的分水岭:Agent能力不再是工程团队"可做可不做"的附加选项,而是模型构建路径中的核心分支。是否具备平台级Agent能力,已经成为衡量模型中长期竞争力的关键指标之一。

三、开源模型的极限在哪里?DeepSeek的"后训练战术"试图给出答案

尽管V3.2和Speciale在多个基准上实现了开源"从追赶到并跑"的逆转,但DeepSeek在技术报告中也坦言:开源模型与闭源系统之间的差距,仍在某些关键维度上被进一步拉大。尤其是在知识广度、极复杂任务处理能力以及token生成效率上,开源体系仍受限于资源、数据与预算。

DeepSeek选择并不掩饰这些局限,而是以极具可执行性的策略给出了回应:如果资源拼不过,就从方法入手,把训练过程"做深"。

这一策略的核心,是其独有的"后训练三件套":专家蒸馏 + 多轨强化学习 + 工具思维机制融合。

首先,是专家蒸馏(Expert Distillation)。在大多数模型仍以通用数据混合训练为主时,DeepSeek为V3.2量身打造了六类专家模型,覆盖数学、编程、逻辑推理、通用Agent、Agent编程和Agent搜索等核心能力域。每一类任务均有一组专属模型,在自有数据集和生成轨迹中强化单一技能。这些专家并不直接部署,而是用来生成高质量训练样本,反哺主模型。

随后,这些"任务专精模型"产出的数据,会被统一用于训练一个通用模型。在技术上,这相当于用多个极致偏科的"学霸"反向喂养一个全面发展的"全才",既避免了多任务训练中的能力稀释,又保留了不同任务之间的结构联通性。

第二层,则是强化学习(RL)的扩展升级。DeepSeek延续了V3.2-Exp中的GRPO(Group Relative Policy Optimization)策略,并在数据与奖励结构上进一步升级。模型不仅要完成任务,还需同时优化语言质量、推理链逻辑合理性与对工具的自然调用能力。整个后训练阶段的算力投入,占比已超过了预训练预算的10%,在开源模型体系中极为罕见。

更重要的是,强化学习过程中并非依赖人类评分,而是通过任务环境自带的反馈机制与rubric自动评分。这一设计使得模型训练不再受限于人工对齐数据,而是进入"结构化任务-自动评分-行为优化"的闭环学习路径,也因此形成了比Chat数据更稀缺、但更具复用性的模型能力。

第三层,是工具使用与"思考链"的融合机制。在训练初期,模型往往无法理解"什么时候该调用工具、何时该继续思考",导致推理轨迹断裂、逻辑中断。为此,DeepSeek为V3.2设计了一套冷启动系统提示,在思维轨迹中自然嵌入工具调用的示例,使得模型逐步学会在多轮任务中"带着工具思考",而非"思考完才调用工具"。

此外,整个上下文状态也被重新设计:工具调用不会中断思考内容,用户新输入才会触发清除。这一策略显著降低了token冗余,也避免了每轮任务都从头开始推理的问题。

这些技术设计看似工程化,其实都指向一个本质问题:在参数量和训练规模受限的前提下,开源模型如何提升"单位token的智能密度"。

DeepSeek给出的答案是,把资源尽可能压缩在"推理链条"的关键路径中,让每一轮推理都尽可能多带信息,尽可能少重复。这不是规模的胜利,而是方法的胜利。

当然,即便如此,DeepSeek仍未完全填补开源与闭源之间的知识鸿沟。官方报告也指出,V3.2的世界知识广度与最新闭源模型仍有差距,Speciale模型虽然在复杂竞赛中表现突出,但token开销显著增加,尚不适用于泛化日用场景。

但如果说Gemini 3 Pro代表了闭源阵营对"更大、更快、更强"的继续探索,那么V3.2与Speciale所代表的,或许是一种"更轻、更稳、更聪明"的新路径。在行业对Scaling Law前景仍存争议之际,DeepSeek正试图以更强的推理组织力、更少的资源消耗、以及更高效的训练范式,重构开源模型的竞争秩序。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黄一鸣回应公开孩子父亲身份:你不给抚养费,我就用你的流量赚钱

黄一鸣回应公开孩子父亲身份:你不给抚养费,我就用你的流量赚钱

每一次点击
2026-02-22 12:02:41
一男子失业拿了50万赔偿回村里,逢人说欠了30万外债,谁料第二天叔伯兄弟,都上门来“送温暖”了

一男子失业拿了50万赔偿回村里,逢人说欠了30万外债,谁料第二天叔伯兄弟,都上门来“送温暖”了

不二大叔
2026-03-19 21:29:20
个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

中国能源网
2026-03-25 13:53:05
中美卫星导航用户数量悬殊:GPS用户数超60亿,中国北斗令人意外

中美卫星导航用户数量悬殊:GPS用户数超60亿,中国北斗令人意外

混沌录
2026-03-18 23:54:31
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
美军司令:一旦台海战争打响,6个航母战斗群2个陆战师将全都出动

美军司令:一旦台海战争打响,6个航母战斗群2个陆战师将全都出动

混沌录
2026-03-24 22:31:03
一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

阅毒君
2026-01-05 07:05:06
特写|“反霸权、反帝国主义”——委内瑞拉民众要求美国释放马杜罗

特写|“反霸权、反帝国主义”——委内瑞拉民众要求美国释放马杜罗

新华社
2026-03-26 17:09:03
新冠后遗症对人体的最大影响,很多人深受其害,有些人还不自知

新冠后遗症对人体的最大影响,很多人深受其害,有些人还不自知

呼吸科大夫胡洋
2026-02-22 11:39:12
公积金新调整!4月1日起,职工可自愿提高缴存比例

公积金新调整!4月1日起,职工可自愿提高缴存比例

另子维爱读史
2026-03-25 22:28:47
S家发威了!大S律师已报警,官方出手,张兰律师怒斥,牵连马筱梅

S家发威了!大S律师已报警,官方出手,张兰律师怒斥,牵连马筱梅

小舟谈历史
2026-03-26 15:44:38
杜月笙的识人术:只看对方的一个站姿,就能知道他是龙还是虫

杜月笙的识人术:只看对方的一个站姿,就能知道他是龙还是虫

千秋文化
2026-03-23 20:09:06
800亿!泉州首富家族,太可怕了

800亿!泉州首富家族,太可怕了

深蓝财经
2026-03-26 18:58:45
中美都在赌,美国赌中国不敢打日本,而中国则在赌美国不会下场

中美都在赌,美国赌中国不敢打日本,而中国则在赌美国不会下场

南权先生
2026-03-24 15:30:39
美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

爱吃醋的猫咪
2026-03-22 22:29:08
5月起生效!俄罗斯关闸,8000吨黄金不卖了,全球金市变天

5月起生效!俄罗斯关闸,8000吨黄金不卖了,全球金市变天

瑛派儿老黄
2026-03-26 10:43:45
国家规定可以配枪的十大执法部门

国家规定可以配枪的十大执法部门

微法官
2026-03-26 08:04:55
奇瑞回应48%热效率争议,顺带下战书:定会做成,油耗低至1L

奇瑞回应48%热效率争议,顺带下战书:定会做成,油耗低至1L

明镜pro
2026-03-26 09:22:44
1958年,江青前夫去世,临终前嘴里不断喊着:江青是什么人?

1958年,江青前夫去世,临终前嘴里不断喊着:江青是什么人?

明月清风阁
2026-03-25 16:30:09
突发 广州白云 番禺多家法务公司 法律咨询公司被一锅端,上百人被抓

突发 广州白云 番禺多家法务公司 法律咨询公司被一锅端,上百人被抓

石辰搞笑日常
2026-03-26 17:28:25
2026-03-27 01:12:49
蓝鲸新闻 incentive-icons
蓝鲸新闻
财经信息服务平台
128963文章数 193777关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
家居
教育
时尚
艺术

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

家居要闻

傍海而居 静观蝴蝶海

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

400万人爱过的女孩,被黄谣网暴180天后

艺术要闻

都说乌克兰美女多,看完摄影师贝格玛 的作品我信了!

无障碍浏览 进入关怀版