网易首页 > 网易号 > 正文 申请入驻

开源和闭源模型的差距在拉大:这是 DeepSeek 论文揭示的残酷真相

0
分享至


12月2日,DeepSeek 发布了 V3.2 技术报告。在这篇论文里,他们做了一件罕见的事:明确指出开源大模型与闭源模型的性能差距不是在缩小,而是在扩大。

这是基于大量实测数据的冷静判断。

1

差距正在拉大,这是事实

2024年,当 DeepSeek、Qwen、GLM 等开源模型接连发布时,社区充满乐观情绪。"8个月时间差"的说法广为流传,许多人相信开源正在追上闭源。但进入2025年,情况发生了变化。

DeepSeek 在论文引言部分直言不讳地写道:“过去几个月出现了明显的分化。虽然开源社区持续进步,但闭源专有模型的性能提升速度显著更快。结果是,两者的差距非但没有缩小,反而在扩大,闭源系统在复杂任务上展现出越来越强的优势。”

这个观察有数据支撑。论文对比了 DeepSeek V3.2 与 GPT-5、Gemini 3.0 Pro 在多个基准测试上的表现。在 MMLU-Pro(多学科知识测试)中,DeepSeek V3.2 得分 85.0,GPT-5 是 87.5,而 Gemini 3.0 Pro 达到了 90.1。在 GPQA Diamond(研究生级别科学问题)测试中,三者的得分分别是 82.4、85.7 和 91.9。


更明显的差距体现在 HLE(Human Last Exam,极难的文本推理测试)中。DeepSeek V3.2 的得分是 25.1,GPT-5 是 26.3,而 Gemini 3.0 Pro 高达 37.7——这个差距已经不是"接近"能形容的了。

值得注意的是,DeepSeek V3.2 已经是目前最强的开源模型,在大部分开源模型的对比中都处于领先位置。但即便如此,它与顶级闭源模型之间仍然存在明显差距,尤其是在需要深度推理和复杂任务处理的场景中。

1

差距为何在拉大?三个结构性问题

论文通过系统分析,识别出限制开源模型在复杂任务上能力的三个关键缺陷。这些不是表面问题,而是深层次的结构性困境。

第一个问题在于架构层面。

开源模型普遍依赖传统的 vanilla attention 机制,这种机制在处理长序列时效率极低。

论文指出,这种架构上的依赖"严重限制了长序列的效率,对可扩展部署和有效的后训练构成了实质性障碍"。当闭源模型已经在探索更高效的注意力机制时,开源模型还在用五年前的技术架构,这本身就是一个巨大的劣势。

第二个问题是资源投入的鸿沟,尤其体现在后训练阶段。

后训练是让模型从"会说话"变成"会思考"的关键环节,需要通过强化学习让模型学会推理、工具使用和遵循复杂指令。论文透露,DeepSeek V3.2 的后训练计算预算超过了预训练成本的 10%。要知道,预训练本身就是天价投入,而大部分开源模型的后训练预算可能连 1% 都不到。这种资源投入上的差距,直接导致了性能上的代际差异。

第三个问题是 AI Agent 能力的滞后。

在真实应用场景中,开源模型的泛化能力和指令理解能力明显落后。论文引用了三个关键的 Agent 测评基准:在 MCP-Mark 中,DeepSeek V3.2 得分 45.9,Gemini 3.0 Pro 是 51.0;在 MCP-Universe 中,前者是 80.3,后者是 87.9;在 Tool-Decathlon 中,差距更加明显。这些数字背后反映的是开源模型在复杂多轮交互、工具调用、长期规划等场景下的能力不足。

论文总结道:"开源模型在泛化能力和指令跟随能力方面展现出明显滞后,这阻碍了它们在实际部署中的有效性。"这是一个诚实且残酷的判断。

1

DeepSeek 的应对:技术路线的根本性改变

认识到问题后,DeepSeek 没有选择简单地堆砌参数或增加数据量,而是在三个核心维度上进行了根本性的技术创新。

在架构层面,DeepSeek 引入了 DSA(DeepSeek Sparse Attention)机制。

传统注意力机制的计算复杂度是 O(L²),序列长度翻倍,计算量就要翻四倍。DSA 通过"闪电索引器"(Lightning Indexer)快速计算每个 token 的重要性评分,然后只选择 top-k 个最重要的 token 参与注意力计算(论文中 k=2048),将复杂度从 O(L²) 降至 O(L×k)。

这个改进不仅仅是理论上的优化。论文通过实测数据表明,在 128K 上下文长度下,DSA 大幅降低了推理成本,而性能几乎没有损失。更令人意外的是,在 AA-LCR(长文本推理基准)和 Fiction.liveBench(小说理解测试)中,V3.2 的表现甚至优于使用传统注意力机制的 V3.1。这证明 DSA 不仅更快,在某些场景下质量还更好。


在资源投入层面,DeepSeek 做出了超常规的决定。

论文明确写道:"近几个月来,性能提升与扩展的 RL 训练预算持续相关,该预算已超过预训练成本的 10%。"这个数字在开源界极为罕见。具体来说,DeepSeek 为数学、编程、推理、Agent 等六大领域分别训练了专家模型,每个都单独进行大规模强化学习训练。在持续预训练阶段,模型经历了 943.7B tokens 的训练(在 128K 上下文长度下),然后采用 GRPO(Group Relative Policy Optimization)算法进行混合训练,整合推理、Agent 和人类对齐三类任务。

在 Agent 能力强化方面,DeepSeek 开发了系统化的任务合成流程。

他们合成了超过 1800 个多样化环境和 85,000 条复杂提示,涵盖各种真实场景。具体包括 24,667 个代码 Agent 任务、50,275 个搜索 Agent 任务、4,417 个通用 Agent 任务和 5,908 个代码解释器任务。这些合成数据不是随机生成的,而是通过冷启动阶段学习推理与工具使用的统一模式,然后在规模化阶段系统地生成高质量训练场景。

效果是显著的。在 Agent 相关的测试中,DeepSeek V3.2 显著缩小了与闭源模型的差距,在 MCP-Universe 上达到了 80.3% 的成功率,虽然仍低于 Gemini 的 87.9%,但已经是开源模型中的最佳表现。论文总结说:“DeepSeek V3.2 成为 Agent 场景中极具成本效益的选择,显著缩小了开源与前沿闭源模型之间的性能差距。”

论文最后写了一句耐人寻味的话:"如果 Gemini 3.0 证明了持续扩展预训练的潜力,DeepSeek V3.2-Speciale 则证明了在大规模上下文环境中强化学习的可扩展性。"言下之意很明显:闭源巨头有资源堆预训练,但开源可以找到自己的路——通过更高效的架构和更科学的后训练,用更少的资源实现接近的效果。

这或许是开源 AI 唯一的生存之道:不是硬碰硬拼资源,而是拼技术路线的创新。至少在这一次,DeepSeek 证明了这条路是走得通的。


论文链接:https://arxiv.org/html/2512.02556v1

整理:周华香

点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“这个春节还怎么过!”漏呀漏呀漏……70多岁上海阿婆,苦不堪言

“这个春节还怎么过!”漏呀漏呀漏……70多岁上海阿婆,苦不堪言

上观新闻
2026-01-31 11:29:04
缅北明氏11口,节前全抄斩,大过年的,一家人最重要就是齐齐整整

缅北明氏11口,节前全抄斩,大过年的,一家人最重要就是齐齐整整

小虎新车推荐员
2026-02-01 05:45:13
难以置信!郑州网友哭诉公司年会抽中苹果17,奖品被顶头上司盯上

难以置信!郑州网友哭诉公司年会抽中苹果17,奖品被顶头上司盯上

火山诗话
2026-02-01 10:26:39
伴娘好看还是新娘好看​​​​

伴娘好看还是新娘好看​​​​

太急张三疯
2026-02-01 15:55:51
老外看不下去了!吐槽国产手机抄袭iPhone:为了像苹果 3个摄像头里有1个是假的

老外看不下去了!吐槽国产手机抄袭iPhone:为了像苹果 3个摄像头里有1个是假的

快科技
2026-02-01 11:55:44
吃相越来越难看,都开始硬抢了!

吃相越来越难看,都开始硬抢了!

胖胖说他不胖
2026-02-01 10:00:18
深圳水贝“杰我睿”最新进展:有消费者收到兑付方案,20g黄金+9000多元余额,兑付本金4856元

深圳水贝“杰我睿”最新进展:有消费者收到兑付方案,20g黄金+9000多元余额,兑付本金4856元

每日经济新闻
2026-02-01 17:45:18
乌克兰战场再现士兵向机器人投降,俄罗斯严厉谴责美国对古巴封锁

乌克兰战场再现士兵向机器人投降,俄罗斯严厉谴责美国对古巴封锁

史政先锋
2026-02-01 19:11:54
突发史诗级暴跌!工行、农行、中行、建行、交行等五大行,紧急出手!

突发史诗级暴跌!工行、农行、中行、建行、交行等五大行,紧急出手!

中国基金报
2026-02-01 15:36:35
两被击毙港人去乌做雇佣兵原因曝光,接受军事训练以在香港使用

两被击毙港人去乌做雇佣兵原因曝光,接受军事训练以在香港使用

侠客栈
2026-02-01 13:50:37
印度暴发尼帕病毒疫情!医生提醒:侵袭呼吸系统和中枢神经系统,可能人传人,春节出行非必要不前往疫区

印度暴发尼帕病毒疫情!医生提醒:侵袭呼吸系统和中枢神经系统,可能人传人,春节出行非必要不前往疫区

封面新闻
2026-01-27 03:27:03
伊朗最高领袖哈梅内伊:如果美国挑起战争,这次冲突将不再局限于一地;美方发布“林肯”号航母在阿拉伯海接受补给视频

伊朗最高领袖哈梅内伊:如果美国挑起战争,这次冲突将不再局限于一地;美方发布“林肯”号航母在阿拉伯海接受补给视频

每日经济新闻
2026-02-01 21:46:27
总统是间谍?美国最新机密文件显示:特朗普是傀儡,早已被以色列收买

总统是间谍?美国最新机密文件显示:特朗普是傀儡,早已被以色列收买

不掉线电波
2026-02-01 15:52:15
马斯克证实,对俄罗斯使用星链的限制取得成效,将进一步提供支持

马斯克证实,对俄罗斯使用星链的限制取得成效,将进一步提供支持

山河路口
2026-02-01 18:31:19
访日刚结束,斯塔默遭51%民众反对,高市早苗犯愁,700万亿还不上

访日刚结束,斯塔默遭51%民众反对,高市早苗犯愁,700万亿还不上

东极妙严
2026-02-01 21:18:04
萝莉岛上拆解儿童高达吃肉,这事儿怎么洗?

萝莉岛上拆解儿童高达吃肉,这事儿怎么洗?

韬闻
2026-02-01 13:46:13
台湾GDP靓眼   跃居亚洲第三

台湾GDP靓眼 跃居亚洲第三

跟着老李看世界
2026-02-01 11:44:55
绍伊古突然访华,一天内谈什么?四大焦点曝光!

绍伊古突然访华,一天内谈什么?四大焦点曝光!

华山穹剑
2026-02-01 20:29:38
官媒怒批!吴京新片《镖人》未映先爆雷,30人8个头衔太荒唐!

官媒怒批!吴京新片《镖人》未映先爆雷,30人8个头衔太荒唐!

史行途
2026-01-30 09:43:04
郑爽完全变样了!抱孩子当街和张恒一家吵架,头发白了穿搭很邋遢

郑爽完全变样了!抱孩子当街和张恒一家吵架,头发白了穿搭很邋遢

叶公子
2026-02-01 18:05:30
2026-02-02 04:28:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2834文章数 10435关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

房产
艺术
家居
手机
旅游

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

艺术要闻

上海“高技派”地标:华润中心竣工,LV总部入驻!

家居要闻

蓝调空舍 自由与个性

手机要闻

消息称一加16长焦镜头将升级至2亿像素,有望支持长焦微距功能

旅游要闻

春节必打卡10大榜单聚焦“京味年味”

无障碍浏览 进入关怀版