网易首页 > 网易号 > 正文 申请入驻

DeepSeek-3.2年终压轴,追上OpenAI,遇上Gemini,算力正在影响后劲

0
分享至

DeepSeek全年压轴的来了。

今天,它同时发布了两个正式版模型:DeepSeek-V3.2 ,与GPT-5有得一拼;和 DeepSeek-V3.2-Speciale,胜过GPT-5,推理熟练程度达到了Gemini-3.0-Pro的水平 ,在国际奥数等比赛中达到金牌水准。

经过整整一年,DeepSeek从年初以最快的速度和最低的成本复刻出推理模型o1,到年底追上OpenAI,号称推理模型全球领先。不过,它以后需要对标更强的Gemini、对标它长期学习的DeepMind了。而且,算力正在限制中国开源模型进一步追赶的后劲,在预训练和后训练方面已经表现出来。

今年,虽然没有发布期待中的V4,但是,DeepSeek用V3一直打到年底,也基本完成了使命。正如它所说:“DeepSeek-V3.2 模型在智能体评测中达到了当前开源模型的最高水平,大幅缩小了开源模型与闭源模型的差距。”在公开的推理类基准测试中,DeepSeek-V3.2 达到了 GPT-5的水平,仅略低于 Gemini-3.0-Pro。


DeepSeek-V 3.2-Speciale,要展示出它才是2025年真正的学霸。在Gemini和OpenAI先后都达到了奥数等一系列中学生顶级竞赛冠军水平之后,Speciale也迅速展示出,它在国际、中国、美国一系列最顶级的竞赛中,都可以达到最高水平。


中国的开源模型,以往与美国先进闭源模型相比,在回答相同难度的问题时,耗费的token。

这一次,它部分改掉了“啰嗦”的毛病。大家以后日常使用的V3.2 ,在问答和通用智能体任务中,可以平衡推理能力与输出长度。相比 Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间。

不过它也提醒,在高度复杂任务上,Speciale模型大幅优于标准版本,但消耗的Tokens也显著更多,成本更高。目前,DeepSeek-V3.2-Speciale仅供研究使用,不支持工具调用,暂未针对日常对话与写作任务进行专项优化。

好在通过DSA(DeepSeek稀疏注意力)机制,DeepSeek能控制住推理中的每百万token成本。结合优化实现,DSA在长上下文场景中实现了端到端的显著加速。下图展示了DeepSeek-V3.1-Terminus 与 DeepSeek-V3.2 的 token 计算成本随序列中 token 位置的变化关系。这些成本数据来自H800GPU真实部署服务的基准测试估算,租赁价格为每GPU小时2美元。


DeepSeek指出,尽管中国正在主导的开源社区很热闹,如 MiniMax、月之暗面、智谱等,仍在持续推进研究和模型能力,但美国的闭源的专有大模型(Anthropic、DeepMind、OpenAI)的性能曲线“在近几个月以更陡峭的速度加速攀升。”

人们一直以为,开源模型将逐步逼近并最终追平闭源模型,但实际上,开源模型与闭源模型之间的性能差距并没有收敛,反而呈现出扩大的趋势。DeepSeek警告中国开源模型:“在越来越复杂的任务中,专有闭源系统展现出了显著更强的能力优势,并在处理高复杂、多步骤、交互式问题时体现出的领先幅度在扩大。”

DeepSeek分析了开源模型的三项关键缺陷:第一,在架构层面,开源模型对原版注意力机制(vanilla attention mechanisms)的主要依赖,极大地限制了其在处理长序列任务中的效率。这种低效性成为可扩展部署和有效后训练的重大障碍。第二,在资源配置方面,开源模型在后训练阶段缺乏足够的计算资源投入,从而限制了其在高难任务上的表现。最后,在AI智能体方面,开源模型在泛化能力和指令追随能力上明显落后于闭源的专有模型,这阻碍了其在真实部署中的实际效果。

为了解决这些关键的局限,DeepSeek首先提出了DSA,大幅降低计算复杂度,有效缓解了效率瓶颈,即便在长上下文场景中也能保持模型性能。第二,开发了一套稳定且可扩展的强化学习协议,使得在后训练阶段可以大幅扩展计算投入。值得注意的是,该框架分配的后训练计算预算超过了预训练成本的10%,从而解锁了更高级的能力。

但更重要的是,V3.2首次将思考融入工具使用,并且同时支持思考模式与非思考模式的工具调用。“我们提出了一种大规模Agent训练数据合成方法,构造了大量「难解答,易验证」的强化学习任务(1800+ 环境,85,000+ 复杂指令),大幅提高了模型的泛化能力。”

如下表所示,V3.2 在智能体评测中达到了当前开源模型的最高水平。值得说明的是,它并没有针对这些测试集的工具进行特殊训练,所以“我们相信,V3.2 在真实应用场景中能够展现出较强的泛化性。”


智能体能力,光当学霸拼考分不行,还要看下实际解决问题的能力。V3.2还特意演示了一个旅行助手提供的杭州西溪湿地的旅游攻略生成过程。那些动不动能解奥数题的智能体,目前面对的最大挑战,其实是能不能让外卖小哥送上一杯奶茶。智能体完成真实世界里真实任务的能力,正在日益变得比获得高分更重要。

DeepSeek也承认了自己的不足,尤其是与Gemini-3.0-Pro等前沿闭源模型相比,仍然存在一些局限。

第一,由于总体训练FLOPs更少,V3.2在世界知识的覆盖广度上仍落后于领先的专有闭源模型。我们计划在后续迭代中通过扩大预训练算力规模来弥补这一知识差距。

第二,token效率仍然是一项挑战。V3.2通常需要更长的生成轨迹(即更多tokens)才能达到像Gemini-3.0-Pro这样的模型所具备的输出质量。未来的工作将聚焦于提升模型推理链的智能密度,以改善效率。

第三,在解决复杂任务的能力上,它的表现仍不及前沿模型,这驱使我们继续改进基础模型并优化后训练方法。

参考

V3.2技术报告

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
海伦堡地产集团创始人黄炽恒滞留香港

海伦堡地产集团创始人黄炽恒滞留香港

地产微资讯
2026-03-02 21:10:48
28分轻取国王!东契奇生涯总分超越96.6%的NBA球员,他才25岁

28分轻取国王!东契奇生涯总分超越96.6%的NBA球员,他才25岁

大眼瞄世界
2026-03-03 01:25:03
伊朗12轮打击已使美以失去“低成本低风险可持续”的前沿作战能力

伊朗12轮打击已使美以失去“低成本低风险可持续”的前沿作战能力

李博世财经
2026-03-03 10:26:43
老人睡工地3年工头从不赶他,工程完工那天,他对工头说去见个人

老人睡工地3年工头从不赶他,工程完工那天,他对工头说去见个人

流萤叙情
2025-08-20 18:24:36
49岁林心如断崖式衰老,当年的紫薇格格也老了,脸变长 抬头纹好多

49岁林心如断崖式衰老,当年的紫薇格格也老了,脸变长 抬头纹好多

陈意小可爱
2026-03-01 00:49:59
鸿蒙智行处罚违规营销门店

鸿蒙智行处罚违规营销门店

每日经济新闻
2026-03-02 17:08:50
六十年前三线建设曾被质疑,如今看来,毛主席的决策显现深远智慧

六十年前三线建设曾被质疑,如今看来,毛主席的决策显现深远智慧

老踝是个手艺人
2026-02-23 17:26:29
五周之约与地面行动:针对伊朗的“重大机会”与叙事断层风险

五周之约与地面行动:针对伊朗的“重大机会”与叙事断层风险

枫叶君评
2026-03-03 10:03:52
沉默整整9天,毛宁一锤定音,中美战机已交手,美方要见中国代表

沉默整整9天,毛宁一锤定音,中美战机已交手,美方要见中国代表

丁羂解说
2026-02-26 14:31:05
最后一次!英超一周双赛,利物浦大胜可进前三,切尔西或降至第七

最后一次!英超一周双赛,利物浦大胜可进前三,切尔西或降至第七

嗨皮看球
2026-03-03 10:35:10
不可错过!3月3日中午12:00比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月3日中午12:00比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-03 10:48:02
表面是演员,实际职务却高到吓人,这四位明星个个“深藏不露”

表面是演员,实际职务却高到吓人,这四位明星个个“深藏不露”

丁丁鲤史纪
2026-03-02 15:06:53
有人痛批,有人竟逆风“倒戈”?特朗普极限开战,意外逼出民主党隐藏20年的政治旧疤

有人痛批,有人竟逆风“倒戈”?特朗普极限开战,意外逼出民主党隐藏20年的政治旧疤

爱下厨的阿酾
2026-03-02 19:59:04
金华这25个男男女女被曝光,全部不打码!你认识吗?最新大曝光来了

金华这25个男男女女被曝光,全部不打码!你认识吗?最新大曝光来了

最金华
2026-03-02 22:44:42
国家安全部:NFC可能成为信息泄露乃至危害国家安全的渠道

国家安全部:NFC可能成为信息泄露乃至危害国家安全的渠道

上观新闻
2026-02-02 07:09:04
为啥到了川西,要勤洗手,不玩狗?有啥科学解释?

为啥到了川西,要勤洗手,不玩狗?有啥科学解释?

向航说
2026-02-28 00:35:03
首次曝光!小米机器人给小米汽车安装车标:一气呵成 还会先撕膜

首次曝光!小米机器人给小米汽车安装车标:一气呵成 还会先撕膜

快科技
2026-03-02 15:23:16
众星被困中东进展!李茂7000租车逃离,周雨彤回京,黄渤惊险避坑

众星被困中东进展!李茂7000租车逃离,周雨彤回京,黄渤惊险避坑

喜欢历史的阿繁
2026-03-03 01:19:54
美军航母遭袭致560名伤亡,特朗普态度突变

美军航母遭袭致560名伤亡,特朗普态度突变

负面黑洞
2026-03-03 09:31:55
如果毛主席没有写出《沁园春·雪》,他还可以靠哪首词名扬天下?

如果毛主席没有写出《沁园春·雪》,他还可以靠哪首词名扬天下?

优趣纪史记
2026-03-02 19:04:55
2026-03-03 11:43:00
未尽研究 incentive-icons
未尽研究
新能源、人工智能、合成生物、地缘X
319文章数 62关注度
往期回顾 全部

科技要闻

手机AI在MWC上卷出了新高度

头条要闻

牛弹琴:多国对轰炸保持沉默 西班牙首相确实是条汉子

头条要闻

牛弹琴:多国对轰炸保持沉默 西班牙首相确实是条汉子

体育要闻

35轮后积分-7,他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫:喊话薛之谦给张杰道歉

财经要闻

霍尔木兹海峡近乎停摆 布油直逼80美元

汽车要闻

长安汽车2月销量151922辆 环比逆势增长12.8%

态度原创

健康
家居
亲子
艺术
游戏

转头就晕的耳石症,能开车上班吗?

家居要闻

万物互联 享科技福祉

亲子要闻

科普|带您认识儿童小肠增强CT检查

艺术要闻

Nihad Aghazada:当代阿塞拜疆画家

任天堂压抑了!官号盛赞《生化危机9》里昂:好性感

无障碍浏览 进入关怀版