网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

突发！DeepSeek一口气连发2个新模型

2025-12-01 21:49:54　来源: 新浪财经

河北举报

0

分享至

来源：市场资讯

　　来源：量子位

　　突袭！

　　ChatGPT发布三周年，DeepSeek嚯一下发出两个模型：

DeepSeek-V3.2
DeepSeek-V3.2-Speciale

　　前者聚焦平衡实用，适用于日常问答、通用Agent任务、真实应用场景下的工具调用。

　　推理达GPT-5水平，略低于Gemini-3.0-Pro。

　　后者主打极致推理，推理基准性能媲美Gemini-3.0-Pro。

　　还一把斩获IMO 2025、CMO 2025、ICPC World Finals 2025、IOI 2025金牌。

　　划重点，ICPC达到人类选手第二、IOI人类选手第十名水平。

　　具体来说，DeepSeek-V3.2侧重于平衡推理能力与输出长度，降低计算开销。

　　DeepSeek官微推文中写道，“DeepSeek-V3.2模型在Agent评测中达到了当前开源模型的最高水平”。

　　该模型其他情况如下：

推理能力比肩GPT-5；
相比Kimi-K2-Thinking大幅缩短输出长度，减少用户等待时间；
DeepSeek旗下首个“思考融入工具调用” 的模型，支持思考/非思考双模式工具调用；
基于1800+环境、85000+复杂指令的大规模Agent训练数据，泛化能力强。

　　下图展示的是DeepSeek-V3.2与其他模型在各类Agent工具调用评测集上的得分

　　——特别强调，DeepSeek-V3.2并没有针对这些测试集的工具做特殊训练。

　　DeepSeek-V3.2-Speciale是DeepSeek-V3.2的长思考增强版，融合了DeepSeek-Math-V2的定理证明能力。

　　在指令跟随、数学证明、逻辑验证方面，DeepSeek-V3.2-Speciale能力出众，推荐用来完成高度复杂数学推理、编程竞赛、学术研究类任务。

　　特别注明！这个版本目前没有针对日常对话与写作做专项优化。

　　而且仅供研究使用，不支持工具调用。

　　在高度复杂任务上，Speciale模型大幅优于标准版本，但消耗的Tokens也显著更多，成本更高。

　　目前，DeepSeek的App和Web端，都已经更新为正式版DeepSeek-V3.2；Speciale版本目前仅供临时API使用。

　　模型发布同时，技术报告也已经挂出来了。

　　论文里透露的技术细节相当硬核：

　　新的稀疏注意力机制DSA大幅降低计算复杂度，强化学习训练的计算量超过预训练的10%，还有全新的大规模Agent任务合成管线……

　　具体情况，我们详细来看。

　　提出DSA高效稀疏注意力机制，长文本不再是负担

　　DeepSeek-V3.2最大的架构创新是引入了DSA（DeepSeek Sparse Attention）机制。

　　传统的注意力机制在处理长序列时计算复杂度是O（L²），严重制约了模型的部署效率和后续训练的可扩展性。

　　DSA让计算复杂度降低到O（L·k），k远小于L。

　　与此同时，DSA让模型在长上下文任务中显著加速推理，且无明显性能损失。

　　支持FP8精度，适配MLA（Multi-Query Attention）架构，训练友好。

　　怎么做到的？

　　DSA主要包含两个组件，一个叫lightning indexer（闪电索引器），另一个叫fine-grained token selection（细粒度token选择）机制。

　　闪电索引器负责快速计算查询token和历史token之间的相关性分数，然后只选择top-k个最相关的token进行注意力计算。

　　团队特意选用了ReLU激活函数来提升吞吐量。

　　DeepSeek-V3.1-Terminus开始继续训练时，团队采用了两阶段策略。

　　第一阶段是Dense Warm-up，保持密集注意力，只训练lightning indexer，让它学会对齐主注意力的分布。

　　这个阶段只用了1000步，处理了21亿个tokens。

　　第二阶段才引入稀疏机制，每个查询token选择2048个键值对，训练了15000步，总共处理了9437亿个tokens。

　　实测效果相当给力——

　　在128k长度的序列上，DeepSeek-V3.2的推理成本比V3.1-Terminus降低了好几倍。

　　H800集群上的测试显示，当序列长度达到128K时，预填充阶段每百万token的成本从0.7美元降到了0.2美元左右，解码阶段从2.4美元降到了0.8美元。

　　后训练算力超过预训练的10%

　　值得注意的是，DeepSeek团队这次在强化学习上下了血本。

　　论文里明确提到，RL训练的计算预算已经超过了预训练成本的10%，这在开源模型里相当罕见。

　　DeepSeek在技术报告中提到，开源模型在post-training阶段的计算资源投入不足，限制了其在困难任务上的性能。

　　为此，团队开发了稳定、可扩展的RL协议，使训练后阶段的计算预算超过了预训练成本的10%，从而解锁了模型的先进能力。

　　展开讲讲——

　　为了稳定地扩展RL计算规模，团队在GRPO（Group Relative Policy Optimization）算法基础上做了好几项改进。

　　首先是无偏KL估计，修正了原始的K3估计器，消除了系统性误差。

　　原来的估计器在某些情况下会给出无界的梯度权重，导致训练不稳定。

　　其次是离线序列掩码策略。

　　在实际训练中，为了提高效率通常会生成大批量的rollout数据，然后分成多个mini-batch进行梯度更新。这种做法本身就引入了off-policy行为。

　　团队通过计算数据采样策略和当前策略之间的KL散度，把那些偏离太远的负样本序列给mask掉，避免它们干扰训练。

　　团队还特别针对MoE模型设计了Keep Routing操作。

　　推理框架和训练框架的实现差异可能导致同样的输入激活不同的专家，这会造成参数空间的突变。通过保存推理时的路由路径并在训练时强制使用相同路径，确保了参数优化的一致性。

　　在具体训练上，团队采用了专家蒸馏的策略。

　　先为每个任务训练专门的模型，包括数学、编程、通用逻辑推理、通用Agent任务、Agent编程和Agent搜索这6个领域，每个领域都支持思考和非思考两种模式。

　　然后用这些专家模型生成特定领域的数据来训练最终模型。

　　Agent能力的突破

　　此外，此次新模型在Agent任务上的突破也让人眼前一亮。

　　这次团队找到了让模型同时具备推理和工具使用能力的方法。

　　在思考上下文管理方面，团队发现DeepSeek-R1那种每次开启新对话就丢弃推理内容的策略，实在是太——浪费token了。

　　于是设计了新的管理机制：

　　只有在引入新的用户消息时才丢弃历史推理内容，如果只是添加工具相关消息，推理内容会被保留。即使推理痕迹被删除，工具调用历史和结果也会保留在上下文中。

　　冷启动阶段，DeepSeek-V3.2团队采用了巧妙的prompt设计。

　　团队通过精心设计的系统提示，让模型学会在推理过程中自然地插入工具调用。

　　比如在处理编程竞赛题目时，系统会明确要求模型先思考再给出答案，并用特殊标签标记推理路径。

　　最硬核的是团队开发了一个自动环境合成pipeline，生成了1827个任务导向的环境和85000个复杂提示。

　　以旅行规划为例，模型需要在满足各种约束条件下规划三天的行程，包括不重复城市、根据酒店价格调整餐厅和景点预算等复杂逻辑。

　　虽然在巨大的组合空间中找到满足所有约束的方案很困难，但验证给定方案是否满足约束相对简单，这种”难解易验”的特性非常适合RL训练。

　　在代码Agent方面，团队从GitHub挖掘了数百万个issue-PR对，经过严格筛选和自动环境构建，成功搭建了数万个可执行的软件问题解决环境，涵盖Python、Java、JavaScript等多种语言。

　　搜索Agent则采用多Agentpipeline生成训练数据，先从大规模网络语料中采样长尾实体，再通过问题构建、答案生成和验证等步骤产生高质量数据。

　　评测结果显示，DeepSeek-V3.2在SWE-Verified上达到73.1%的解决率，在Terminal Bench 2.0上准确率46.4%，都大幅超越了现有开源模型。

　　在MCP-Universe和Tool-Decathlon等工具使用基准测试上，DeepSeek-V3.2也展现出了接近闭源模型的性能。

　　这些提升，证明了模型能够将推理策略泛化到训练时未见过的Agent场景。

　　One More Thing

　　技术报告最后，研究人员坦诚地指出了一些局限性。

　　由于总训练FLOPs较少，DeepSeek-V3.2的世界知识广度仍落后于领先的闭源模型。

　　Token效率也是个挑战。通常情况下，本次上新的两个模型需要生成更长的轨迹，才能达到Gemini-3.0-Pro的输出质量。

　　但团队发话了，这些都是未来版本的改进方向。

　　不过——

　　DeepSeek啊DeepSeek，我们心心念念的R2，什么时候给抬上来啊！！！！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

15%全量Attention！「RTPurbo」阿里Qwen3长文本推理5倍压缩方案

机器之心Pro 2025-12-23 12:52:34
0 跟贴 0
当模型开始长出平台：MiniMax的转身时刻

华尔街见闻官方 2026-03-02 19:18:03
0 跟贴 0

人大&通义：IterResearch用40K上下文轻松实现2048轮交互不退化

机器之心Pro 2026-03-02 19:18:23
0 跟贴 0

闫俊杰定调2026年AI胜负手

智东西 2026-03-03 00:25:13
0 跟贴 0
语音指令识别错误，夜间高速关大灯致车祸！智能便利还是致命隐患

丹哥热评 2026-02-28 17:23:06
33 跟贴 33

MiniMax电话会：围绕“全模态”与“高质量”，告别单纯“卷模型”，向AI平台生态演进

华尔街见闻官方 2026-03-02 21:45:36
0 跟贴 0

架构解耦是统一多模态模型所必须的吗？全新AIA损失：No

机器之心Pro 2025-12-02 14:25:38
0 跟贴 0
宁波一旅游团所乘邮轮滞留迪拜，船上有约200名中国游客

上观新闻 2026-03-02 16:05:11
1234 跟贴 1234

编程奇点逼近，程序员斩杀线就在眼前！软件版YouTube时刻在发生

新智元 2026-03-02 20:14:21
0 跟贴 0
围绕美以袭击伊朗，蔡正元分享“精准预判”的思考逻辑，值得一听

搞笑龙眼 2026-03-03 05:36:08
0 跟贴 0
Alec Radford新作：给大模型做脑部手术，知识重学成本暴增7000倍

机器之心Pro 2026-03-02 14:24:39
0 跟贴 0
为什么猫的形状没有狗多?

果壳 2026-02-27 20:16:19
214 跟贴 214
上交大和辉羲把LLM刻进ROM！推理性能冲2万token/s，GPU时代终结？

新智元 2026-03-02 17:08:30
79 跟贴 79
DPO「只看总分不看细节」？TI-DPO用Token重要性重塑大模型对齐

机器之心Pro 2026-02-11 13:45:57
0 跟贴 0
GPT-5.4据传下周上线！200万上下文窗口+持久化状态，告别频繁遗忘

新智元 2026-03-02 12:34:52
7 跟贴 7
全球首份大模型业绩报！MiniMax预判2026三大超级PMF

量子位 2026-03-03 11:15:51
0 跟贴 0
字节Seed团队发布循环语言模型Ouro，在预训练阶段直接「思考」

机器之心Pro 2025-11-04 11:58:36
0 跟贴 0
男子爬到何仙姑雕像头顶拍照，山东蓬莱阁景区回应：“八仙过海”石雕属于公共区域无人值守，后续会加强巡逻

三湘都市报 2026-02-28 13:37:39
1179 跟贴 1179
从匹配困境到推理突破：阿里REG4Rec 激活生成式推荐的个性化潜力

机器之心Pro 2026-03-02 16:10:32
0 跟贴 0
热钱追逐，具身智能要先过异构计算这一关丨ToB产业观察

钛媒体APP 2026-03-02 13:18:09
0 跟贴 0
上海多个售楼处人气爆棚，豪宅项目认购翻倍增长

究竟视频 2026-03-03 07:31:32
12 跟贴 12
退休局长和舞伴相处，美女发出指令让大爷心急，欲擒故纵拿捏住了

中先生搞笑 2026-03-02 11:23:16
1 跟贴 1
谷歌AI攻克6道世界级难题，比IMO金牌更震撼！陶哲轩指明新玩法

新智元 2026-03-01 09:08:07
92 跟贴 92
硅谷AI公司的组织革命：从Anthropic到Cursor，效率从哪来？

钛媒体APP 2026-03-02 19:18:12
19 跟贴 19
CL-Bench的故事没有结束，生成式CL-Bench：GENIUS来了

机器之心Pro 2026-03-02 17:46:26
0 跟贴 0
英伟达护城河被AI攻破，字节清华CUDA Agent，让人人能搓CUDA内核

机器之心Pro 2026-03-03 11:00:27
0 跟贴 0
港科大×字节跳动Seed提出WMPO，在世界模型中进行VLA强化学习

机器之心Pro 2026-03-02 14:34:29
0 跟贴 0
年前100多元一斤，年后价格腰斩！有湖北人已迫不及待下单

环球网资讯 2026-02-27 09:52:19
525 跟贴 525
美团杀入AI浏览器！

智东西 2026-03-02 20:12:12
0 跟贴 0
MIT新方法让两颗芯片共享唯一“指纹”，重写硬件安全规则

DeepTech深科技 2026-02-25 17:32:10
13 跟贴 13
下棋中路抢攻策略

青树柠檬q 2026-03-02 08:52:15
0 跟贴 0
支持远程操控和通用GUI操作3

机器之心Pro 2026-03-02 13:36:13
0 跟贴 0
20万以内买油车还是电车，啥都不用看，只说一点逻辑你就懂了

领笑之家 2026-02-27 16:54:58
15 跟贴 15
三维空间太难懂？2

机器之心Pro 2025-12-31 13:49:19
0 跟贴 0
福州海天盛宴mini自助火锅宣布暂停营业

海峡网 2026-03-03 07:25:00
24 跟贴 24
欧洲天然气价格涨幅扩大至42%，创2022年3月以来最大涨幅

每日经济新闻 2026-03-02 20:22:09
466 跟贴 466
撕开 6G 演进的底牌，MWC 2026 ：算力夺权、频谱极限与开源暗战

钛媒体APP 2026-03-02 16:49:07
1 跟贴 1
小鹏的“DeepSeek时刻”已经来了？

智趣财经 2026-03-02 18:49:48
0 跟贴 0
涡轮风扇发动机模型套件(1)

制造科技 2026-02-27 19:30:03
0 跟贴 0
刚下飞机行李就没了！杭州姑娘花10多万去南极旅游却崩溃：衣物全靠借

环球网资讯 2026-03-03 08:53:57
6 跟贴 6

美国“无法接受”，马斯克赞不绝口，这位中国年轻人实在强得可怕

美国“无法接受”，马斯克赞不绝口，这位中国年轻人实在强得可怕

卷史

2026-02-27 19:40:42

鸿蒙智行处罚违规营销门店

每日经济新闻

2026-03-02 17:08:50

这个死磕王楚钦的裁判，决赛就没让她上场

这个死磕王楚钦的裁判，决赛就没让她上场

杨仔述

2026-03-02 11:13:02

小酒窝送董璇老师拉布布！满墙手办价值百万，毫无张维伊生活痕迹

小酒窝送董璇老师拉布布！满墙手办价值百万，毫无张维伊生活痕迹

查尔菲的笔记

2026-03-02 19:11:48

美国终于开始害怕？比稀土更致命王牌出手了，万斯：中国要冷静

美国终于开始害怕？比稀土更致命王牌出手了，万斯：中国要冷静

让生活充满温暖

2026-03-01 22:15:10

苹果紧急关闭5家线下直营店！

果粉之家

2026-03-02 12:54:11

伊拉克民兵组织称袭击巴格达机场内美军目标

伊拉克民兵组织称袭击巴格达机场内美军目标

界面新闻

2026-03-02 11:14:08

迪拜机场被炸！300万天价机票，每一张都是逃生船票、逃命符

迪拜机场被炸！300万天价机票，每一张都是逃生船票、逃命符

王姐懒人家常菜

2026-03-03 07:49:00

过去100年，美国搞垮了4个世界老二，第5个或将反手干掉美国！

过去100年，美国搞垮了4个世界老二，第5个或将反手干掉美国！

苏大强专栏

2024-07-20 13:22:14

老人睡工地3年工头从不赶他,工程完工那天,他对工头说去见个人

老人睡工地3年工头从不赶他,工程完工那天,他对工头说去见个人

流萤叙情

2025-08-20 18:24:36

河南一豫剧团冒雪坚持演出2小时，台下观众寥寥，却有3万网友在线围观

河南一豫剧团冒雪坚持演出2小时，台下观众寥寥，却有3万网友在线围观

环球网资讯

2026-03-02 17:46:01

南京明孝陵博物馆门口朱元璋玩偶眼睛被指像美元符号，马皇后玩偶光脚形象引争议，工作人员：系文创产品，绝非有意丑化历史人物

南京明孝陵博物馆门口朱元璋玩偶眼睛被指像美元符号，马皇后玩偶光脚形象引争议，工作人员：系文创产品，绝非有意丑化历史人物

大风新闻

2026-02-28 15:34:00

美军航母遭袭致560名伤亡，特朗普态度突变

美军航母遭袭致560名伤亡，特朗普态度突变

负面黑洞

2026-03-03 09:31:55

不可错过！3月3日中午12:00比赛！中央5套CCTV5、CCTV5+直播表

不可错过！3月3日中午12:00比赛！中央5套CCTV5、CCTV5+直播表

皮皮观天下

2026-03-03 10:48:02

哈梅内伊之死和伊朗性史

哲空空

2026-03-01 11:14:17

英法德：准备“从源头摧毁”伊朗军事能力

英法德：准备“从源头摧毁”伊朗军事能力

参考消息

2026-03-02 13:10:34

河南小伙在非洲16年，当地一夫多妻制，男人只用玩，女人挣钱养家

河南小伙在非洲16年，当地一夫多妻制，男人只用玩，女人挣钱养家

大鱼简科

2026-02-07 16:50:52

清华大学副校长：要求大一至大三学生每学期至少完成24次课外锻炼不会游泳不能毕业

清华大学副校长：要求大一至大三学生每学期至少完成24次课外锻炼不会游泳不能毕业

红星新闻

2026-02-27 16:40:25

一家4口爬山祈福，33岁妻子坠亡，死者父亲称已完成尸检，丈夫最新回应质疑：带儿女山顶屋内休息，20分钟后人就不见了

一家4口爬山祈福，33岁妻子坠亡，死者父亲称已完成尸检，丈夫最新回应质疑：带儿女山顶屋内休息，20分钟后人就不见了

都市快报橙柿互动

2026-03-02 11:43:55

续航1036km！比亚迪新车官宣：3月5日，正式亮相

续航1036km！比亚迪新车官宣：3月5日，正式亮相

高科技爱好者

2026-03-02 23:13:22

新浪财经是一家创建于1999年8月的财经平台

2321437文章数 5652关注度

往期回顾全部

科技要闻

手机AI在MWC上卷出了新高度

头条要闻

牛弹琴：多国对轰炸保持沉默西班牙首相确实是条汉子

头条要闻

牛弹琴：多国对轰炸保持沉默西班牙首相确实是条汉子

体育要闻

35轮后积分-7，他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫：喊话薛之谦给张杰道歉

财经要闻

霍尔木兹海峡近乎停摆布油直逼80美元

汽车要闻

长安汽车2月销量151922辆环比逆势增长12.8%

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

亲子

时尚

旅游

公开课

本地新闻

食味印象｜一口入魂！康乐烤肉串起千年丝路香

亲子要闻

科普｜带您认识儿童小肠增强CT检查

普通人穿衣真的很简单！单品选对、搭配合理，大方舒适又得体

旅游要闻

青海海西州：文旅市场“业态更新”现活力

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版