网易首页 > 网易号 > 正文 申请入驻

开源模型大突破!DeepSeek-V3.2追平GPT-5-High,三招揭秘

0
分享至

哈喽,大家好,杆哥这篇评论,主要来分析开源模型大突破!DeepSeek-V3.2追平GPT-5-High,三招揭秘

开源大模型领域最近炸了锅,DeepSeek-V3.2交出了一份亮眼成绩单。它的推理能力直接追平GPT-5-High,高算力版DeepSeek-V3.2-Speciale更在2025年IMO和IOI竞赛中斩获金牌



推理能力逼近Gemini-3.0-Pro。这份来自《DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models》报告的成果,靠的可不是运气,而是三大核心创新。

创新一:DSA稀疏注意力,破解长文本计算难题

传统大模型处理长文本时总掉链子,根源在注意力机制的计算复杂度是O(L²),文本长度翻10倍,计算量就翻100倍。这也是多数模型上下文超不过128k的原因。



DeepSeek的DSA稀疏注意力机制解决了这个问题,核心是让每个词只关注最相关的2048个词,把复杂度降到O(Lk)。它分两步实现:先靠轻量的闪电索引器快速打分筛选,再对top-k词元做精准计算。



经过两阶段训练后,128K长度处理成本不再爆炸增长,ChatbotArena评分还和旧版持平,长上下文评测甚至更优。



创新二:后训练加码10%,激进策略提性能

过去开源模型后训练投入不足,很难啃下硬骨头。DeepSeek反其道而行之,把后训练计算预算提至预训练的10%以上,堪称激进。



流程分两步:先为数学、编程等六个领域训练专家模型,用这些专家生成数据;再通过混合RL训练合并三类任务,还用上了GRPO算法。

为保证稳定,团队还优化了四个技巧,比如修正KL估计避免梯度异常,_mask掉不相关负样本,有效防止了多阶段训练的遗忘问题。

创新三:1800个合成环境,补全泛化能力短板

大模型在智能体场景泛化差,关键是缺少多样训练环境。DeepSeek的解法是自己合成数据,最终做出1827个环境和85000个任务。



合成流程很智能,以旅行规划为例,agent会先拉数据、做工具函数,再从简单任务迭代到复杂任务,不够用还会扩展工具集。

消融实验证明了效果:仅用合成的通用智能体数据做RL,在多个基准测试中显著提升,而单靠代码和搜索数据则无效。

成绩与短板:亮眼背后的现实

成绩确实硬核,标准版追平GPT-5-High,高算力版拿竞赛金牌。但短板也很明显,token效率偏低。



Codeforces数据显示,Gemini-3.0-Pro用22k tokens拿2708分,而DeepSeek-V3.2-Speciale要77k tokens才拿2701分。

团队也坦诚,在世界知识广度、顶尖复杂任务处理上,和Gemini-3.0-Pro还有差距,核心还是算力限制。但在有限资源下,这套技术路线无疑为开源模型指明了突围方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
叶选宁为何是“红二代”里的老大哥?邓朴方的一句评价,十分经典

叶选宁为何是“红二代”里的老大哥?邓朴方的一句评价,十分经典

顾史
2026-03-03 18:44:51
葬在我国龙脉上的三个人:一个挖不开,一个不敢挖,一个不能挖

葬在我国龙脉上的三个人:一个挖不开,一个不敢挖,一个不能挖

诺言卿史录
2026-03-05 09:08:12
半导体重大突破!人类首次观察到芯片内部“鼠咬”缺陷

半导体重大突破!人类首次观察到芯片内部“鼠咬”缺陷

快科技
2026-03-04 12:50:11
当年活捉蒋介石的孙铭九营长,在西安事变结束后:解放后怎样了?

当年活捉蒋介石的孙铭九营长,在西安事变结束后:解放后怎样了?

大运河时空
2026-03-05 11:15:03
台湾全天连播《甄嬛传》,台籍代表:两岸历史文化有天然情感共鸣

台湾全天连播《甄嬛传》,台籍代表:两岸历史文化有天然情感共鸣

海峡导报社
2026-03-05 11:42:12
不可错过!3月6日早上09:00比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月6日早上09:00比赛!中央5套CCTV5、CCTV5+直播表

林子说事
2026-03-06 10:11:22
全国人大代表、海尔集团董事局主席周云杰透露《海尔兄弟》续集将于2027年春节推出,继续沿用原有二维形象,会增加一个新角色

全国人大代表、海尔集团董事局主席周云杰透露《海尔兄弟》续集将于2027年春节推出,继续沿用原有二维形象,会增加一个新角色

潇湘晨报
2026-03-06 13:00:40
央视怒批,目不识丁、洋相百出,难怪两会上冯远征建议演员多学习

央视怒批,目不识丁、洋相百出,难怪两会上冯远征建议演员多学习

仙味少女心
2026-03-05 17:30:43
三角洲主播直播毁号,整个国内游戏圈掀起了正义讨伐

三角洲主播直播毁号,整个国内游戏圈掀起了正义讨伐

3DM游戏
2026-03-05 13:22:11
360周鸿祎眼睛换上人工晶体:摘掉眼镜是为了戴AI眼镜

360周鸿祎眼睛换上人工晶体:摘掉眼镜是为了戴AI眼镜

IT之家
2026-03-05 11:02:08
林青霞亲口爆料:当年我全裸给他看,他却吓得扭头就跑!

林青霞亲口爆料:当年我全裸给他看,他却吓得扭头就跑!

达文西看世界
2026-03-04 15:07:30
中东撤侨现场:台湾人当场破防,没有台胞证的人就只能眼睁睁看着

中东撤侨现场:台湾人当场破防,没有台胞证的人就只能眼睁睁看着

像梦一场a
2026-03-05 17:40:45
NBA马刺队球星文班亚马以惊人速度量产盖帽,超越约基奇近在咫尺

NBA马刺队球星文班亚马以惊人速度量产盖帽,超越约基奇近在咫尺

冷桂零落
2026-03-06 13:47:21
全球只有5位领导人被永久保留遗体,他们都是谁

全球只有5位领导人被永久保留遗体,他们都是谁

扶苏聊历史
2026-01-29 16:13:42
特朗普神操作!当众聊轰炸德黑兰+当面提C罗 梅西脚趾抠地全网爆火

特朗普神操作!当众聊轰炸德黑兰+当面提C罗 梅西脚趾抠地全网爆火

劲爆体坛
2026-03-06 08:50:03
2度电电池敢要2万多?丰田混动换电池贵的真相,根本不是割韭菜

2度电电池敢要2万多?丰田混动换电池贵的真相,根本不是割韭菜

华庭讲美食
2026-03-05 17:54:15
向中国要1250亿,中方拒绝西方急了,COP30上我们没义务当冤大头

向中国要1250亿,中方拒绝西方急了,COP30上我们没义务当冤大头

爱吃醋的猫咪
2026-01-03 20:24:16
男性长期禁欲,精子只产不排,最后会怎样?医生:或有4大后果

男性长期禁欲,精子只产不排,最后会怎样?医生:或有4大后果

健康之光
2026-03-06 13:11:59
被称为“中国最大忽悠”的贾跃亭,似乎要翻身了。

被称为“中国最大忽悠”的贾跃亭,似乎要翻身了。

流苏晚晴
2026-02-19 16:19:47
掘金战胜湖人的庆功宴,詹姆斯不到场,约基奇也不敢动筷子

掘金战胜湖人的庆功宴,詹姆斯不到场,约基奇也不敢动筷子

姜大叔侃球
2026-03-06 14:51:28
2026-03-06 15:04:49
华史谈
华史谈
历史是镜,照亮前行之路,铭记过往,方能迎接未来
2511文章数 53关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

伊军指挥官:这几天只是清库存 会亮从未公开的大杀器

头条要闻

伊军指挥官:这几天只是清库存 会亮从未公开的大杀器

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

黄金,牛市没了?!

汽车要闻

710km长续航+闪充 宋Ultra EV预售15.5万起

态度原创

本地
游戏
时尚
旅游
公开课

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

全球唯一!“任天堂PS”原型机入藏电子游戏博物馆

看来看去还是这些穿搭最高级,不老套、不死板,舒适又显气质

旅游要闻

【微特稿】连续6年赤字 德国科隆大教堂将收门票

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版