网易首页 > 网易号 > 正文 申请入驻

DeepSeek又上新!模型硬刚谷歌,承认开源与闭源差距拉大

0
分享至

12月1日晚,DeepSeek又上新了两款新模型,DeepSeek-V3.2和DeepSeek-V3.2-Speciale,在推理能力上全球领先。


两款模型有着不同的定位。DeepSeek-V3.2的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用智能体任务场景。9月底DeepSeek发布了实验版V3.2-Exp,此次是正式版更新。在公开推理测试中,V3.2达到了GPT-5的水平,仅略低于谷歌的Gemini3 Pro。

DeepSeek-V3.2-Speciale则是此次的重头戏,其目标是“将开源模型的推理能力推向极致,探索模型能力的边界”。据介绍,Speciale是V3.2的长思考增强版,同时结合了DeepSeek-Math-V2的定理证明能力,该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力。

据DeepSeek公布的数据,Speciale在多个推理基准测试中超越谷歌最先进的Gemini3 Pro。具体来看,在美国数学邀请赛、哈佛MIT数学竞赛、国际奥林匹克数学竞赛等测试中,V3.2-Speciale都超过了Gemini3 Pro,但在编程、理工科博士生测试中略逊于谷歌。


同时,Speciale模型斩获了IMO(国际数学奥林匹克)、ICPC World Finals(国际大学生程序设计竞赛全球总决赛)及IOI(国际信息学奥林匹克)金牌。其中,ICPC 与 IOI 成绩分别达到了人类选手第二名与第十名的水平。

尽管取得了这些成就,但在技术报告中,DeepSeek承认,与Gemini3 Pro等前沿闭源模型相比,自家模型仍存在一定的局限性。首先,V3.2的世界知识广度仍落后于领先的专有模型,其次在令牌(Token)效率方面,V3.2通常需要更多的令牌才能达到像Gemini3 Pro这样的模型输出质量。在解决复杂任务方面也不如前沿模型。

DeepSeek称,团队计划在未来通过增加预训练计算量来填补知识空白,并专注于优化模型推理链的智能密度以提高效率,进一步改进基础模型和训练后方案。

值得一提的是,在技术报告中,DeepSeek还谈到当前开源与闭源模型的差距在拉大。

DeepSeek表示,推理模型的发布是大模型发展的关键转折点,推动了整体性能的大幅跃升。自这一里程碑事件以来,大模型能力在快速发展。然而,过去几个月中出现了明显的分化:尽管开源圈持续取得进步,但闭源专有模型如海外谷歌、OpenAI、Anthropic的性能增长速度却显著更快。

“闭源模型与开源模型之间的性能差距并未缩小,反而日益扩大,专有系统在复杂任务中展现出越来越强的优势。”DeepSeek认为,其中有三个关键的缺陷。

一方面,在架构层面,对标准注意力机制的过度依赖严重制约了长序列处理的效率;其次,在资源分配方面,开源模型在后训练阶段的计算投入不足,限制了模型在高难度任务上的表现;最后,在AI智能体领域,开源模型在泛化能力和指令遵循能力上与专业模型相比存在明显差距,影响实际部署效果。

为了突破这些限制,DeepSeek在9月底发布实验版V3.2-Exp时,提出了稀疏注意力机制(DSA),希望大幅降低计算复杂度。在经过两个月的实验后,DeepSeek确认了稀疏注意力机制的有效性,并表示,在不牺牲长上下文性能的前提下,团队解决了关键的计算复杂性问题。

此次发布的两款模型均引入了这一机制。据DeepSeek,除了在多个推理基准测试中,V3.2的性能大幅提升外,在智能体场景中,V3.2也成为一种具有成本效益的替代方案,不仅缩小了开源模型与前沿专有模型之间的性能差距,成本也显著降低。

目前,DeepSeek的官方网页端、App 和 API 均已更新为正式版 DeepSeek-V3.2,但增强的Speciale版本目前仅以临时API服务形式开放,供社区评测与研究。

在海外社媒上,有网友认为,DeepSeek 此次发布是了不起的成就,“匹配 GPT-5和Gemini3 Pro的开源模型出现了,差距正式消除。”DeepSeek不断证明,严谨的工程设计可以超越单纯的参数规模。但如同DeepSeek所述的那样,我们仍需正视开源与闭源在整体性能上的差距,不断突破开源的边界。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
猴票从120万天价到3025元竞拍价,集邮大军老去,年轻人不玩了

猴票从120万天价到3025元竞拍价,集邮大军老去,年轻人不玩了

瓜哥的动物日记
2026-03-02 15:51:49
当你接触的人多了,你会明白:如果一个人还在穿5年前的衣服,只说明3个问题

当你接触的人多了,你会明白:如果一个人还在穿5年前的衣服,只说明3个问题

LULU生活家
2026-01-16 18:51:53
上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

静若梨花
2026-03-01 16:25:46
突变!白银大跳水,黄金回落!美股集体下跌!特朗普,最新发声!

突变!白银大跳水,黄金回落!美股集体下跌!特朗普,最新发声!

证券时报e公司
2026-03-02 23:05:14
让你不选我!广厦宝岛内援盛赞胡金秋朱俊龙 若有他男篮想赢很难

让你不选我!广厦宝岛内援盛赞胡金秋朱俊龙 若有他男篮想赢很难

大嘴爵爷侃球
2026-03-02 15:28:51
俄罗斯很聪明,哈梅内伊遇袭后,不到24小时,普京向中方打了电话

俄罗斯很聪明,哈梅内伊遇袭后,不到24小时,普京向中方打了电话

起喜电影
2026-03-03 01:24:05
美俄乌谈崩了,普京新增一要求,扎哈罗娃点名中国:稳住国际局势

美俄乌谈崩了,普京新增一要求,扎哈罗娃点名中国:稳住国际局势

老嘪科普
2026-03-03 02:08:29
悄无声息的从21涨到254,因为一个概念,近一年低调的涨了12倍

悄无声息的从21涨到254,因为一个概念,近一年低调的涨了12倍

有范又有料
2026-03-02 16:16:13
哈梅内伊没有“遇害”

哈梅内伊没有“遇害”

西楼饮月
2026-03-02 22:33:08
中纪委明确:公职人员犯罪符合这些情形可以不开除(含公务员、参公、事业和国企)

中纪委明确:公职人员犯罪符合这些情形可以不开除(含公务员、参公、事业和国企)

微法官
2026-02-28 00:04:56
外交部:一名中国公民在德黑兰遇难 ,对遇难同胞表示哀悼

外交部:一名中国公民在德黑兰遇难 ,对遇难同胞表示哀悼

每日经济新闻
2026-03-02 17:20:01
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
邮轮因中东局势滞留迪拜 船上有约200名中国游客 旅行社称“该想的办法都想了”

邮轮因中东局势滞留迪拜 船上有约200名中国游客 旅行社称“该想的办法都想了”

闪电新闻
2026-03-02 22:20:51
上海旅客讲述迪拜惊魂夜:百余人手机同时响警报,航班再延期

上海旅客讲述迪拜惊魂夜:百余人手机同时响警报,航班再延期

南方都市报
2026-03-02 09:25:52
央妈定调!4大板块爆发,超1.9万亿资金托举牛市

央妈定调!4大板块爆发,超1.9万亿资金托举牛市

慧眼看世界哈哈
2026-03-03 00:29:41
梅婷有过三段婚姻,第一任丈夫是叶挺的孙子叶大鹰,是电影导演

梅婷有过三段婚姻,第一任丈夫是叶挺的孙子叶大鹰,是电影导演

百态人间
2026-03-02 15:16:23
6人将离队?男篮备战世预赛下一阶段,郭士强齐聚三大旅美王牌!

6人将离队?男篮备战世预赛下一阶段,郭士强齐聚三大旅美王牌!

绯雨儿
2026-03-02 11:36:15
哈佛研究揭示:高智商孩子常具两种脸部特征不是迷信是脑科学真相

哈佛研究揭示:高智商孩子常具两种脸部特征不是迷信是脑科学真相

一口娱乐
2026-02-27 12:42:23
突发,美国国防部出手了!

突发,美国国防部出手了!

君临财富
2026-03-02 11:40:17
又有两国加入战场?关键时刻,美媒曝出消息:沙特把中国也骗了?

又有两国加入战场?关键时刻,美媒曝出消息:沙特把中国也骗了?

易昂杨
2026-03-03 01:23:40
2026-03-03 03:31:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
245524文章数 621661关注度
往期回顾 全部

科技要闻

苹果中国官网上线iPhone 17e,4499元起

头条要闻

中国留学生:很多人得知哈梅内伊身亡后 决定尽快撤离

头条要闻

中国留学生:很多人得知哈梅内伊身亡后 决定尽快撤离

体育要闻

“想要我签名吗” 梅西逆转后嘲讽对手主帅

娱乐要闻

李亚鹏与哥哥和解 只有一条真心话短信

财经要闻

油价飙升 美伊冲突将如何搅动全球经济

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

本地
数码
时尚
教育
公开课

本地新闻

津南好·四时总相宜

数码要闻

高通MWC 2026发布多项通信技术,定档2029年开启6G商用

今年春天一定要拥有的4件衣服,太好看了!

教育要闻

特别猛,但在留学生心中存在感很低的英国大学!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版