网易首页 > 网易号 > 正文 申请入驻

DeepSeek上新:开源模型首达IMO金牌水平,AI推理告别“死记硬背”

0
分享至

(文/陈济深 编辑/张广凯)

在OpenAI发布GPT-5.1、谷歌推出Gemini 3系列的背景下,国内AI独角兽DeepSeek虽然迟迟未能带来基座模型的大更新,但也于本周三晚间低调发布了其最新的技术成果DeepSeek-Math-V2。

据官方披露的技术报告显示,DeepSeek-Math-V2拥有685B参数量,专注于提升大语言模型的数学推理与定理证明能力。在多项高难度数学竞赛基准中,该模型交出了一份极具冲击力的成绩单。

首先是顶尖竞赛表现,在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)中,Math-V2均达到了金牌水平。特别是在被称为“数学界炼狱”的普特南(Putnam 2024)数学竞赛中,通过扩展测试计算(Test-time Compute),该模型取得了118分(满分120分)的近乎满分成绩,远超人类选手约90分的历史最高分记录。

其次是基准测试对比,在IMO-ProofBench基准测试的基础集(Basic)上,Math-V2得分接近99%,大幅领先谷歌旗下Gemini DeepThink (IMO Gold) 的89%。

在难度更高的进阶集(Advanced)上,Math-V2得分61.9%,虽然略低于Gemini DeepThink的65.7%,但作为开源模型,其性能已无限接近闭源商用模型的顶尖水平。

此外,团队在论文中透露,在自主构建的91个CNML(中国国家数学实验室)级别问题测试中,Math-V2在代数、几何、数论、组合学和不等式等所有类别中,均超越了GPT-5-Thinking-High和Gemini 2.5-Pro的表现。

从“做题机器”到“严谨数学家”

DeepSeek此次发布的时间点颇为耐人寻味。就在模型开源前不到24小时,前OpenAI首席科学家、AI教父Ilya Sutskever在一场访谈中直言,当前的AI模型更像是一个只会“死记硬背”的做题机器。DeepSeek Math-V2的发布仿佛是一次跨越时空的回应,其核心技术革新正是为了解决Ilya所担忧的“推理假象”问题,展现出一种不再满足于单纯结果正确的技术自觉。

传统的AI训练模式往往陷入“结果导向”的陷阱,即只要最终答案正确就给予模型奖励(Reward)。这种机制容易导致AI产生投机行为,为了获取奖励而猜测答案,即便中间逻辑混乱甚至错误。DeepSeek在技术论文中一针见血地指出,正确的答案并不保证正确的推理。为了根除这种“混子”行为,Math-V2采取了严苛的“死磕过程”策略。模型必须展示清晰、严谨的分步推导过程,只要中间步骤出现逻辑断裂,即便最终结果正确,系统也不会给予正向反馈。这一转变逼迫AI必须真正理解题目逻辑,而非依赖概率上的运气。

为了精准评估这些复杂的推理步骤,DeepSeek独创了一套多层级的“元验证”(Meta-Verification)机制。在以往的训练中,给AI的解题步骤打分是一项极具挑战的任务,单一的AI评判者也容易看走眼。为此,团队设计了一种类似“套娃”的监督架构:在AI“学生”做题、AI“老师”批改的基础上,引入了更高层级的“校长”角色来审查判卷的合理性。如果“老师”出现误判,“校长”会进行纠正。这种层层嵌套的监督体系,直接将评分系统的置信度从0.85提升至0.96,极大地保证了训练数据的质量。

更引人注目的是,Math-V2展现出了类似人类“三省吾身”的自我反思能力。在处理高难度定理证明时,模型不再是一路狂奔直达终点,而是像一位严谨的数学家一样,在推理过程中通过测试时间计算(Test-time Compute)进行停顿和自省。一旦发现逻辑漏洞,模型会自主推翻重写,直到逻辑链条无懈可击。这种从盲目计算向深思熟虑的进化,表明通往超级智能的路径并非只有算力的堆叠,更需要这种懂得“回头看”的智慧。

开源生态的强力反击

DeepSeek Math-V2的发布在海外开发者社区引发了强烈反响,被舆论称为“鲸鱼回归(The Whale is back)”。市场分析人士认为,DeepSeek以10个百分点的优势在基础基准上击败谷歌获奖模型,打破了顶级推理模型长期被闭源巨头垄断的局面。

有资深算法工程师对观察者网表示:“DeepSeek验证了‘自验证推理路径’的可行性。数学推理能力是代码生成、科学计算等任务的基石。行业普遍推测,DeepSeek极有可能将这一逻辑验证能力迁移至编程模型(Coding),届时将对现有的代码辅助工具市场产生巨大冲击。”

目前,全球AI大模型正处于从“文本生成”向“逻辑推理”进化的关键窗口期。DeepSeek此次“亮剑”,不仅证明了国产模型在高端算法领域的竞争力,也为开源社区提供了一条清晰的技术演进路线——即通过构建严谨的验证机制,而非单纯堆砌算力,来实现机器智能的质变。

目前DeepSeek新模型的代码与权重已在Hugging Face及GitHub平台完全开源,行业期待其后续在通用旗舰模型上的进一步动作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
超百亿资金灰飞烟灭!加密货币集体“跳水”,比特币较历史高点已“腰斩”

超百亿资金灰飞烟灭!加密货币集体“跳水”,比特币较历史高点已“腰斩”

北京商报
2026-06-03 21:10:13
奚梦瑶婚礼戴婆婆的澳白珍珠项链,赌王送四太的传家宝,寓意十足

奚梦瑶婚礼戴婆婆的澳白珍珠项链,赌王送四太的传家宝,寓意十足

露珠聊影视
2026-06-03 20:17:59
单局21-8成无用功!翁泓阳1-2不敌印度00后,国羽4大主力折损一半

单局21-8成无用功!翁泓阳1-2不敌印度00后,国羽4大主力折损一半

钉钉陌上花开
2026-06-03 19:10:31
跟儿女相处:讲道理是下策,闭嘴是中策,上策你绝对想不到

跟儿女相处:讲道理是下策,闭嘴是中策,上策你绝对想不到

热心市民小黄
2026-06-03 13:30:41
夫妻性生活别急着进入!学会这招“延迟满足”,爽感增倍

夫妻性生活别急着进入!学会这招“延迟满足”,爽感增倍

精彩分享快乐
2026-05-13 12:05:07
首个退群北约的国家来了:已走程序,退意已决!

首个退群北约的国家来了:已走程序,退意已决!

福建睿平
2026-04-27 11:46:08
华为手机618开启清仓模式,从3699元跌至1699元,100W+卫星消息

华为手机618开启清仓模式,从3699元跌至1699元,100W+卫星消息

科技阿维
2026-06-03 21:36:13
F1车手周冠宇代言!凯迪拉克CT5推出限时初心价:19.99万起

F1车手周冠宇代言!凯迪拉克CT5推出限时初心价:19.99万起

快科技
2026-06-02 13:19:13
姐弟恋:从缠绵相拥,走到敷衍摆烂

姐弟恋:从缠绵相拥,走到敷衍摆烂

飛娱日记
2026-04-28 07:19:17
“奶粉第一股”将迎国资入主,盘中一度涨停

“奶粉第一股”将迎国资入主,盘中一度涨停

第一财经资讯
2026-06-03 11:29:58
未来十年最具竞争力城市20强,京沪苏杭第一方阵,合肥、福州逆袭

未来十年最具竞争力城市20强,京沪苏杭第一方阵,合肥、福州逆袭

金卡读城
2026-06-03 21:38:20
每体:曼联愿意为拉什福德做出让步,但巴萨目前优先中锋引援

每体:曼联愿意为拉什福德做出让步,但巴萨目前优先中锋引援

懂球帝
2026-06-03 21:15:10
上海队芦苇被质疑打假球,面对广厦输掉第四场,难道为了门票吗?

上海队芦苇被质疑打假球,面对广厦输掉第四场,难道为了门票吗?

阿信点评
2026-06-03 19:55:59
“今天买到明天生产的面包”!广州一面包店被投诉超前标注,商家称是标签机故障所致

“今天买到明天生产的面包”!广州一面包店被投诉超前标注,商家称是标签机故障所致

极目新闻
2026-06-03 20:15:36
主打油电混动,换装大屏幕,2027款广汽丰田赛那SIENNA还是这么上头!

主打油电混动,换装大屏幕,2027款广汽丰田赛那SIENNA还是这么上头!

车矩阵更懂车
2026-06-03 23:35:42
中方劝告失效,李在明我行我素,向世界宣告,韩国加快引进核潜艇

中方劝告失效,李在明我行我素,向世界宣告,韩国加快引进核潜艇

铁锤简科
2026-05-30 12:42:24
订单爆了!深圳有商家直言:“已排到今年10月份”!

订单爆了!深圳有商家直言:“已排到今年10月份”!

深圳晚报
2026-06-03 12:22:33
紧急!英国政坛“地震”,外长来华求助,中国:先拿出自己的诚意

紧急!英国政坛“地震”,外长来华求助,中国:先拿出自己的诚意

生活魔术专家
2026-06-03 17:22:21
6月5号开始运势超旺!从此大鹏展翅,借势发大财的3个生肖

6月5号开始运势超旺!从此大鹏展翅,借势发大财的3个生肖

毅谈生肖
2026-06-03 11:24:51
本周官宣!利物浦与43岁西班牙名帅签约2年 上任后6300万首签曝光

本周官宣!利物浦与43岁西班牙名帅签约2年 上任后6300万首签曝光

我爱英超
2026-06-03 06:51:58
2026-06-04 00:08:49
观察者网 incentive-icons
观察者网
全球视野,中国关怀
142479文章数 1850734关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

本地
亲子
时尚
健康
公开课

本地新闻

用杨柳青年画的方式,打开天津

亲子要闻

9岁孩童竟患上冠心病!医生说明原因,父母后悔不已……

月经、初潮与生育真相,那些藏在动画片里的性启蒙

违规干细胞抗衰美容,为何肆无忌惮

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版