网易首页 > 网易号 > 正文 申请入驻

DeepSeek上新:开源模型首达IMO金牌水平,AI推理告别“死记硬背”

0
分享至

(文/陈济深 编辑/张广凯)

在OpenAI发布GPT-5.1、谷歌推出Gemini 3系列的背景下,国内AI独角兽DeepSeek虽然迟迟未能带来基座模型的大更新,但也于本周三晚间低调发布了其最新的技术成果DeepSeek-Math-V2。

据官方披露的技术报告显示,DeepSeek-Math-V2拥有685B参数量,专注于提升大语言模型的数学推理与定理证明能力。在多项高难度数学竞赛基准中,该模型交出了一份极具冲击力的成绩单。

首先是顶尖竞赛表现,在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)中,Math-V2均达到了金牌水平。特别是在被称为“数学界炼狱”的普特南(Putnam 2024)数学竞赛中,通过扩展测试计算(Test-time Compute),该模型取得了118分(满分120分)的近乎满分成绩,远超人类选手约90分的历史最高分记录。


其次是基准测试对比,在IMO-ProofBench基准测试的基础集(Basic)上,Math-V2得分接近99%,大幅领先谷歌旗下Gemini DeepThink (IMO Gold) 的89%。

在难度更高的进阶集(Advanced)上,Math-V2得分61.9%,虽然略低于Gemini DeepThink的65.7%,但作为开源模型,其性能已无限接近闭源商用模型的顶尖水平。

此外,团队在论文中透露,在自主构建的91个CNML(中国国家数学实验室)级别问题测试中,Math-V2在代数、几何、数论、组合学和不等式等所有类别中,均超越了GPT-5-Thinking-High和Gemini 2.5-Pro的表现。

从“做题机器”到“严谨数学家”

DeepSeek此次发布的时间点颇为耐人寻味。就在模型开源前不到24小时,前OpenAI首席科学家、AI教父Ilya Sutskever在一场访谈中直言,当前的AI模型更像是一个只会“死记硬背”的做题机器。DeepSeek Math-V2的发布仿佛是一次跨越时空的回应,其核心技术革新正是为了解决Ilya所担忧的“推理假象”问题,展现出一种不再满足于单纯结果正确的技术自觉。

传统的AI训练模式往往陷入“结果导向”的陷阱,即只要最终答案正确就给予模型奖励(Reward)。这种机制容易导致AI产生投机行为,为了获取奖励而猜测答案,即便中间逻辑混乱甚至错误。DeepSeek在技术论文中一针见血地指出,正确的答案并不保证正确的推理。为了根除这种“混子”行为,Math-V2采取了严苛的“死磕过程”策略。模型必须展示清晰、严谨的分步推导过程,只要中间步骤出现逻辑断裂,即便最终结果正确,系统也不会给予正向反馈。这一转变逼迫AI必须真正理解题目逻辑,而非依赖概率上的运气。


为了精准评估这些复杂的推理步骤,DeepSeek独创了一套多层级的“元验证”(Meta-Verification)机制。在以往的训练中,给AI的解题步骤打分是一项极具挑战的任务,单一的AI评判者也容易看走眼。为此,团队设计了一种类似“套娃”的监督架构:在AI“学生”做题、AI“老师”批改的基础上,引入了更高层级的“校长”角色来审查判卷的合理性。如果“老师”出现误判,“校长”会进行纠正。这种层层嵌套的监督体系,直接将评分系统的置信度从0.85提升至0.96,极大地保证了训练数据的质量。

更引人注目的是,Math-V2展现出了类似人类“三省吾身”的自我反思能力。在处理高难度定理证明时,模型不再是一路狂奔直达终点,而是像一位严谨的数学家一样,在推理过程中通过测试时间计算(Test-time Compute)进行停顿和自省。一旦发现逻辑漏洞,模型会自主推翻重写,直到逻辑链条无懈可击。这种从盲目计算向深思熟虑的进化,表明通往超级智能的路径并非只有算力的堆叠,更需要这种懂得“回头看”的智慧。

开源生态的强力反击

DeepSeek Math-V2的发布在海外开发者社区引发了强烈反响,被舆论称为“鲸鱼回归(The Whale is back)”。市场分析人士认为,DeepSeek以10个百分点的优势在基础基准上击败谷歌获奖模型,打破了顶级推理模型长期被闭源巨头垄断的局面。

有资深算法工程师对观察者网表示:“DeepSeek验证了‘自验证推理路径’的可行性。数学推理能力是代码生成、科学计算等任务的基石。行业普遍推测,DeepSeek极有可能将这一逻辑验证能力迁移至编程模型(Coding),届时将对现有的代码辅助工具市场产生巨大冲击。”

目前,全球AI大模型正处于从“文本生成”向“逻辑推理”进化的关键窗口期。DeepSeek此次“亮剑”,不仅证明了国产模型在高端算法领域的竞争力,也为开源社区提供了一条清晰的技术演进路线——即通过构建严谨的验证机制,而非单纯堆砌算力,来实现机器智能的质变。

目前DeepSeek新模型的代码与权重已在Hugging Face及GitHub平台完全开源,行业期待其后续在通用旗舰模型上的进一步动作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
触目惊心——伊朗抗议者遇难者增至2万人,1.8万人被捕

触目惊心——伊朗抗议者遇难者增至2万人,1.8万人被捕

史政先锋
2026-01-14 16:36:18
伊朗上空,突然变得不对劲了

伊朗上空,突然变得不对劲了

百态人间
2026-01-14 05:00:02
林文龙郭可盈为女儿举办16岁生日派对 寿星女和一众女同学打扮成熟

林文龙郭可盈为女儿举办16岁生日派对 寿星女和一众女同学打扮成熟

陈意小可爱
2026-01-15 01:06:36
演员金晨还没有接到春晚邀请,自我调侃:为啥呀?是我不够喜庆吗

演员金晨还没有接到春晚邀请,自我调侃:为啥呀?是我不够喜庆吗

韩小娱
2026-01-15 10:27:39
奇案:“二奶”带人从北京劫走被纪委带走的情人!

奇案:“二奶”带人从北京劫走被纪委带走的情人!

深度报
2026-01-12 22:43:42
一夫一妻制逐渐难维持!社会学家分析:未来3种模式将成为主流?

一夫一妻制逐渐难维持!社会学家分析:未来3种模式将成为主流?

流云青史
2025-11-24 19:15:05
不认怂能咋滴!闫学晶被举报偷税,证据已提交机关,恐有牢狱之灾

不认怂能咋滴!闫学晶被举报偷税,证据已提交机关,恐有牢狱之灾

寒士之言本尊
2026-01-15 12:42:41
印尼的豪赌大溃败,给全世界提了个醒:中国行我也行,纯粹是幻觉

印尼的豪赌大溃败,给全世界提了个醒:中国行我也行,纯粹是幻觉

墨兰史书
2025-11-23 06:05:03
喝酒又火了?医生研究发现:高血压患者在喝酒时,需要多注意6点

喝酒又火了?医生研究发现:高血压患者在喝酒时,需要多注意6点

坠入二次元的海洋
2026-01-15 11:14:32
教育部扔下重磅炸弹:2026年开始,全国一律不准买校外商业试卷​

教育部扔下重磅炸弹:2026年开始,全国一律不准买校外商业试卷​

小熊侃史
2026-01-14 07:10:07
约基奇落选!名记评赛季中期联盟最佳阵容:库里二阵,杜兰特三阵

约基奇落选!名记评赛季中期联盟最佳阵容:库里二阵,杜兰特三阵

你的篮球频道
2026-01-15 08:26:35
当媒体开始“抢新闻”,说明新闻确实很少了

当媒体开始“抢新闻”,说明新闻确实很少了

走读新生
2026-01-14 13:24:50
为何一艘美航母上,都要带足大量女兵,她们在航母上有什么作用?

为何一艘美航母上,都要带足大量女兵,她们在航母上有什么作用?

大千世界观
2025-12-19 21:58:37
犹太财团又要开始卖国了,大规模资产转移后,贝莱德:美国没救了

犹太财团又要开始卖国了,大规模资产转移后,贝莱德:美国没救了

老范谈史
2026-01-13 20:15:38
一场0·0验出U23国足两大水货 表现平庸难堪大用 打乌兹别克不能用

一场0·0验出U23国足两大水货 表现平庸难堪大用 打乌兹别克不能用

篮球看比赛
2026-01-15 11:30:44
克鲁尼举家“逃离美国”?川普一语戳破好莱坞左派的虚伪

克鲁尼举家“逃离美国”?川普一语戳破好莱坞左派的虚伪

斌闻天下
2026-01-14 07:15:03
“以为中奖羽绒服没想到是挂件”冲上热搜,知名品牌MLB抽奖活动被指“图文不符”,客服:若未写明具体礼品则为随机发放

“以为中奖羽绒服没想到是挂件”冲上热搜,知名品牌MLB抽奖活动被指“图文不符”,客服:若未写明具体礼品则为随机发放

极目新闻
2026-01-14 15:37:52
才播8集,评分升至8.5,这下又有让我熬夜狂追的探案黑马剧了

才播8集,评分升至8.5,这下又有让我熬夜狂追的探案黑马剧了

星宿影视鸭
2026-01-15 12:03:17
从高管到送外卖,一个985硕士的10次滑落

从高管到送外卖,一个985硕士的10次滑落

最人物
2026-01-14 15:35:35
2026央视春晚彩排阵容曝光,看到名单,观众失望:一大半都不认识

2026央视春晚彩排阵容曝光,看到名单,观众失望:一大半都不认识

翰飞观事
2026-01-13 14:52:52
2026-01-15 13:44:49
观察者网 incentive-icons
观察者网
全球视野,中国关怀
132364文章数 1849675关注度
往期回顾 全部

科技要闻

千问接入淘宝支付宝,大模型开卷办事能力

头条要闻

银币半年暴涨20倍 杭州有人一口气花30万买15公斤银砖

头条要闻

银币半年暴涨20倍 杭州有人一口气花30万买15公斤银砖

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

传奇棋圣聂卫平离世,网友集体悼念

财经要闻

“疯狂的白银”,还能走多远?

汽车要闻

今年推出超40款新车,BBA要把失去的夺回来

态度原创

家居
教育
亲子
健康
军事航空

家居要闻

自在自宅 个性自由

教育要闻

航海类专业赢麻了!交通运输部2025拟录697人,多名专科生上岸

亲子要闻

辅酶q10备孕吃了多久有效果?高龄备孕吃什么有助于怀孕?

血常规3项异常,是身体警报!

军事要闻

美国已正式开始出售委内瑞拉石油

无障碍浏览 进入关怀版