网易首页 > 网易号 > 正文 申请入驻

GPT-5危了!DeepSeek开源世界首个奥数金牌AI,正面硬刚谷歌

0
分享至


新智元报道

编辑:编辑部

【新智元导读】沉寂许久的DeepSeek又回来了!今天,DeepSeekMath-V2重磅登场,一举夺下IMO 2025金牌,实力媲美甚至超越了谷歌的IMO金牌模型,开源AI再次扳回一局。

DeepSeek再次归来!

刚刚,DeepSeek重磅发布DeepSeekMath-V2新模型,一举夺下IMO 2025金牌。

最关键的是,这是首款「开源的IMO金牌模型」。


基于DeepSeek V3.2 Exp Base构建

当前,已官宣拿下金牌的两大模型,一款来自谷歌Gemini Deep Think,另一款便来自OpenAI的内部模型。

在IMO-ProofBench中,DeepSeekMath-V2展现出强大的定理证明能力:

IMO 2025:破解5题(共6题),达到了金牌水平;

CMO 2024(中国数学奥林匹克):达到金牌水平;

Putnam 2024:得分118接近满分(120分),超越人类参赛者最高分(90分)。


不仅如此,在ProofBench-Basic上,DeepSeekMath-V2的实力碾压谷歌金牌模型——Gemini Deep Think;在ProofBench-Advanced上直追谷歌。


论文中,团队训练了一个基于LLM验证器(Verifier)作为奖励函数,并以此训练模型以自主解决问题。

而且,他们还Scaling了验证器算力,来标注更复杂的证明,进一步优化了验证器本身。

这种方法非常巧妙,能有效弥合生成与验证之间的差距。


结果实证「可验证的数学推理」,是未来一条可行的研究方向。



DeepSeekMath-V2

让「自验证」成最强武器

DeepSeekMath-V2的论文也于GitHub同步放出了。


DeepSeek最新发布的DeepSeekMath-V2带来的核心突破就是:自验证(Self-Verification)

这不仅让它在最难的数学竞赛中横扫人类顶尖选手,更重要的是,它揭示了通往更高级AI的一条必经之路——学会自我反思

为什么只看结果是不够的

在过去,训练AI做数学题的方法很简单:给它一道题,如果它算出的答案和标准答案一致,就给它奖励。

这在简单的计算题(如AIME竞赛)中很有效。

但到了数学皇冠上的明珠——国际数学奥林匹克(IMO)这个级别,这种方法就彻底失效了。

因为IMO的题目往往没有简单的数值答案,而是要求你写出一段逻辑无懈可击的证明过程

以前的AI在这里经常是个「大忽悠」,它能胡编乱造一通看起来很专业的数学黑话,最后强行得出一个结论。虽然它可能蒙对了结果,但过程全是漏洞。

DeepSeekMath-V2决定从根本上改变规则,不仅要奖励正确的答案,更要奖励严谨的自我找茬过程。

秘密武器:左右互搏的三位一体

为了实现这种「自我反思」,DeepSeek设计了一套精妙的「左右互搏」系统,就像在AI的大脑里住了三个人:

1.「做题家」(Generator,证明生成器):

负责解题和写证明。

但与以往不同,它被训练成不仅要写答案,还要写一段「自我评价」。它必须诚实地说:「这步我有点不确定,可能是错的。」

研究团队巧妙设计了奖励,带来了下列激励效果:

  • 诚实面对错误,比「硬说自己是对的」更有利。

  • 写出真正正确的证明,并准确识别其严谨程度,可以获得最高奖励。

  • 对生成器来说,最优策略是:在最终回答前,发现并修正尽可能多的问题。

2.「铁面判官」(Verifier,证明验证器):

这是DeepSeek专门训练的一个评分模型。它不看答案对不对,而是专门盯着证明过程挑刺。它会像阅卷老师一样,给证明打分(0分、0.5分、1分),并指出具体的逻辑漏洞。

  • 1分:证明完整且严谨,所有关键推理步骤都有清晰、充分的论证;

  • 0.5分:整体思路正确,但在细节上存在轻微错误或略去部分论证;

  • 0分:存在致命逻辑错误或关键缺口,导致证明在本质上不成立。

3.「判官的审计员」(Meta-Verifier,元验证器):

这是最绝的一步。因为「判官」也可能犯错,或者为了省事偷懒瞎判。

于是DeepSeek又引入了一个「元验证」机制,专门检查「判官」是不是在胡乱挑刺。如果「判官」指出了一个不存在的错误,它会被「审计员」打手板。

「元验证器」来检查验证器给出的分析,包括:

1. 验证器指出的问题是否真实存在于原证明中;

2. 这些问题是否足以合理支撑它给出的得分,且符合原有的评分细则。

用元验证器来评估验证器输出分析的平均质量分数,从0.85提升到了0.96,同时保持了原有的打分准确率。

在这三者的配合下,DeepSeekMath-V2甚至能做到在没有标准答案的情况下,自己给自己出题、自己做、自己批改、自己重做

首先,证明验证器与证明生成器之间形成了良性的「闭环」:

  • 验证器为生成器提供奖励信号,从而不断提高生成器的证明能力;

  • 随着生成器水平提升,它会产生越来越「刁钻」的新证明,这些证明反过来又会暴露出验证器尚未覆盖的薄弱点。

尤其是那些「验证器第一次尝试没能抓出问题」的证明样本,对进一步训练验证器来说价值极高。

为了高效获取新证明的正确性标签,研究团队设计了自动化标签生成流程:


在最后两轮训练迭代中,这条全自动标注流水线已经完全替代了人工标注。后续的质量检查表明,自动生成的标签与人类专家的判断高度一致。

巅峰对决:DeepSeek vs Gemini

在这个领域,DeepSeek并不孤单。

谷歌DeepMind的Gemini Deep Think也是刚达到IMO金牌水平的顶尖选手。

两者的对比非常有意思:

  • DeepMind像是拥有无尽资源的贵族,其实力毋庸置疑,在某些高级基准测试(如IMO-ProofBench Advanced)上依然保持领先。

  • DeepSeek则像是半路杀出的天才少年。根据DeepSeek的论文,他们的V2模型在基础测试集(ProofBench Basic)上已经反超了Gemini Deep Think,并且在公开的竞赛题目上展现出了惊人的统治力。


更重要的是,DeepSeek将这一技术路径开源并详细披露了训练方法。

这为全世界的AI研究者提了个醒:通往AGI的路上,自验证可能比单纯堆算力更重要。

直追谷歌OpenAI,开源IMO模型赢了

这一令人惊叹的成绩背后,是DeepSeekMath-V2在实验中展现出的某种「反直觉」的进化特征。

「一次做对」的能力:全方位碾压GPT-5和Gemini

如果剥离掉所有复杂的反复思考和验证过程,只看模型的「第一直觉」——也就是所谓的One-Shot能力,DeepSeekMath-V2依然表现出了统治级的实力。

研究团队构建了一个包含代数、几何、数论、组合和不等式五大类难题的内部测试集CNML(难度对标中国高中数学联赛)。

在这个竞技场上,DeepSeekMath-V2与目前市面上最强的两大推理模型——OpenAI的GPT-5-Thinking-High和谷歌DeepMind的Gemini 2.5-Pro进行了正面硬刚。

结果如图所示:


DeepSeekMath-V2并不是险胜,而是完全胜利

  • 代数:远超GPT-5和Gemini;

  • 几何:得分几乎是Gemini 2.5-Pro的三倍;

  • 数论与组合:同样稳稳占据第一梯队。

这说明,即使不给模型「多想一会儿」的机会,它的底座能力已经极其强悍。

进化的关键:让模型「多想几次」

真正让DeepSeekMath-V2与众不同的,是它在连续修正实验中的表现。

在面对IMO候选题(Shortlist)这种级别的难题时,模型往往无法一次性写出完美的证明。

实验显示,如果允许模型进行「自我验证」——即生成答案后,自己挑毛病,然后带着问题重新生成,奇迹就发生了:

  • 初始状态(迭代1次):模型的平均得分为0.15。

  • 反复思考(迭代8次):当允许模型最多进行8次「自我修正」后,证明的质量分数飙升到了0.27。


更有趣的是,如果让模型从自己生成的32个解法中挑一个最好的(Best@32),它的评分准确度极高,得分直接跃升至0.42。

这证实了一个关键点:模型不仅能改错,而且非常有自知之明,它清楚地知道自己哪个答案是最好的。

暴力美学与智慧的结晶:高算力搜索

前文提到的普特南数学竞赛118分(接近满分)的「神迹」,并非仅靠运气,而是得益于一种「高算力搜索」(High-Compute Search)策略。

DeepSeek团队在实验中采用了一种极端严苛的测试方式:

1.海量候选:对每道题初始生成64个候选证明。

2.地狱级验证:为每一个证明生成64个独立的验证分析。

3.优胜劣汰:只有那些能通过所有64次验证的证明,才会被认为是「完全可信」的。

正是这种「千锤百炼」的策略,让模型解决了IMO 2025中6道题里的5道,以及在CMO 2024中拿下金牌水平。

实验数据还揭示了一个有趣的现象:对于那些它没做出来的题,模型通常能准确地找出自己证明中的漏洞;而对于做出来的题,则是真真切切地通过了所有考验。

这是「LLM可以被训练成可靠的数学验证者」这一假设的有力实证。

DeepSeekMath-V2意味着什么

DeepSeekMath-V2的成功告诉我们,AI正在从「模仿人类说话」进化到「模仿人类思考」。

真正的思考,往往伴随着自我怀疑。

当我们看到AI开始在输出最终结果前,懂得停下来,对自己说一句「这看起来不太对,我再算一遍」时,那才是它真正超越工具属性的时刻。

真正的智慧,不仅在于瞬间给出答案,更在于拥有推翻自己的勇气与能力。

参考资料:

https://github.com/deepseek-ai/DeepSeek-Math-V2

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
00后帝星秀恩爱!新婚妻子现场观战,身材火辣,NBA甜蜜姐弟恋

00后帝星秀恩爱!新婚妻子现场观战,身材火辣,NBA甜蜜姐弟恋

篮球看比赛
2026-01-16 12:30:51
2016年中美南海对峙,270名军工工程师拒绝撤离,并写好遗书!

2016年中美南海对峙,270名军工工程师拒绝撤离,并写好遗书!

阿胡
2025-12-16 17:02:47
破案了,马杜罗发小为了5000万给美军带路,结果美方拒绝支付赏金

破案了,马杜罗发小为了5000万给美军带路,结果美方拒绝支付赏金

凉羽亭
2026-01-16 10:37:03
逼入绝境!为了摆脱中国禁令下血本,日本开始拆马达来提炼稀土!

逼入绝境!为了摆脱中国禁令下血本,日本开始拆马达来提炼稀土!

东风寄的千愁
2026-01-16 19:03:01
湖人惨败黄蜂向附加赛靠拢,一数据显示詹姆斯根本不防守

湖人惨败黄蜂向附加赛靠拢,一数据显示詹姆斯根本不防守

姜大叔侃球
2026-01-16 14:25:01
很多家庭都没意识到,最容易改变家族命运的,其实是女儿!

很多家庭都没意识到,最容易改变家族命运的,其实是女儿!

夜深爱杂谈
2026-01-16 21:08:16
湖南第一庸官,好面子导致政府负债1000亿,为政绩骗刘强东100亿

湖南第一庸官,好面子导致政府负债1000亿,为政绩骗刘强东100亿

芊芊子吟
2026-01-15 10:20:03
为什么说不要长期待在地下车库?

为什么说不要长期待在地下车库?

环球网资讯
2026-01-15 17:08:06
泰王真会玩:20位妃嫔被军事化编号,方便角色扮演,陪伴目的不同

泰王真会玩:20位妃嫔被军事化编号,方便角色扮演,陪伴目的不同

毒舌小红帽
2026-01-16 18:07:27
上海知名主持人已入住养老院!价格、环境全公开,是受欢迎的房型

上海知名主持人已入住养老院!价格、环境全公开,是受欢迎的房型

墨印斋
2026-01-15 17:49:55
旅行者一号已经飞了半个世纪,为什么还能和地球保持联系?

旅行者一号已经飞了半个世纪,为什么还能和地球保持联系?

观察宇宙
2026-01-11 22:48:30
上海队更衣室,卢伟讲话内容曝光!球迷:杜锋怎么看?

上海队更衣室,卢伟讲话内容曝光!球迷:杜锋怎么看?

体育哲人
2026-01-16 17:29:43
1972年,毛主席当众指着她鼻子骂:你男人跟别人好了,你怎么不离婚?

1972年,毛主席当众指着她鼻子骂:你男人跟别人好了,你怎么不离婚?

寄史言志
2026-01-07 21:08:15
张志铭:曾给黄光裕当司机,因太帅被首富妹妹看中,如今身家65亿

张志铭:曾给黄光裕当司机,因太帅被首富妹妹看中,如今身家65亿

高山俯瞰世界
2024-02-25 14:02:10
湖北版“杀猪饭”火了 文旅部门临时追加一头300斤年猪

湖北版“杀猪饭”火了 文旅部门临时追加一头300斤年猪

大象新闻
2026-01-15 14:01:13
U23国足明日决战乌兹 董路:我们大概率脆败 因安东尼奥不会改1点

U23国足明日决战乌兹 董路:我们大概率脆败 因安东尼奥不会改1点

风过乡
2026-01-16 07:26:50
聂卫平去世后,日本棋院以及诸多围棋界人士表达哀悼

聂卫平去世后,日本棋院以及诸多围棋界人士表达哀悼

懂球帝
2026-01-16 00:49:38
绷不住!今年的就业环境能有多差?网友:研究生月薪四千都找不到

绷不住!今年的就业环境能有多差?网友:研究生月薪四千都找不到

滑稽斑马呀
2026-01-15 21:27:08
太遗憾!国乒女单0:3日本削球手,单局得1分,国乒女单5人出局

太遗憾!国乒女单0:3日本削球手,单局得1分,国乒女单5人出局

国乒二三事
2026-01-16 19:15:25
开拓者大胜!夏普24+9+5,赛后小杨走入场内,和队友击掌庆祝胜利

开拓者大胜!夏普24+9+5,赛后小杨走入场内,和队友击掌庆祝胜利

担酒
2026-01-16 13:27:43
2026-01-17 00:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14344文章数 66506关注度
往期回顾 全部

科技要闻

贾国龙与罗永浩被禁言,微博CEO回应

头条要闻

罗永浩、贾国龙微博账号均被禁言

头条要闻

罗永浩、贾国龙微博账号均被禁言

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

李湘翻车,早就有迹可循!

财经要闻

清流|酒店商家在携程和美团之间沦为炮灰

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

游戏
家居
数码
艺术
公开课

《人中之龙 极3/人中之龙3 外传 Dark Ties》制作人专访"/> 主站 商城 论坛 自运营 登录 注册 《人中之龙 极3/人中之龙3 外传 Da...

家居要闻

岁月柔情 现代品质轻奢

数码要闻

熊猫MX34U7 34英寸带鱼屏显示器发布,售价1299元

艺术要闻

180米!上海北外滩新地标,设计藏了3个“小心机”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版