网易首页 > 网易号 > 正文 申请入驻

GPT-5危了!DeepSeek开源世界首个奥数金牌AI,正面硬刚谷歌

0
分享至

来源:市场资讯

(来源:新智元)


新智元报道

编辑:编辑部

【新智元导读】沉寂许久的DeepSeek又回来了!今天,DeepSeekMath-V2重磅登场,一举夺下IMO 2025金牌,实力媲美甚至超越了谷歌的IMO金牌模型,开源AI再次扳回一局。

DeepSeek再次归来!

刚刚,DeepSeek重磅发布DeepSeekMath-V2新模型,一举夺下IMO 2025金牌。

最关键的是,这是首款「开源的IMO金牌模型」。


基于DeepSeek V3.2 Exp Base构建

当前,已官宣拿下金牌的两大模型,一款来自谷歌Gemini Deep Think,另一款便来自OpenAI的内部模型。

在IMO-ProofBench中,DeepSeekMath-V2展现出强大的定理证明能力:

IMO 2025:破解5题(共6题),达到了金牌水平;

CMO 2024(中国数学奥林匹克):达到金牌水平;

Putnam 2024:得分118接近满分(120分),超越人类参赛者最高分(90分)。


不仅如此,在ProofBench-Basic上,DeepSeekMath-V2的实力碾压谷歌金牌模型——Gemini Deep Think;在ProofBench-Advanced上直追谷歌。


论文中,团队训练了一个基于LLM验证器(Verifier)作为奖励函数,并以此训练模型以自主解决问题。

而且,他们还Scaling了验证器算力,来标注更复杂的证明,进一步优化了验证器本身。

这种方法非常巧妙,能有效弥合生成与验证之间的差距。


结果实证「可验证的数学推理」,是未来一条可行的研究方向。

DeepSeekMath-V2

让「自验证」成最强武器

DeepSeekMath-V2的论文也于GitHub同步放出了。


DeepSeek最新发布的DeepSeekMath-V2带来的核心突破就是:自验证(Self-Verification)。

这不仅让它在最难的数学竞赛中横扫人类顶尖选手,更重要的是,它揭示了通往更高级AI的一条必经之路——学会自我反思。

为什么只看结果是不够的

在过去,训练AI做数学题的方法很简单:给它一道题,如果它算出的答案和标准答案一致,就给它奖励。

这在简单的计算题(如AIME竞赛)中很有效。

但到了数学皇冠上的明珠——国际数学奥林匹克(IMO)这个级别,这种方法就彻底失效了。

因为IMO的题目往往没有简单的数值答案,而是要求你写出一段逻辑无懈可击的证明过程。

以前的AI在这里经常是个「大忽悠」,它能胡编乱造一通看起来很专业的数学黑话,最后强行得出一个结论。虽然它可能蒙对了结果,但过程全是漏洞。

DeepSeekMath-V2决定从根本上改变规则,不仅要奖励正确的答案,更要奖励严谨的「自我找茬」过程。

秘密武器:左右互搏的三位一体

为了实现这种「自我反思」,DeepSeek设计了一套精妙的「左右互搏」系统,就像在AI的大脑里住了三个人:

1.「做题家」(Generator,证明生成器):

负责解题和写证明。

但与以往不同,它被训练成不仅要写答案,还要写一段「自我评价」。它必须诚实地说:「这步我有点不确定,可能是错的。」

研究团队巧妙设计了奖励,带来了下列激励效果:

2.「铁面判官」(Verifier,证明验证器):

这是DeepSeek专门训练的一个评分模型。它不看答案对不对,而是专门盯着证明过程挑刺。它会像阅卷老师一样,给证明打分(0分、0.5分、1分),并指出具体的逻辑漏洞。

3.「判官的审计员」(Meta-Verifier,元验证器):

这是最绝的一步。因为「判官」也可能犯错,或者为了省事偷懒瞎判。

于是DeepSeek又引入了一个「元验证」机制,专门检查「判官」是不是在胡乱挑刺。如果「判官」指出了一个不存在的错误,它会被「审计员」打手板。

「元验证器」来检查验证器给出的分析,包括:

1. 验证器指出的问题是否真实存在于原证明中;

2. 这些问题是否足以合理支撑它给出的得分,且符合原有的评分细则。

用元验证器来评估验证器输出分析的平均质量分数,从0.85提升到了0.96,同时保持了原有的打分准确率。

在这三者的配合下,DeepSeekMath-V2甚至能做到在没有标准答案的情况下,自己给自己出题、自己做、自己批改、自己重做。

首先,证明验证器与证明生成器之间形成了良性的「闭环」:

尤其是那些「验证器第一次尝试没能抓出问题」的证明样本,对进一步训练验证器来说价值极高。

为了高效获取新证明的正确性标签,研究团队设计了自动化标签生成流程:


在最后两轮训练迭代中,这条全自动标注流水线已经完全替代了人工标注。后续的质量检查表明,自动生成的标签与人类专家的判断高度一致。

巅峰对决:DeepSeek vs Gemini

在这个领域,DeepSeek并不孤单。

谷歌DeepMind的Gemini Deep Think也是刚达到IMO金牌水平的顶尖选手。

两者的对比非常有意思:


更重要的是,DeepSeek将这一技术路径开源并详细披露了训练方法。

这为全世界的AI研究者提了个醒:通往AGI的路上,自验证可能比单纯堆算力更重要。

直追谷歌OpenAI,开源IMO模型赢了

这一令人惊叹的成绩背后,是DeepSeekMath-V2在实验中展现出的某种「反直觉」的进化特征。

「一次做对」的能力:全方位碾压GPT-5和Gemini

如果剥离掉所有复杂的反复思考和验证过程,只看模型的「第一直觉」——也就是所谓的One-Shot能力,DeepSeekMath-V2依然表现出了统治级的实力。

研究团队构建了一个包含代数、几何、数论、组合和不等式五大类难题的内部测试集CNML(难度对标中国高中数学联赛)。

在这个竞技场上,DeepSeekMath-V2与目前市面上最强的两大推理模型——OpenAI的GPT-5-Thinking-High和谷歌DeepMind的Gemini 2.5-Pro进行了正面硬刚。

结果如图所示:


DeepSeekMath-V2并不是险胜,而是完全胜利:

这说明,即使不给模型「多想一会儿」的机会,它的底座能力已经极其强悍。

进化的关键:让模型「多想几次」

真正让DeepSeekMath-V2与众不同的,是它在连续修正实验中的表现。

在面对IMO候选题(Shortlist)这种级别的难题时,模型往往无法一次性写出完美的证明。

实验显示,如果允许模型进行「自我验证」——即生成答案后,自己挑毛病,然后带着问题重新生成,奇迹就发生了:


更有趣的是,如果让模型从自己生成的32个解法中挑一个最好的(Best@32),它的评分准确度极高,得分直接跃升至0.42。

这证实了一个关键点:模型不仅能改错,而且非常有自知之明,它清楚地知道自己哪个答案是最好的。

暴力美学与智慧的结晶:高算力搜索

前文提到的普特南数学竞赛118分(接近满分)的「神迹」,并非仅靠运气,而是得益于一种「高算力搜索」(High-Compute Search)策略。

DeepSeek团队在实验中采用了一种极端严苛的测试方式:

1.海量候选:对每道题初始生成64个候选证明。

2.地狱级验证:为每一个证明生成64个独立的验证分析。

3.优胜劣汰:只有那些能通过所有64次验证的证明,才会被认为是「完全可信」的。

正是这种「千锤百炼」的策略,让模型解决了IMO 2025中6道题里的5道,以及在CMO 2024中拿下金牌水平。

实验数据还揭示了一个有趣的现象:对于那些它没做出来的题,模型通常能准确地找出自己证明中的漏洞;而对于做出来的题,则是真真切切地通过了所有考验。

这是「LLM可以被训练成可靠的数学验证者」这一假设的有力实证。

DeepSeekMath-V2意味着什么

DeepSeekMath-V2的成功告诉我们,AI正在从「模仿人类说话」进化到「模仿人类思考」。

真正的思考,往往伴随着自我怀疑。

当我们看到AI开始在输出最终结果前,懂得停下来,对自己说一句「这看起来不太对,我再算一遍」时,那才是它真正超越工具属性的时刻。

真正的智慧,不仅在于瞬间给出答案,更在于拥有推翻自己的勇气与能力。

参考资料:

https://github.com/deepseek-ai/DeepSeek-Math-V2

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比利时男子在云南哈巴雪山失联超25天,搜救仍无发现 知情人称他曾现身进山口被劝返

比利时男子在云南哈巴雪山失联超25天,搜救仍无发现 知情人称他曾现身进山口被劝返

红星新闻
2026-04-20 19:01:11
浙江大学研究:每天多吃一个蛋,心血管疾病和癌症死亡风险增加

浙江大学研究:每天多吃一个蛋,心血管疾病和癌症死亡风险增加

健身狂人
2026-04-20 18:15:29
理想电池包卡扣损坏车主无奈走全损?卡扣与电池盒为一体结构无法单独维修

理想电池包卡扣损坏车主无奈走全损?卡扣与电池盒为一体结构无法单独维修

板扎在线
2026-04-19 07:34:16
杨幂估计头都大了,这眼神躲还是不躲好啊。

杨幂估计头都大了,这眼神躲还是不躲好啊。

科学发掘
2026-04-18 12:22:04
仅剩1天!赖清德将登机离岛,郑丽文好言相劝,国台办已宣告结局

仅剩1天!赖清德将登机离岛,郑丽文好言相劝,国台办已宣告结局

近史谈
2026-04-21 02:02:26
这8种病立马办残疾证!符合条件每月领钱,别傻傻把福利扔了!

这8种病立马办残疾证!符合条件每月领钱,别傻傻把福利扔了!

记录生活日常阿蜴
2026-04-14 07:01:50
日本又在历史伤口上公然撒盐

日本又在历史伤口上公然撒盐

烽火瞭望者
2026-04-20 11:26:11
大S到死都没料到!她走后,真心疼玥儿箖箖竟是被她拉黑的前婆婆

大S到死都没料到!她走后,真心疼玥儿箖箖竟是被她拉黑的前婆婆

情感大头说说
2026-04-20 15:16:32
2年1.3亿!最被高估的联盟巨星,被二当家拖进季后赛,硬仗又萎了

2年1.3亿!最被高估的联盟巨星,被二当家拖进季后赛,硬仗又萎了

你的篮球频道
2026-04-20 09:24:43
CBA积分榜:上海锁定常规赛冠军 山东排第8

CBA积分榜:上海锁定常规赛冠军 山东排第8

闪电新闻
2026-04-20 19:53:00
一张封面让以色列炸锅,大使怒骂,杂志不道歉,最后视频曝光

一张封面让以色列炸锅,大使怒骂,杂志不道歉,最后视频曝光

海绵芝士局
2026-04-20 16:17:16
为什么山东高速拒绝巩晓彬而广东队却不敢换掉杜锋?两个字:背景

为什么山东高速拒绝巩晓彬而广东队却不敢换掉杜锋?两个字:背景

姜大叔侃球
2026-04-20 11:17:20
哈兰德:我背上很多抓痕,女朋友不太高兴;父亲教我不能假摔

哈兰德:我背上很多抓痕,女朋友不太高兴;父亲教我不能假摔

懂球帝
2026-04-20 23:25:16
德塞利公开道歉:我错看了萨利巴

德塞利公开道歉:我错看了萨利巴

篮坛第一线
2026-04-21 02:57:15
Model Y 撞报废,车主轻伤,又订了辆 Model Y L!

Model Y 撞报废,车主轻伤,又订了辆 Model Y L!

新浪财经
2026-04-20 15:28:47
腾讯推出“QQ音乐畅听耳机”:提供会员曲库10年畅听,399元

腾讯推出“QQ音乐畅听耳机”:提供会员曲库10年畅听,399元

IT之家
2026-04-20 16:02:11
比亚迪2026款海狮05上市 标配第二代刀片 9.79万起售

比亚迪2026款海狮05上市 标配第二代刀片 9.79万起售

CNMO科技
2026-04-20 20:20:07
2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

观察鉴娱
2026-03-18 09:09:10
大量硼砂,别再给家里人吃了!这10类食物最易掺硼砂,超危险

大量硼砂,别再给家里人吃了!这10类食物最易掺硼砂,超危险

笑熬浆糊111
2026-04-13 00:05:12
胡歌当年居然没有和左一这个美女在一起!太可惜了吧!

胡歌当年居然没有和左一这个美女在一起!太可惜了吧!

小椰的奶奶
2026-04-20 02:15:20
2026-04-21 04:19:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2935635文章数 6820关注度
往期回顾 全部

科技要闻

HUAWEI Pura X Max发布 售价10999元起

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

房产
手机
时尚
游戏
公开课

房产要闻

大规模商改住!海口西海岸,这波项目要赢麻了!

手机要闻

OPPO影像旗舰高端发力 Find X9 Ultra走出国门

春天衣服不用准备太多!这几大单品提前备好,百搭实用又不过时

大司马回归两个月,某音人气稳居顶流行列,道出风光背后心酸现状

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版