网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

GPT-5危了！DeepSeek开源世界首个奥数金牌AI，正面硬刚谷歌

2025-11-28 00:20:53　来源: 新浪财经

河北举报

0

分享至

来源：市场资讯

（来源：新智元）

新智元报道

编辑：编辑部

【新智元导读】沉寂许久的DeepSeek又回来了！今天，DeepSeekMath-V2重磅登场，一举夺下IMO 2025金牌，实力媲美甚至超越了谷歌的IMO金牌模型，开源AI再次扳回一局。

DeepSeek再次归来！

刚刚，DeepSeek重磅发布DeepSeekMath-V2新模型，一举夺下IMO 2025金牌。

最关键的是，这是首款「开源的IMO金牌模型」。

基于DeepSeek V3.2 Exp Base构建

当前，已官宣拿下金牌的两大模型，一款来自谷歌Gemini Deep Think，另一款便来自OpenAI的内部模型。

在IMO-ProofBench中，DeepSeekMath-V2展现出强大的定理证明能力：

IMO 2025：破解5题（共6题），达到了金牌水平；

CMO 2024（中国数学奥林匹克）：达到金牌水平；

Putnam 2024：得分118接近满分（120分），超越人类参赛者最高分（90分）。

不仅如此，在ProofBench-Basic上，DeepSeekMath-V2的实力碾压谷歌金牌模型——Gemini Deep Think；在ProofBench-Advanced上直追谷歌。

论文中，团队训练了一个基于LLM验证器（Verifier）作为奖励函数，并以此训练模型以自主解决问题。

而且，他们还Scaling了验证器算力，来标注更复杂的证明，进一步优化了验证器本身。

这种方法非常巧妙，能有效弥合生成与验证之间的差距。

结果实证「可验证的数学推理」，是未来一条可行的研究方向。

DeepSeekMath-V2

让「自验证」成最强武器

DeepSeekMath-V2的论文也于GitHub同步放出了。

DeepSeek最新发布的DeepSeekMath-V2带来的核心突破就是：自验证（Self-Verification）。

这不仅让它在最难的数学竞赛中横扫人类顶尖选手，更重要的是，它揭示了通往更高级AI的一条必经之路——学会自我反思。

为什么只看结果是不够的

在过去，训练AI做数学题的方法很简单：给它一道题，如果它算出的答案和标准答案一致，就给它奖励。

这在简单的计算题（如AIME竞赛）中很有效。

但到了数学皇冠上的明珠——国际数学奥林匹克（IMO）这个级别，这种方法就彻底失效了。

因为IMO的题目往往没有简单的数值答案，而是要求你写出一段逻辑无懈可击的证明过程。

以前的AI在这里经常是个「大忽悠」，它能胡编乱造一通看起来很专业的数学黑话，最后强行得出一个结论。虽然它可能蒙对了结果，但过程全是漏洞。

DeepSeekMath-V2决定从根本上改变规则，不仅要奖励正确的答案，更要奖励严谨的「自我找茬」过程。

秘密武器：左右互搏的三位一体

为了实现这种「自我反思」，DeepSeek设计了一套精妙的「左右互搏」系统，就像在AI的大脑里住了三个人：

1.「做题家」（Generator，证明生成器）：

负责解题和写证明。

但与以往不同，它被训练成不仅要写答案，还要写一段「自我评价」。它必须诚实地说：「这步我有点不确定，可能是错的。」

研究团队巧妙设计了奖励，带来了下列激励效果：

2.「铁面判官」（Verifier，证明验证器）：

这是DeepSeek专门训练的一个评分模型。它不看答案对不对，而是专门盯着证明过程挑刺。它会像阅卷老师一样，给证明打分（0分、0.5分、1分），并指出具体的逻辑漏洞。

3.「判官的审计员」（Meta-Verifier，元验证器）：

这是最绝的一步。因为「判官」也可能犯错，或者为了省事偷懒瞎判。

于是DeepSeek又引入了一个「元验证」机制，专门检查「判官」是不是在胡乱挑刺。如果「判官」指出了一个不存在的错误，它会被「审计员」打手板。

「元验证器」来检查验证器给出的分析，包括：

1. 验证器指出的问题是否真实存在于原证明中；

2. 这些问题是否足以合理支撑它给出的得分，且符合原有的评分细则。

用元验证器来评估验证器输出分析的平均质量分数，从0.85提升到了0.96，同时保持了原有的打分准确率。

在这三者的配合下，DeepSeekMath-V2甚至能做到在没有标准答案的情况下，自己给自己出题、自己做、自己批改、自己重做。

首先，证明验证器与证明生成器之间形成了良性的「闭环」：

尤其是那些「验证器第一次尝试没能抓出问题」的证明样本，对进一步训练验证器来说价值极高。

为了高效获取新证明的正确性标签，研究团队设计了自动化标签生成流程：

在最后两轮训练迭代中，这条全自动标注流水线已经完全替代了人工标注。后续的质量检查表明，自动生成的标签与人类专家的判断高度一致。

巅峰对决：DeepSeek vs Gemini

在这个领域，DeepSeek并不孤单。

谷歌DeepMind的Gemini Deep Think也是刚达到IMO金牌水平的顶尖选手。

两者的对比非常有意思：

更重要的是，DeepSeek将这一技术路径开源并详细披露了训练方法。

这为全世界的AI研究者提了个醒：通往AGI的路上，自验证可能比单纯堆算力更重要。

直追谷歌OpenAI，开源IMO模型赢了

这一令人惊叹的成绩背后，是DeepSeekMath-V2在实验中展现出的某种「反直觉」的进化特征。

「一次做对」的能力：全方位碾压GPT-5和Gemini

如果剥离掉所有复杂的反复思考和验证过程，只看模型的「第一直觉」——也就是所谓的One-Shot能力，DeepSeekMath-V2依然表现出了统治级的实力。

研究团队构建了一个包含代数、几何、数论、组合和不等式五大类难题的内部测试集CNML（难度对标中国高中数学联赛）。

在这个竞技场上，DeepSeekMath-V2与目前市面上最强的两大推理模型——OpenAI的GPT-5-Thinking-High和谷歌DeepMind的Gemini 2.5-Pro进行了正面硬刚。

结果如图所示：

DeepSeekMath-V2并不是险胜，而是完全胜利：

这说明，即使不给模型「多想一会儿」的机会，它的底座能力已经极其强悍。

进化的关键：让模型「多想几次」

真正让DeepSeekMath-V2与众不同的，是它在连续修正实验中的表现。

在面对IMO候选题（Shortlist）这种级别的难题时，模型往往无法一次性写出完美的证明。

实验显示，如果允许模型进行「自我验证」——即生成答案后，自己挑毛病，然后带着问题重新生成，奇迹就发生了：

更有趣的是，如果让模型从自己生成的32个解法中挑一个最好的（Best@32），它的评分准确度极高，得分直接跃升至0.42。

这证实了一个关键点：模型不仅能改错，而且非常有自知之明，它清楚地知道自己哪个答案是最好的。

暴力美学与智慧的结晶：高算力搜索

前文提到的普特南数学竞赛118分（接近满分）的「神迹」，并非仅靠运气，而是得益于一种「高算力搜索」（High-Compute Search）策略。

DeepSeek团队在实验中采用了一种极端严苛的测试方式：

1.海量候选：对每道题初始生成64个候选证明。

2.地狱级验证：为每一个证明生成64个独立的验证分析。

3.优胜劣汰：只有那些能通过所有64次验证的证明，才会被认为是「完全可信」的。

正是这种「千锤百炼」的策略，让模型解决了IMO 2025中6道题里的5道，以及在CMO 2024中拿下金牌水平。

实验数据还揭示了一个有趣的现象：对于那些它没做出来的题，模型通常能准确地找出自己证明中的漏洞；而对于做出来的题，则是真真切切地通过了所有考验。

这是「LLM可以被训练成可靠的数学验证者」这一假设的有力实证。

DeepSeekMath-V2意味着什么

DeepSeekMath-V2的成功告诉我们，AI正在从「模仿人类说话」进化到「模仿人类思考」。

真正的思考，往往伴随着自我怀疑。

当我们看到AI开始在输出最终结果前，懂得停下来，对自己说一句「这看起来不太对，我再算一遍」时，那才是它真正超越工具属性的时刻。

真正的智慧，不仅在于瞬间给出答案，更在于拥有推翻自己的勇气与能力。

参考资料：

https://github.com/deepseek-ai/DeepSeek-Math-V2

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

解放军133号舰艇编队从横当水道进入太平洋专家解读

环球网资讯 2026-04-20 12:17:06
156 跟贴 156
宁波男子收到陌生账号转账8万余元，三天后奢侈品牌商家找来：员工误将其收款码给客户

齐鲁壹点 2026-04-20 07:19:18
1477 跟贴 1477

验资3000万每日预约名单仍排满，高净值人群“排队”看房，4月的杭州楼市是高端局

都市快报橙柿互动 2026-04-20 14:35:53
119 跟贴 119

法国通过文物归还法案敦煌藏经洞文物就能回归吗

澎湃新闻 2026-04-20 08:08:29
10875 跟贴 10875
90%出租率仍被涨租逼退：丽柏广场招拍挂背后的环市东商圈之困

新快报新闻 2026-04-20 17:53:06
24 跟贴 24

快检查自家阳台！有人家里已大量出现，官方提醒：千万别摸

环球网资讯 2026-04-18 16:23:18
1026 跟贴 1026

保价2000元机盖运输中损坏，德邦理赔只肯赔1300元；车主：我不要钱了，你赔我一个机盖总可以吧

大风新闻 2026-04-20 19:12:04
36 跟贴 36
男子爬上泰山“五岳独尊”石刻拍照，景区：将核查其身份进行处理

扬子晚报 2026-04-17 12:09:40
1381 跟贴 1381

深圳一火锅店招985和211大学应届生储备店长，从服务员做起，门店负责人：本科生就行，已有985管培生

极目新闻 2026-04-20 14:14:59
274 跟贴 274
媒体：日方有一种阴毒"战略" 在自卫队宣扬未来再侵华

新民周刊 2026-04-20 09:08:09
2262 跟贴 2262
阿联酋被曝向美国寻求战时金融支持否则恐以其他货币结算石油

财联社 2026-04-20 10:04:07
244 跟贴 244
浦东新添一家三甲医院，上海长征医院浦东院区明起面向社会公众服务

澎湃新闻 2026-04-20 13:58:26
271 跟贴 271
黎巴嫩再成战场民众：在这没有人没有失去过亲近的人

新京报 2026-04-20 08:22:24
494 跟贴 494
郑栅洁主持召开民营企业座谈会

界面新闻 2026-04-20 17:54:34
161 跟贴 161
5月1日起，医疗回扣要“凉凉”

中国新闻周刊 2026-04-20 13:21:25
105 跟贴 105
话题｜就差3分了！阿森纳的联赛冠军梦又要破碎？

北青网-北京青年报 2026-04-20 09:04:20
141 跟贴 141
霍尔木兹海峡开了又关 35艘船只驶出又掉头

界面新闻 2026-04-20 08:43:33
3269 跟贴 3269
多平台订购火车票现功能异常客服回应

界面新闻 2026-04-20 09:16:20
299 跟贴 299
“草不会骗人”！男子扔烟头的地方寸草不生，这一幕让他想好后事

感恩每一刻 2026-04-21 03:04:55
0 跟贴 0
弟弟丧命钱成肥肉，亲情在贪婪面前不堪一击

胡言炫语 2026-04-21 03:35:08
0 跟贴 0

比利时男子在云南哈巴雪山失联超25天，搜救仍无发现知情人称他曾现身进山口被劝返

比利时男子在云南哈巴雪山失联超25天，搜救仍无发现知情人称他曾现身进山口被劝返

红星新闻

2026-04-20 19:01:11

浙江大学研究：每天多吃一个蛋，心血管疾病和癌症死亡风险增加

浙江大学研究：每天多吃一个蛋，心血管疾病和癌症死亡风险增加

健身狂人

2026-04-20 18:15:29

理想电池包卡扣损坏车主无奈走全损？卡扣与电池盒为一体结构无法单独维修

理想电池包卡扣损坏车主无奈走全损？卡扣与电池盒为一体结构无法单独维修

板扎在线

2026-04-19 07:34:16

杨幂估计头都大了，这眼神躲还是不躲好啊。

杨幂估计头都大了，这眼神躲还是不躲好啊。

科学发掘

2026-04-18 12:22:04

仅剩1天！赖清德将登机离岛，郑丽文好言相劝，国台办已宣告结局

仅剩1天！赖清德将登机离岛，郑丽文好言相劝，国台办已宣告结局

近史谈

2026-04-21 02:02:26

这8种病立马办残疾证！符合条件每月领钱，别傻傻把福利扔了！

这8种病立马办残疾证！符合条件每月领钱，别傻傻把福利扔了！

记录生活日常阿蜴

2026-04-14 07:01:50

日本又在历史伤口上公然撒盐

烽火瞭望者

2026-04-20 11:26:11

大S到死都没料到！她走后，真心疼玥儿箖箖竟是被她拉黑的前婆婆

大S到死都没料到！她走后，真心疼玥儿箖箖竟是被她拉黑的前婆婆

情感大头说说

2026-04-20 15:16:32

2年1.3亿！最被高估的联盟巨星，被二当家拖进季后赛，硬仗又萎了

2年1.3亿！最被高估的联盟巨星，被二当家拖进季后赛，硬仗又萎了

你的篮球频道

2026-04-20 09:24:43

CBA积分榜：上海锁定常规赛冠军山东排第8

CBA积分榜：上海锁定常规赛冠军山东排第8

闪电新闻

2026-04-20 19:53:00

一张封面让以色列炸锅，大使怒骂，杂志不道歉，最后视频曝光

一张封面让以色列炸锅，大使怒骂，杂志不道歉，最后视频曝光

海绵芝士局

2026-04-20 16:17:16

为什么山东高速拒绝巩晓彬而广东队却不敢换掉杜锋？两个字：背景

为什么山东高速拒绝巩晓彬而广东队却不敢换掉杜锋？两个字：背景

姜大叔侃球

2026-04-20 11:17:20

哈兰德：我背上很多抓痕，女朋友不太高兴；父亲教我不能假摔

哈兰德：我背上很多抓痕，女朋友不太高兴；父亲教我不能假摔

懂球帝

2026-04-20 23:25:16

德塞利公开道歉：我错看了萨利巴

德塞利公开道歉：我错看了萨利巴

篮坛第一线

2026-04-21 02:57:15

Model Y 撞报废，车主轻伤，又订了辆 Model Y L！

Model Y 撞报废，车主轻伤，又订了辆 Model Y L！

新浪财经

2026-04-20 15:28:47

腾讯推出“QQ音乐畅听耳机”：提供会员曲库10年畅听，399元

腾讯推出“QQ音乐畅听耳机”：提供会员曲库10年畅听，399元

IT之家

2026-04-20 16:02:11

比亚迪2026款海狮05上市标配第二代刀片 9.79万起售

比亚迪2026款海狮05上市标配第二代刀片 9.79万起售

CNMO科技

2026-04-20 20:20:07

2020年女子当众扇儿子耳光，儿子直接跳楼，如今女子已自杀身亡

2020年女子当众扇儿子耳光，儿子直接跳楼，如今女子已自杀身亡

观察鉴娱

2026-03-18 09:09:10

大量硼砂，别再给家里人吃了！这10类食物最易掺硼砂，超危险

大量硼砂，别再给家里人吃了！这10类食物最易掺硼砂，超危险

笑熬浆糊111

2026-04-13 00:05:12

胡歌当年居然没有和左一这个美女在一起！太可惜了吧！

胡歌当年居然没有和左一这个美女在一起！太可惜了吧！

小椰的奶奶

2026-04-20 02:15:20

新浪财经是一家创建于1999年8月的财经平台

2935635文章数 6820关注度

往期回顾全部

科技要闻

HUAWEI Pura X Max发布售价10999元起

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

体育要闻

阿森纳已拼尽全力，但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成，字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻我腿软了

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房产

手机

时尚

游戏

公开课

房产要闻

大规模商改住！海口西海岸，这波项目要赢麻了！

手机要闻

OPPO影像旗舰高端发力 Find X9 Ultra走出国门

春天衣服不用准备太多！这几大单品提前备好，百搭实用又不过时

大司马回归两个月，某音人气稳居顶流行列，道出风光背后心酸现状

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版