网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

DeepSeekMath-V2炸场！普特南竞赛接近满分，IMO 2025金牌，专攻“自验证”推理

2025-11-27 23:41:50　来源: AI寒武纪

江苏举报

0

分享至

↑阅读之前记得关注+星标⭐️，，每天才能第一时间接收到更新

DeepSeek王者归来！刚刚发布了DeepSeekMath-V2

在IMO 2025和 CMO（中国数学奥林匹克） 2024 中，DeepSeekMath-V2均达到了金牌水平。

在 Putnam（普特南数学竞赛。地位：北美地区「美国和加拿大」最顶尖、最负盛名的大学本科生数学竞赛） 2024 竞赛中，更是随着测试时计算量（test-time compute）的扩展，拿下了 118/120 的几近满分成绩。

这一成果表明，自验证数学推理（Self-Verifiable Mathematical Reasoning）是一条可行的研究路径

核心要点如下

为什么需要自验证？

过去一年，大语言模型通过基于最终答案正确性的强化学习，在AIME和HMMT等定量推理竞赛中取得了长足进步，甚至达到饱和

但这种方法面临根本性局限：

答案对推理对：追求更高的答案准确率，并不能解决推理过程中的核心问题。

非数值任务失效：许多数学任务（如定理证明）需要严谨的逐步推导，而非简单的数值答案，无法应用基于最终答案的奖励机制

为了突破深度推理的极限，验证数学推理的全面性和严谨性至关重要。

特别是对于没有已知解决方案的开放性问题，自验证是扩展测试时计算量（scaling test-time compute）的关键

DeepSeekMath-V2 是怎么做的？

DeepSeek团队通过以下步骤实现自验证数学推理：

1.训练验证器：训练一个准确且忠实的大模型验证器（Verifier），专门用于定理证明。

2.训练生成器：将上述验证器作为奖励模型（Reward Model）来训练证明生成器

3.自我纠错：激励生成器在最终定稿前，主动识别并解决自身证明中的问题

4.动态进化：为了在生成器变强时保持“生成-验证”的差距，通过扩展验证计算来自动标注难以验证的新证明，生成训练数据以进一步提升验证器

评测结果

DeepSeekMath-V2在IMO-ProofBench（由DeepThink IMO-Gold背后的谷歌DeepMind团队开发）展现了强大的定理证明能力：

IMO 2025：达到金牌水平
CMO 2024：达到金牌水平。
Putnam 2024：取得118/120的超高分

快速上手

DeepSeekMath-V2建立在 DeepSeek-V3.2-Exp-Base 之上。

如需推理支持，可参考 DeepSeek-V3.2-Exp 的 GitHub 仓库

参考：

https://huggingface.co/deepseek-ai/DeepSeek-Math-V2-v2-towards-self-verifiable-mathematical-reasoning

--end--

最后记得⭐️我，这对我非常重要，每天都在更新：

欢迎点赞转发推荐评论，别忘了关注我

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

这精度调节的挺好！

大秦论道 2026-01-14 17:55:27
1336 跟贴 1336
五年级数学求阴影部分面积，两个知识点

天天数理学习分享 2026-01-15 11:08:27
1 跟贴 1

小学数学求面积，蝴蝶模型的应用

天天数理学习分享 2026-01-11 16:12:29
3 跟贴 3

学会这三招蒙题大法，祝你考的都会蒙的都对

飘过的知识 2026-01-13 17:24:45
19 跟贴 19
学霸思维：拉开数学的差距是思维型题目

郎老师趣味数学课堂 2026-01-12 14:46:14
18 跟贴 18

数学难题挑战：你敢接吗？

小车车和小刘刘 2026-01-11 02:59:44
0 跟贴 0

华罗庚竞赛题：看起来很难，其实就是个纸老虎

郎老师趣味数学课堂 2026-01-12 14:49:42
6 跟贴 6
93人提前录取清华！浙江人数线，深圳中学、成都七中表现出色

史海流年号 2026-01-14 17:07:06
51 跟贴 51

1112一年级易错题：孩子看到信息多不知用哪个?要学会排除干扰信

我服子佩 2026-01-11 20:24:07
1 跟贴 1
数学是世界上通用的语言

超人飞不高 2026-01-13 16:08:08
1 跟贴 1
移多补少问题，二年级以后拉开数学的差距就是思维

郎老师趣味数学课堂 2026-01-14 07:19:21
1 跟贴 1
美国竞赛题：计算10-20+30-40，难哭很多美国人

大力小学数学 2026-01-11 15:20:00
1 跟贴 1
挑战美国数学竞赛题

大力小学数学 2026-01-14 14:14:00
0 跟贴 0
临朐往事：尹继学老师

言立方 2026-01-15 12:04:42
0 跟贴 0
美国中考题，中国小学生口算

大力小学数学 2026-01-11 15:20:00
0 跟贴 0
某大牛数学老师超长珍贵经验分享——到底有没有必要学AS？

探校 2026-01-14 05:20:13
0 跟贴 0
这个倒三角 ∇，为什么总在数学和物理公式里出现？

量子位 2026-01-07 15:33:23
0 跟贴 0
学霸硬核控分，各科满分却不写英文，不怕被老师找上门吗

笑影日记 2026-01-14 08:41:25
1 跟贴 1
29岁数学老师卷子还没改完就被120救护车拉走：我请不了什么假

星视频 2026-01-15 12:00:09
0 跟贴 0
倒三角符号在数学和物理公式里的意义

量子位 2026-01-08 13:59:54
0 跟贴 0
要是没有意外，这也就模拟时候丝滑，现实中会卡得一批！

一休在搞笑 2026-01-14 09:52:17
0 跟贴 0
家长辅导作业哭笑不得，樊登一针见血：孩子思维卡住了

封面新闻 2026-01-15 09:22:04
0 跟贴 0
Codeforces难题不够刷？谢赛宁等造了AI出题机，能生成原创编程题

机器之心Pro 2025-10-20 14:17:05
0 跟贴 0
深圳中考题：本来是送分题，又有很多同学丢了3分

郎老师趣味数学课堂 2026-01-14 19:00:19
0 跟贴 0
大模型碰到真难题了，测了500道，o3 Pro仅通过15%

机器之心Pro 2025-09-15 10:45:10
0 跟贴 0
五年级思维训练：掌握了方法就能迎刃而解！

公考客栈店小二 2026-01-11 15:00:23
0 跟贴 0
学霸思维训练：求梯形ABCD的面积

公考客栈店小二 2026-01-12 18:00:00
0 跟贴 0
学霸思维训练：利用梯形的一半模型就能搞定

公考客栈店小二 2026-01-13 18:00:00
0 跟贴 0
美国教育那么拉胯，为啥还能做出超级牛的东西？

米师傅安装 2026-01-14 17:09:14
1 跟贴 1
学霸思维训练：用沙漏模型和蝴蝶模型求解

公考客栈店小二 2026-01-11 18:00:00
0 跟贴 0
美媒：美国将暂停对75个国家的所有签证

新华社 2026-01-14 22:40:07
18838 跟贴 18838
数学学得好，媳妇跑不了，没点学历还真不敢追女人

小小鱼追剧 2026-01-11 14:01:38
3 跟贴 3
一年级女儿练习自己的名字，每一笔都出乎妈妈意料

逛吃青岛 2026-01-14 17:35:03
0 跟贴 0
来上课了——话题阅读：环保类文章阅读+环保词汇总结第2段

沙中的世界 2026-01-13 20:28:30
4 跟贴 4
委内瑞拉竞赛题，计算1-3+5-7+9

大力小学数学 2026-01-12 13:56:00
0 跟贴 0
趣味数学：复方滤镜

帆雨动画 2026-01-13 11:54:13
3 跟贴 3
引入几何约束后，VLM跨越了「空间推理」的认知鸿沟

机器之心Pro 2026-01-12 17:17:59
0 跟贴 0
2026牛津放榜！上海狂揽82枚，远超北京，这些黑马学校杀疯了！

留学生日报 2026-01-15 10:24:20
0 跟贴 0
又一推理新范式：将LLM自身视作改进操作符，突破长思维链极限

机器之心Pro 2025-10-04 18:35:49
0 跟贴 0
玩抽象？没怕过

李叔凡律师 2026-01-13 09:12:15
0 跟贴 0

贺娇龙离世！其大量骑马不正确的踩马镫方式流出，或是悲剧的起因

贺娇龙离世！其大量骑马不正确的踩马镫方式流出，或是悲剧的起因

火山诗话

2026-01-15 05:41:36

DeepSeek V4深夜炸场！CPU能当GPU用，AI部署成本直接砍90%？

DeepSeek V4深夜炸场！CPU能当GPU用，AI部署成本直接砍90%？

呼呼历史论

2026-01-15 01:15:07

为何而哭？在战胜皇马后，巴列霍泪流满面并且情绪完全失控

为何而哭？在战胜皇马后，巴列霍泪流满面并且情绪完全失控

懂球帝

2026-01-15 08:04:58

特朗普鼓动伊朗示威者“接管国家机构”，伊朗控诉美国“严重违反国际法”

特朗普鼓动伊朗示威者“接管国家机构”，伊朗控诉美国“严重违反国际法”

环球网资讯

2026-01-15 06:43:08

多地公布2025年结婚登记数据

多地公布2025年结婚登记数据

上观新闻

2026-01-13 16:44:07

美国组织发布Labubu工厂调查报告：工人每月只休1天，还雇有未成年人

美国组织发布Labubu工厂调查报告：工人每月只休1天，还雇有未成年人

小萝卜丝

2026-01-14 13:58:23

伊朗处于最高战备状态！未排除动武可能，特朗普：将“观望”局势发展！欧洲多国敦促其公民离开伊朗

伊朗处于最高战备状态！未排除动武可能，特朗普：将“观望”局势发展！欧洲多国敦促其公民离开伊朗

每日经济新闻

2026-01-15 06:30:06

阿森纳3-2切尔西！进英联杯决赛占先机加纳乔双响哲凯赖什传射

阿森纳3-2切尔西！进英联杯决赛占先机加纳乔双响哲凯赖什传射

我爱英超

2026-01-15 06:03:10

要引狼入室？柬埔寨副首相呼吁减少对中国的依赖，欢迎美军舰来访

要引狼入室？柬埔寨副首相呼吁减少对中国的依赖，欢迎美军舰来访

时时有聊

2026-01-15 10:29:54

棋圣聂卫平病逝

上观新闻

2026-01-15 08:10:09

苍天好轮回！徐帆回应离婚5个月后，冯小刚终于迎来'反噬'

苍天好轮回！徐帆回应离婚5个月后，冯小刚终于迎来'反噬'

浮光惊掠影

2026-01-14 03:53:42

伊朗首席大法官表示快速诉讼和处决示威者

伊朗首席大法官表示快速诉讼和处决示威者

一种观点

2026-01-14 19:16:39

中纪委发出信号，这次，全国几十万村干部要瑟瑟发抖了…

中纪委发出信号，这次，全国几十万村干部要瑟瑟发抖了…

慧翔百科

2026-01-15 08:41:47

痛心！贺娇龙抢救无效离世,同学透露遗体已回昭苏,最后朋友圈曝光

痛心！贺娇龙抢救无效离世,同学透露遗体已回昭苏,最后朋友圈曝光

派大星纪录片

2026-01-15 08:25:49

25岁操作工跳楼身亡，因多次请辞照顾偏瘫母亲遭拒？坠楼前曾与主管通话，涉事主管回应

25岁操作工跳楼身亡，因多次请辞照顾偏瘫母亲遭拒？坠楼前曾与主管通话，涉事主管回应

极目新闻

2026-01-15 11:14:53

“每卖一辆问界，13.6万流向华为”，赛力斯最新披露来了

“每卖一辆问界，13.6万流向华为”，赛力斯最新披露来了

智能车参考

2026-01-14 17:14:37

A股:周四中午传来3大核弹级利空!A股很可能会迎更大级别大行情？

A股:周四中午传来3大核弹级利空!A股很可能会迎更大级别大行情？

股市皆大事

2026-01-15 11:28:41

专机已抵京，卡尼对台叫停一件事，大陆发布照会，民进党连犯4错

专机已抵京，卡尼对台叫停一件事，大陆发布照会，民进党连犯4错

时时有聊

2026-01-14 19:33:23

痛心！妈妈将女儿送回前夫家后躲藏，9岁女儿撕心裂肺找妈妈晕倒身亡！

痛心！妈妈将女儿送回前夫家后躲藏，9岁女儿撕心裂肺找妈妈晕倒身亡！

上观新闻

2026-01-14 23:14:05

贺娇龙遗体已回到新疆昭苏！生前“策马雪原”带动当地文旅

贺娇龙遗体已回到新疆昭苏！生前“策马雪原”带动当地文旅

南方都市报

2026-01-15 10:50:06

专注于人工智能，科技领域

1027文章数 393关注度

往期回顾全部

教育要闻

7个表现，说明你把孩子养得很好

头条要闻

银币半年暴涨20倍杭州有人一口气花30万买15公斤银砖

头条要闻

银币半年暴涨20倍杭州有人一口气花30万买15公斤银砖

体育要闻

你是个好球员，我们就拿你交易吧

娱乐要闻

传奇棋圣聂卫平离世，网友集体悼念

财经要闻

“疯狂的白银”，还能走多远？

科技要闻

千问接入淘宝支付宝，大模型开卷办事能力

汽车要闻

今年推出超40款新车，BBA要把失去的夺回来

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

亲子

教育

时尚

公开课

军事航空

亲子要闻

深度长文：人类婴儿为何这么脆弱，在原始社会如何生存下来的？

教育要闻

航海类专业赢麻了！交通运输部2025拟录697人，多名专科生上岸

最时髦的单品，难道不是背肌吗？

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

中东气氛愈发紧张伊朗处于最高战备状态

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版