网易首页 > 网易号 > 正文 申请入驻

DeepSeekMath-V2炸场!普特南竞赛接近满分,IMO 2025金牌,专攻“自验证”推理

0
分享至


↑阅读之前记得关注+星标⭐️,,每天才能第一时间接收到更新

DeepSeek王者归来!刚刚发布了DeepSeekMath-V2

在IMO 2025和 CMO(中国数学奥林匹克) 2024 中,DeepSeekMath-V2均达到了金牌水平

在 Putnam(普特南数学竞赛。地位:北美地区「美国和加拿大」最顶尖、最负盛名的大学本科生数学竞赛) 2024 竞赛中,更是随着测试时计算量(test-time compute)的扩展,拿下了 118/120 的几近满分成绩。

这一成果表明,自验证数学推理(Self-Verifiable Mathematical Reasoning)是一条可行的研究路径

核心要点如下

为什么需要自验证?

过去一年,大语言模型通过基于最终答案正确性的强化学习,在AIME和HMMT等定量推理竞赛中取得了长足进步,甚至达到饱和

但这种方法面临根本性局限:

答案对 推理对:追求更高的答案准确率,并不能解决推理过程中的核心问题。

非数值任务失效:许多数学任务(如定理证明)需要严谨的逐步推导,而非简单的数值答案,无法应用基于最终答案的奖励机制

为了突破深度推理的极限,验证数学推理的全面性和严谨性至关重要。

特别是对于没有已知解决方案的开放性问题,自验证是扩展测试时计算量(scaling test-time compute)的关键

DeepSeekMath-V2 是怎么做的?

DeepSeek团队通过以下步骤实现自验证数学推理:

1.训练验证器:训练一个准确且忠实的大模型验证器(Verifier),专门用于定理证明。

2.训练生成器:将上述验证器作为奖励模型(Reward Model)来训练证明生成器

3.自我纠错:激励生成器在最终定稿前,主动识别并解决自身证明中的问题

4.动态进化:为了在生成器变强时保持“生成-验证”的差距,通过扩展验证计算来自动标注难以验证的新证明,生成训练数据以进一步提升验证器

评测结果

DeepSeekMath-V2在IMO-ProofBench(由DeepThink IMO-Gold背后的谷歌DeepMind团队开发)展现了强大的定理证明能力:

IMO 2025:达到金牌水平
CMO 2024:达到金牌水平。
Putnam 2024:取得118/120的超高分



快速上手

DeepSeekMath-V2建立在 DeepSeek-V3.2-Exp-Base 之上。

如需推理支持,可参考 DeepSeek-V3.2-Exp 的 GitHub 仓库

参考:

https://huggingface.co/deepseek-ai/DeepSeek-Math-V2-v2-towards-self-verifiable-mathematical-reasoning

--end--

最后记得⭐️我,这对我非常重要,每天都在更新:

欢迎点赞转发推荐评论,别忘了关注我

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大专、野模、知三当三,孙怡浪姐"骚操作"不断难怪王京花看不上她

大专、野模、知三当三,孙怡浪姐"骚操作"不断难怪王京花看不上她

橙星文娱
2026-04-18 16:01:07
为什么说印度的海岸线,远看是老天爷赏饭,近看是逗你玩儿?

为什么说印度的海岸线,远看是老天爷赏饭,近看是逗你玩儿?

半解智士
2026-04-16 17:10:39
54岁黎姿海滩照曝光!三个孩子的妈?网友:确定不是AI换脸?

54岁黎姿海滩照曝光!三个孩子的妈?网友:确定不是AI换脸?

今古深日报
2026-04-20 10:16:38
单价飙升三倍也要毁约,表面老实巴交的马来西亚究竟藏了多深

单价飙升三倍也要毁约,表面老实巴交的马来西亚究竟藏了多深

寰球经纬所
2026-04-20 21:58:07
魔术112-101击败东部第1!这一战不得不承认6大现实:骑士赌对了

魔术112-101击败东部第1!这一战不得不承认6大现实:骑士赌对了

毒舌NBA
2026-04-20 09:19:51
高瓴资本张磊:判断一个人是否靠谱,关键看4个维度

高瓴资本张磊:判断一个人是否靠谱,关键看4个维度

新浪财经
2026-04-20 01:51:52
认罪刚一天!许家印长子每月4100万生活费,家族资产黑幕全揭开

认罪刚一天!许家印长子每月4100万生活费,家族资产黑幕全揭开

番外行
2026-04-20 12:46:52
小小甲钴胺,可以改善中老年人六大健康问题!

小小甲钴胺,可以改善中老年人六大健康问题!

药师方健
2026-04-09 22:01:20
只剩2天,解放军准时下通牒,赖清德将登机离台,萧旭岑判断准确

只剩2天,解放军准时下通牒,赖清德将登机离台,萧旭岑判断准确

共工之锚
2026-04-20 09:02:09
越南百亿高铁订单给德国,来华体验12小时高铁,背后算计太明显

越南百亿高铁订单给德国,来华体验12小时高铁,背后算计太明显

云舟史策
2026-04-20 07:21:35
李雨桐泄露薛之谦手机号、身份证号,被北京朝阳警方行政拘留

李雨桐泄露薛之谦手机号、身份证号,被北京朝阳警方行政拘留

封面新闻
2026-04-19 18:38:11
急疯了!快船梭哈式豪赌,4笔重磅交易曝光,只为留住伦纳德?

急疯了!快船梭哈式豪赌,4笔重磅交易曝光,只为留住伦纳德?

体育大朋说
2026-04-20 11:15:16
打不得!日本战舰闯入台海峡,我军为什么不直接击沉它?

打不得!日本战舰闯入台海峡,我军为什么不直接击沉它?

趣文说娱
2026-04-18 19:34:03
什么原因?仅仅一百五十年,江阴靖江长江江面居然缩窄了80%

什么原因?仅仅一百五十年,江阴靖江长江江面居然缩窄了80%

抽象派大师
2026-04-20 01:27:38
黎笋长子曾坦言:越南当年敢打中国有3个原因,结果发现全是错觉

黎笋长子曾坦言:越南当年敢打中国有3个原因,结果发现全是错觉

顾史
2026-04-18 09:17:19
美国断供!万斯宣布停止援乌资金,欧洲6000亿军火账单谁买单?

美国断供!万斯宣布停止援乌资金,欧洲6000亿军火账单谁买单?

泠泠说史
2026-04-20 17:30:52
万达电影终于谢幕!“儒意系”大佬二度接盘的万达资产却频遭投诉

万达电影终于谢幕!“儒意系”大佬二度接盘的万达资产却频遭投诉

财通社
2026-04-20 21:38:13
越南一把手很焦虑:和中国一对比,才知道原来我们落后了这么多

越南一把手很焦虑:和中国一对比,才知道原来我们落后了这么多

头条爆料007
2026-04-20 15:46:48
很少有互联网公司的人去华为,但华为的人能去几乎所有地方,为啥

很少有互联网公司的人去华为,但华为的人能去几乎所有地方,为啥

老方
2026-04-20 09:49:45
仅播5集,热度破22000,追完后我想说:能和《漫长的季节》媲美了

仅播5集,热度破22000,追完后我想说:能和《漫长的季节》媲美了

星宿影视鸭
2026-04-20 10:58:00
2026-04-20 23:04:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1036文章数 397关注度
往期回顾 全部

教育要闻

最新!三十五中落户顺义,高中部面向西城、顺义招生

头条要闻

欧洲或再迎一位亲俄领导人 曾与泽连斯基发生公开冲突

头条要闻

欧洲或再迎一位亲俄领导人 曾与泽连斯基发生公开冲突

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成,字节到底在做什么

科技要闻

HUAWEI Pura X Max发布 售价10999元起

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

教育
家居
亲子
健康
公开课

教育要闻

关注!海淀这所学校不再具备办学资格

家居要闻

自然慢调 慢享时光

亲子要闻

【孤独症科普】啥是孤独症,哪些孩子易发生,如何应对?

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版