网易首页 > 网易号 > 正文 申请入驻

刚刚,DeepSeek开源新模型,拿下奥数证明题冠军

0
分享至


智东西
作者 李水青
编辑 心缘

智东西11月17 日报道,今日,DeepSeek开源了“奥数金牌级”模型DeepSeekMath-V2,该模型具备强大的定理证明能力

DeepSeekMath-V2在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)上取得了金牌水平的成绩;并在2024年普特南大学生数学竞赛(Putnam 2024)上取得了接近满分(118/120分)的成绩,超过人类最高的90分成绩。


如下图所示,DeepSeekMath-V2以10%的优势击败谷歌的IMO金奖得主DeepThink模型。

▲DeepSeekMath-V2在数学竞赛中的成绩表现


▲DeepSeekMath-V2在IMO-ProofBench的测评结果

上述结果表明,自验证数学推理是一个可行的研究方向,可能有助于开发更强大的数学AI系统。


Hugging Face地址:
https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
论文地址:
https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf

按惯例,DeepSeek往往会将新开源的模型直接上线DeepSeek,我们第一时间尝试进行了体验。

首先让DeepSeek证明一道较简单的题目“证明根号2为无理数”,DeepSeek快速给出了正确答案。


当智东西输入“证明奇数和整数哪个多?”这一证明题,DeepSeek也给出了正确证明过程和答案,这一证明过程大部分人应该可以看懂。当然,奥数级证明题会更加复杂,如果有能够看懂理解这类题目的读者,可以再进一步进行体验测试。



回到模型背后的研发问题,我们来具体看看论文内容,从已有的研究来看,在数学推理领域,强化学习(RL)传统方法足以让大模型在主要评估最终答案的数学竞赛(如AIME和HMMT)中达到很高的水平。然而这种奖励机制存在两个根本性的局限性:

首先,传统方法不能可靠地代表推理的正确性,模型可能通过有缺陷的逻辑或侥幸的错误得出正确答案。

其次,它不适用于定理证明任务,在这类任务中,问题可能不需要生成数值形式的最终答案,而严谨的推导才是主要目标。

为此,DeepSeek建议在大型语言模型中开发证明验证能力,基于DeepSeek-V3.2-Exp-Base开发了DeepSeekMath-V2。他们让模型明确了解其奖励函数,并使其能够通过有意识的推理而非盲目的试错来最大化这一奖励。

DeepSeek制定了用于证明评估的高级评分标准,目的是训练一个验证器,使其能根据这些评分标准对证明进行评估,模拟数学专家的评估过程。以DeepSeek-V3.2-Exp-SFT的一个版本为基础,通过强化学习训练模型生成证明分析,训练过程使用了两个奖励组件:格式奖励和分数奖励。


然后是构建强化学习数据集。DeepSeek基于17503道竞赛题目、DeepSeek-V3.2-Exp-Thinking生成的候选证明、带专家评分的随机抽取的证明样本,构建了初始强化学习训练数据集。

紧接着,其设置了强化学习目标和训练验证器的强化学习目标。具体是以DeepSeek-V3.2-Exp-SFT的一个版本为基础,通过强化学习训练模型生成证明分析,训练过程使用了两个奖励组件:格式奖励和分数奖励。而后通过下列函数完成训练验证器的强化学习目标。

为了解决训练过程中“验证器可能通过预测正确分数同时虚构不存在的问题来获得全部奖励”这一漏洞,DeepSeek引入了一个二次评估过程——元验证(meta-verification),从而提高验证器识别问题的忠实度。

在证明生成阶段,DeepSeek进行了证明生成器的训练,并通过自我验证增强推理能力,解决模型被要求一次性生成并分析自己的证明时“生成器不顾外部验证器判错而宣称证明是正确的”。


最后,DeepSeek证明验证器和生成器形成了一个协同循环:验证器改进生成器,而随着生成器的改进,它会生成新的证明,这些证明对验证器当前的能力构成挑战,这些挑战也成为增强验证器自身的宝贵训练数据。

简单来说,DeepSeekMath-V2模型中的验证器能完成逐步检查证明过程,而生成器则会修正自身的错误。

从实验结果来看,在单步生成结果评估中,如图1所示,在CNML级别的所有问题类别(代数、几何、数论、组合数学和不等式)中,DeepSeekMath-V2始终优于GPT-5-Thinking-High和Gemini 2.5-Pro,展现出在各领域更卓越的定理证明能力。


在带自我验证的顺序优化中,其对2024 IMO备选题进行连续优化后,证明质量提升。自选的最佳证明比线程平均值获得了显著更高的验证分数,这表明生成器能够准确评估证明质量。这些结果证实,其生成器能够可靠地区分高质量证明和有缺陷的证明,并利用这种自我认知系统地改进其数学推理能力。

在高计算量探索中,DeepSeek扩大了验证和生成计算的规模,他们的方法解决了2025 IMO的6道题中的5道,以及2024 CMO的4道题,另外1道题获得部分分数,在这两项顶尖高中竞赛中均达到金牌水平,在基础集上优于DeepMind的DeepThink(IMO金牌水平),在高级集上保持竞争力,同时大幅优于所有其他基线模型。

但DeepSeek发现,最困难的IMO级别问题对其模型来说仍然具有挑战性。

值得注意的是,对于未完全解决的问题,DeepSeek的生成器通常能在其证明过程中识别出真正的问题,而完全解决的问题则能通过所有64次验证尝试。这表明,我们能够成功训练基于大语言模型的验证器,以评估那些此前被认为难以自动验证的证明。通过在验证器的指导下增加测试时的计算量,DeepSeek的模型能够解决那些需要人类竞争者花费数小时才能解决的问题。

结语:可自我验证的AI系统,离解决研究级数学问题更进一步

总的来说,DeepSeek提出了一个既能生成又能验证数学证明的模型。团队突破了基于最终答案的奖励机制的局限性,迈向了可自我验证的数学推理。

这项工作证实,大语言模型能够培养出针对复杂推理任务的有意义的自我评估能力。尽管仍存在重大挑战,这一研究方向有望为创建可自我验证的AI系统解决研究级数学问题这一目标做出贡献。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国艺人被困中东!黄渤惊险逃离,玄子一家7000租车,周雨彤回京

中国艺人被困中东!黄渤惊险逃离,玄子一家7000租车,周雨彤回京

潮鹿逐梦
2026-03-02 22:48:22
遭受惨烈袭击后,伊朗做了一件“史无前例”的事

遭受惨烈袭击后,伊朗做了一件“史无前例”的事

环球时报国际
2026-03-02 23:59:38
王毅外长:今后世上再无“中国台湾省”之外的任何模糊称谓。

王毅外长:今后世上再无“中国台湾省”之外的任何模糊称谓。

南权先生
2026-02-02 15:59:44
伊朗货币一夜贬值97%,对普通人来说这否是时代的尘埃落在肩上?

伊朗货币一夜贬值97%,对普通人来说这否是时代的尘埃落在肩上?

闻号说经济
2026-03-02 17:08:38
伊朗再对美以基地发动大规模袭击

伊朗再对美以基地发动大规模袭击

财联社
2026-03-01 12:32:05
参宿四爆炸后,地球夜空会亮如白昼,至少半年不用开灯了

参宿四爆炸后,地球夜空会亮如白昼,至少半年不用开灯了

观察宇宙
2026-03-02 19:09:35
科威特“一战封神”:击落3架F-15!美军司令部已承认损失

科威特“一战封神”:击落3架F-15!美军司令部已承认损失

战风
2026-03-02 20:13:20
“研王爷来了”,复旦考生开出神级分数,网友:导师见你都得锁门

“研王爷来了”,复旦考生开出神级分数,网友:导师见你都得锁门

妍妍教育日记
2026-03-02 18:11:23
3月1日起全国执行!这些费用全取消,家家都能省!

3月1日起全国执行!这些费用全取消,家家都能省!

达文西看世界
2026-03-02 15:40:41
迪拜机场再次被炸!被困女星已失联,工作室一言不发,后果不敢想

迪拜机场再次被炸!被困女星已失联,工作室一言不发,后果不敢想

潮鹿逐梦
2026-03-02 20:55:29
8小时撤离德黑兰,沈阳男子讲述离开伊朗细节:当地对中国人友好,3次盘问都顺利放行

8小时撤离德黑兰,沈阳男子讲述离开伊朗细节:当地对中国人友好,3次盘问都顺利放行

潇湘晨报
2026-03-02 19:49:19
2-1,63岁穆帅发威:率队豪取4连胜+24轮不败,继续逼近榜首

2-1,63岁穆帅发威:率队豪取4连胜+24轮不败,继续逼近榜首

侧身凌空斩
2026-03-03 06:15:36
对话郑永年:斩首哈梅内伊后,特朗普究竟想要什么?

对话郑永年:斩首哈梅内伊后,特朗普究竟想要什么?

大湾区评论
2026-03-01 21:23:33
成龙安排好身后事才2个月,翁静晶再曝大瓜,没给他留一丝体面

成龙安排好身后事才2个月,翁静晶再曝大瓜,没给他留一丝体面

星星没有你亮
2026-02-28 20:40:21
特斯拉车主:Model Y L 中控台充电口“烧坏”,自费更换要 2700 元

特斯拉车主:Model Y L 中控台充电口“烧坏”,自费更换要 2700 元

新浪财经
2026-03-02 23:51:33
北京女子奔赴河南见陌生男,一见面抱紧崩溃说:对不起,我来晚了

北京女子奔赴河南见陌生男,一见面抱紧崩溃说:对不起,我来晚了

观察鉴娱
2026-03-02 10:22:34
“斩首”行动细节揭秘:美以战机同地起飞,直扑哈梅内伊

“斩首”行动细节揭秘:美以战机同地起飞,直扑哈梅内伊

中国新闻周刊
2026-03-02 10:32:04
哈梅内伊的死都没让伊朗人一条心,还有人鼓掌庆祝:是伟大的一天

哈梅内伊的死都没让伊朗人一条心,还有人鼓掌庆祝:是伟大的一天

社会酱
2026-03-02 17:20:28
近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

鲸探所长
2026-03-01 14:38:25
28场造20球!韦世豪疑不满无缘金球奖:发笑哭表情 配乐《偷感》

28场造20球!韦世豪疑不满无缘金球奖:发笑哭表情 配乐《偷感》

风过乡
2026-03-02 19:54:23
2026-03-03 08:11:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11280文章数 116984关注度
往期回顾 全部

科技要闻

苹果iPhone17e发布:4499元起 升级A19芯片

头条要闻

媒体:遭受惨烈袭击后 伊朗做了件"史无前例"的事

头条要闻

媒体:遭受惨烈袭击后 伊朗做了件"史无前例"的事

体育要闻

“想要我签名吗” 梅西逆转后嘲讽对手主帅

娱乐要闻

李亚鹏与哥哥和解 只有一条真心话短信

财经要闻

油价飙升 美伊冲突将如何搅动全球经济

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

本地
游戏
时尚
健康
军事航空

本地新闻

津南好·四时总相宜

LPL人气选手被曝恋情?疑似与女主持谈恋爱,本人亲自下场辟谣!

今年春天一定要拥有的4件衣服,太好看了!

转头就晕的耳石症,能开车上班吗?

军事要闻

美国中央司令部透露对伊朗动武全部武器装备清单

无障碍浏览 进入关怀版