网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

DeepSeek再破谷歌OpenAI垄断：开源IMO数学金牌大模型

2025-11-28 12:41:40　来源: 量子位

北京举报

0

分享至

henry 发自凹非寺
量子位 | 公众号

AI界掌管开源的神——DeepSeek回来了！

刚刚，DeepSeek开源了全新的数学模型DeepSeekMath-V2，专注于可自验证的数学推理。

DeepSeekMath-V2不仅在IMO 2025和CMO 2024中取得金牌级分数，而且还在Putnam 2024中，得分118/120，超过了人类最高分90。

与此同时，DeepSeekMath-V2在所有CNML级别问题类别（代数、几何、数论、组合学、不等式）上均优于GPT-5-Thinking-High和Gemini 2.5-Pro。

不仅性能无敌，网友表示这还是第一个开源的IMO金牌模型。

这下，谷歌和OpenAI要坐不住了！

特别是OpenAI，本来就打算放出IMO金牌模型来应对谷歌Gemini 3 Pro的冲击，现在被DeepSeek抢先一步。

（鲸鱼回来了！）

值得一提是，这篇论文的一作邵智宏也是之前DeepSeekMath 7B的一作，在那篇论文中，他们提出了著名的GRPO

最强开源IMO金牌模型

总的来说，DeepSeekMath-V2是一个旨在实现自验证数学推理（Self-verification）的大型语言模型（685B）。

它的核心在于开发和利用强大的证明验证能力来指导和优化证明生成，从而克服传统上依赖最终答案作为奖励的强化学习（RL）方法的局限性。

传统用于数学推理的强化学习（RL）方法存在根本性限制：

最终答案奖励的不可靠性：将LLM奖励基于最终答案的正确性，并不能保证推理过程的正确性或逻辑的严谨性，模型可能通过错误的逻辑得出正确答案。
对定理证明任务的局限性：许多数学任务（如定理证明）不要求数值答案，而是需要严格的步骤推导和逻辑严谨性，使得基于最终答案的奖励机制不适用。
缺乏内部验证能力：经过传统方法训练的LLMs缺乏验证自身证明有效性的能力，经常表现出高假阳性率（即认为错误的证明是有效的)。

DeepSeekMath-V2采用迭代的强化学习循环，交替优化证明验证器和证明生成器，以实现可自验证的数学推理。

证明验证

训练验证器

研究首先训练一个准确且忠实的LLM-based验证器，使其能够根据人类专家的标准识别证明中的问题并评分。

具体来说，验证器针对给定的数学问题与证明，输出一个证明分析，该分析首先总结识别出的问题（如果有），然后基于三个级别分配一个分数：

1：完全正确、严谨且逻辑清晰的证明。0.5：总体逻辑合理，但有微小错误或细节遗漏的证明。0：包含致命逻辑错误或关键漏洞的根本性错误的证明。

验证器的训练分为数据构建（冷启动）和模型强化学习目标两个关键阶段。

在数据构建阶段，研究首先从AoPS竞赛中收集了1.75万个要求证明的奥赛级别数学问题。

随后，利用现有模型（DeepSeek-V3.2-Exp-Thinking）生成大量的候选证明，并通过多轮迭代来提升证明的严谨性，最终请数学专家人工对这些证明进行评分，分数分为1、0.5和0三个级别，从而创建了初始的RL验证数据集。

进入强化学习目标阶段，研究使用上述数据集对基础模型（DeepSeek-V3.2-Exp-SFT）进行训练，使其能够输出证明分析总结和最终分数。

奖励函数一方面通过格式奖励强制模型输出格式包含问题总结和分数，另一方面通过分数奖励激励模型预测的分数与专家标注的分数高度一致，从而使验证器具备模仿人类专家评估严谨性的能力。

引入元验证 (Meta-Verification)

为解决初步训练的验证器可能因幻觉（hallucinating）不存在的问题而获得正确低分，从而损害其对错误识别的忠实性（faithfulness）的问题，研究团队引入了元验证（Meta-Verification）机制。

元验证作为一个二级评估过程，旨在审查验证器生成的证明分析（Proof Analysis），评估其中识别出的问题是否真实存在，以及这些问题是否在逻辑上合理地支持了其预测的证明分数。

为了训练元验证器，研究首先让数学专家根据专门的元验证标准对验证器输出的分析质量进行评分，创建了元验证数据集。

随后，研究训练了一个专门的元验证器，该元验证器生成对验证分析本身的问题总结，并分配一个质量分数，以衡量原验证器分析的准确性和合理性。

元验证器的强化学习目标结构与验证器训练类似，同样包含格式奖励和分数奖励。

接下来是增强验证器训练，研究利用训练好的元验证器，将元验证的质量分数集成到验证器的奖励函数中，以增强验证器的忠实性。

最终，使用原验证数据集和元验证数据集共同训练增强后的验证器，使该模型能够同时执行证明验证和元验证两项任务。

在原验证数据集的一个验证子集上，经验证器评估的证明分析的平均质量分数从 0.85 提升到了0.96，同时保持了证明分数预测的准确性不变，有力证明了元验证机制能有效提高验证器识别问题的忠实度。

证明生成

接下来，研究用训练好的验证器作为奖励模型来训练证明生成器，并进一步通过“自验证”机制，让生成器学会严格地自我审查和修正，从而提高证明质量。

具体来说，研究训练生成器以最大化验证器赋给其生成的证明的分数。

在训练中，生成器被要求在生成证明后，紧跟着进行自我分析。奖励函数激励准确的自我评估和正确性。

最终奖励是对证明质量和自我评估质量的加权组合。

由此，自我评估奖励不仅奖励自评分的准确性，还奖励自我分析的忠实性。

这种奖励结构激励生成器：忠实地承认错误（而非盲目自信）。获得高奖励的最佳策略是在最终输出前，积极识别并解决自身证明中存在的问题，从而实现自我迭代完善。

证明验证与生成之间的协同作用

接下来，研究利用验证器和生成器的协同作用，通过规模化的计算和元验证机制，建立了一个完全自动化的数据标注流程，从而持续提升验证器的能力，并最终取代耗时的人工标注。

然而，随着问题难度增加，人工标注耗时且效率低下。由此研究提出了一套自动化标注的方法：

首先，通过生成n个独立的验证分析，提高在有缺陷证明中捕获真实问题的概率。接下来，利用元验证器生成m个评估，对报告问题的分析进行有效性确认，确保识别出的问题是真实的（元验证比从零识别问题更高效）。

具体的标注流程如下：

分数判定：检查所有分析中分配的最低分数。只有当至少有k个分析被元验证确认为有效时，该最低分才被赋给该证明；否则标记为1分（无合法缺陷）。
取代人工：最终，这种完全自动化的流程在后续训练迭代中彻底取代了人工标注，并且质量检查证实其标注结果与专家判断高度一致。

由此，上述流程在最终的训练迭代中彻底取代了耗时的人力标注，实现了验证和生成的协同循环，保证了模型能力的持续突破。

实验结果

研究采用GRPO进行强化学习，迭代地优化证明验证和生成能力。

在每次迭代中，研究首先优化证明验证。然后，证明生成器会从验证器的checkpoint初始化，并针对证明生成进行优化。

从第二次迭代开始，证明验证器会使用一个检查点进行初始化，该检查点通过拒绝微调（rejection fine-tuning）巩固了前一次迭代中的验证和生成能力。

研究首先评估了模型未经迭代完善的单次生成正确证明的能力。

实验结果表明，在所有CNML级别问题类别中——包括代数、几何、数论、组合学和不等式——DeepSeekMath-V2 持续优于 GPT-5-Thinking-High和Gemini 2.5-Pro。

为了探究扩展上下文和自验证如何提高证明质量，研究又评估了带有自验证的顺序精炼方法。

研究表明，自选的最佳证明比线程平均得分获得了显著更高的验证分数，这证明生成器具备准确评估证明质量的能力。

此外，随着最大顺序尝试次数的增加，Pass@1大幅提升，表明自验证有效地指导了迭代改进。

这些结果表明，生成器能够可靠地区分高质量和有缺陷的证明，并利用这种自我意识系统地改进其数学推理。

最后，为了解决最具备挑战性的问题，研究采用了高计算量搜索策略，该策略通过并行生成探索多样化的证明路径，并结合规模化的（64 次）验证来精确识别细微错误。

模型迭代地从包含问题分析的候选证明池中精炼出最优证明，直到证明通过所有验证。

最终，这种方法使其在Putnam竞赛中以118/120的分数超越人类最高分90分，展现了在验证器指导下，AI解决复杂问题的强大能力。

One more thing

如开头所说，这篇论文的一作邵智宏也是DeepSeek之前数学模型DeepSeekMath 7B的一作。

值得一提的是，也就是在DeepSeekMath 7B的论文中，他和团队提出了经典的GRPO（Group Relative Policy Optimization ）。同样的，他也是DeepSeek-R1的核心贡献者。

邵智宏目前是DeepSeek从事大模型推理研究的研究员，他本科毕业于北京航空航天大学，博士毕业于清华，师从黄民烈教授。

[1] https://huggingface.co/deepseek-ai/DeepSeek-Math-V2

[2]https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf

[3]https://zhihongshao.github.io/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

DeepMind科学家愤然离职，万字长文揭露谷歌罪恶！

新智元 2026-07-18 10:43:58
64 跟贴 64
100多万人围观！没头没腿，神似充电宝的机器人全网走红？

机器之心Pro 2026-06-17 18:52:08
0 跟贴 0

最适合机器人的视频基座模型，被中国团队开源了

机器之心Pro 2026-07-09 18:17:53
0 跟贴 0

华为云WAIC“亮剑”企业AI，周跃峰拆解智能体规模化落地步骤

智东西 2026-07-19 00:31:25
0 跟贴 0
距离预产期仅两天时，收到裁员通知

中国新闻周刊 2026-07-18 19:26:06
1281 跟贴 1281

LLM+运筹优化：工业级多机器人协同控制软件生成新范式

机器之心Pro 2026-03-30 12:42:25
0 跟贴 0

中国队交卷，盲测打爆Claude！科学多模态统一AI来了

新智元 2026-07-18 20:17:06
0 跟贴 0
刚刚，业界首个RISC-V AI算力超节点方案，首秀WAIC 2026

智东西 2026-07-18 20:55:38
0 跟贴 0

商汤发布旗舰级SenseNova U1 Pro，多模态智能体实现长程任务闭环

钛媒体APP 2026-07-18 20:22:07
0 跟贴 0
“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

量子位 2026-06-07 04:37:43
0 跟贴 0
全球首台机器人手机，能预购了！与阿里合作

智东西 2026-07-19 00:04:30
0 跟贴 0
WAIC五位首席科学家交锋：多模态是LLM的“外挂”，还是下一代智能的“灵魂”？

智东西 2026-07-19 00:17:51
0 跟贴 0
机器人不缺表演，缺的是工作经验

虎嗅APP 2026-07-18 17:00:07
0 跟贴 0
星海御风与星海高质量数据集亮相2026世界人工智能大会

财联社 2026-07-18 14:40:08
0 跟贴 0
TRAE Work上线 40 万字的“AI 打工说明书”！一手实测在此

钛媒体APP 2026-07-18 16:12:21
0 跟贴 0
WAIC直击：200家机器人企业同场竞技，但物理AI的入场券属于闭环玩家

机器之心Pro 2026-07-18 23:28:40
0 跟贴 0
展会当保安、流水线搬砖！WAIC展示机器人“就业潮”全景

雷科技 2026-07-19 00:13:14
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
17年前，我入职谷歌的第一周：戴螺旋桨帽、喝桶装啤酒、给创始人写稿

浅遇时光 2026-07-19 00:26:01
0 跟贴 0
4500人联名维权，谷歌员工集体抗议裁员焦虑

新浪财经 2026-07-18 10:19:24
0 跟贴 0
巴菲特再谈股市赌场论感叹谷歌“买晚了” 伯克希尔入手谷歌是他的决定

每日经济新闻 2026-07-16 21:44:14
0 跟贴 0
机器之心逛谷歌，分享最热的Self-Improving

机器之心Pro 2026-06-16 12:45:36
0 跟贴 0
Claude design限速，谷歌开源轻松做动态网页，实力打脸？

机器之心Pro 2026-04-29 17:20:04
0 跟贴 0
Android Auto无线连接太卡？开启这项隐藏开发者设置，流畅度立马提升

报错免疫体 2026-07-19 00:10:57
0 跟贴 0
他做出爆火的谷歌CLI工具转头却被开除了

量子位 2026-06-28 18:42:01
0 跟贴 0
平民三巨头平替Fable 5！性能追平，成本砍半

量子位 2026-06-21 09:58:58
0 跟贴 0
他不是张雪身边的内鬼，是中国制造最硬的底气

枫哥闲谈 2026-07-15 19:10:02
0 跟贴 0
全球仅5辆的5万吨级“钢铁巨兽”全在中国，只租不卖，年赚300亿

一饮山河 2026-07-18 17:12:35
0 跟贴 0
ChatGPT终于能「搜自己」！攒了近4年的对话，一键翻出

新智元 2026-07-18 18:31:39
1 跟贴 1
NEWTON:等物理涌现到请牛顿进工具箱，Agent 驱动视频生成新范式

机器之心Pro 2026-06-11 20:50:32
0 跟贴 0
AI进阶用法指南，五分钟教会你！提示词其实没那么难！

林亦LYi 2026-07-16 10:26:32
0 跟贴 0
Kimi逼得两大巨头改变定价！奥特曼罕见认错，Claude额度重置

新智元 2026-07-18 10:46:32
10 跟贴 10
日防相不装了鼓吹：必须毫无禁忌地讨论和推进核政策

澎湃新闻 2026-07-18 20:08:29
4600 跟贴 4600
塔吊工人高空作业像踩钢丝揭秘它咋从地基长巨人

全球见闻笔记 2026-07-14 08:05:00
0 跟贴 0
华为Claw-Anything：跨设备、跨时间、跨服务Claw评测与数据引擎

机器之心Pro 2026-06-21 19:38:32
0 跟贴 0
忙活打半年，地里红薯终于迎来丰收，一筐筐刚刨出来的红薯，带着泥土清香，是踏实又治愈的丰收喜悦

妞妞的一家人 2026-07-17 08:39:27
9 跟贴 9
河南一烤鸭店每天第一波客人竟是汪汪队，5只小狗街头自觉排队等投喂，陪伴到深夜12点闭店，老板已投喂流浪狗多年，网友：老顾客到齐了

极目新闻 2026-07-18 21:30:00
3620 跟贴 3620
对话腾讯云副总裁：企业智能体火了，今年平台使用量至少翻倍

智东西 2026-07-19 00:06:16
0 跟贴 0
菲尔兹奖揭晓！两位北大校友改写百年数学难题

科技三棱镜 2026-07-16 20:16:00
3 跟贴 3
自家红薯迎来大丰收，亲朋友都来搭手帮忙装车拉薯，忙活一天，老爸的皮鞋都磨坏了，想尝鲜的家人评论区留言，依旧抽取分享农家新鲜红薯

妞妞的一家人 2026-07-18 08:53:10
3 跟贴 3

《奥德赛》创诺兰导演生涯最高评分

《奥德赛》创诺兰导演生涯最高评分

美剧组|人人影视

2026-07-17 00:25:42

曾力压胡歌靳东红遍全国，如今未婚无子，成了刘涛最放不下的人

曾力压胡歌靳东红遍全国，如今未婚无子，成了刘涛最放不下的人

探源历史

2026-07-17 11:44:22

《大众摄影》回应刊发“五腿牛”照片：作者承认系使用AI失误

《大众摄影》回应刊发“五腿牛”照片：作者承认系使用AI失误

澎湃新闻

2026-07-18 13:46:30

突发！美国国土安全部敲定最终新规，废除国际学生D/S身份，9月15日正式生效！

突发！美国国土安全部敲定最终新规，废除国际学生D/S身份，9月15日正式生效！

留学生日报

2026-07-18 19:39:17

细糠！人生回报率最高的技能！网友：要早看到就好了，早练早提升

细糠！人生回报率最高的技能！网友：要早看到就好了，早练早提升

夜深爱杂谈

2026-07-15 20:57:28

蛇鼠一窝！恒大二把手夏海钧在美国的邻居，竟然是另一个逃跑富豪

蛇鼠一窝！恒大二把手夏海钧在美国的邻居，竟然是另一个逃跑富豪

桑启红原

2026-07-18 11:15:46

82：0！日本地方议会集体出手叫停高市早苗核政策松动

82：0！日本地方议会集体出手叫停高市早苗核政策松动

坠入二次元的海洋

2026-07-19 00:05:17

“我真想踢他一顿”，父亲公开厌恶1米83儿子：每天食堂要吃一百多！

“我真想踢他一顿”，父亲公开厌恶1米83儿子：每天食堂要吃一百多！

泽泽先生

2026-07-13 18:49:46

我在美国住了20年，回国3个月就后悔了，不是中国不好，而是差距很大

我在美国住了20年，回国3个月就后悔了，不是中国不好，而是差距很大

娱乐圈见解说

2026-07-18 00:49:44

阿根廷4700万人口，GDP超6300亿美元，安徽6100万人有多少？

阿根廷4700万人口，GDP超6300亿美元，安徽6100万人有多少？

抽象派大师

2026-07-18 01:09:58

炸裂！捐精有多乱，双方直接在宾馆完成怀孕过程，一次八百到几万

炸裂！捐精有多乱，双方直接在宾馆完成怀孕过程，一次八百到几万

就一点

2026-06-02 15:45:51

你见过最聪明的女生有多聪明？网友：能明显感觉到差距，真的牛！

你见过最聪明的女生有多聪明？网友：能明显感觉到差距，真的牛！

另子维爱读史

2026-07-18 20:50:53

反华反俄的美女总理，身材苗条金发碧眼，曾掏钱为泽连斯基立雕像

反华反俄的美女总理，身材苗条金发碧眼，曾掏钱为泽连斯基立雕像

小陆搞笑日常

2026-07-16 15:58:15

教育部原副部长田学军出任中国教育国际交流协会理事长

教育部原副部长田学军出任中国教育国际交流协会理事长

澎湃新闻

2026-07-18 21:42:29

1952 年空战杨汉黄弃机跳伞，见敌机同坠举枪，落地后满心诧异

1952 年空战杨汉黄弃机跳伞，见敌机同坠举枪，落地后满心诧异

磊子讲史

2026-06-30 15:49:06

递刀子？郭松民：我们要建立新朝贡体系，成为周边政权合法性来源

递刀子？郭松民：我们要建立新朝贡体系，成为周边政权合法性来源

瑜说还休

2026-07-18 17:41:24

乌克兰无人机袭击导致俄罗斯七名仓库工人死亡

乌克兰无人机袭击导致俄罗斯七名仓库工人死亡

桂系007

2026-07-18 19:06:15

广州21年街坊饭堂结业，顾客痛惜：儿子从小学吃到研究生

广州21年街坊饭堂结业，顾客痛惜：儿子从小学吃到研究生

阿天爱旅行

2026-07-19 00:16:18

太真实了！广东人接陌生电话的专属行为，看完直呼一模一样

太真实了！广东人接陌生电话的专属行为，看完直呼一模一样

夜深爱杂谈

2026-07-17 19:38:19

德拉富恩特：我们和阿根廷都没赢佛得角，说明他们没有那么差

德拉富恩特：我们和阿根廷都没赢佛得角，说明他们没有那么差

懂球帝

2026-07-18 03:05:14

追踪人工智能动态

12978文章数 176520关注度

往期回顾全部

科技要闻

WAIC2026看什么？这份"不迷路"攻略请收好

头条要闻

山体崩塌亲历者：目睹人被埋惨状巨石砸下房子像豆腐

头条要闻

山体崩塌亲历者：目睹人被埋惨状巨石砸下房子像豆腐

体育要闻

德尚是非典型法国人 14年执教留下丰厚遗产

娱乐要闻

大S给具俊晔留遗产是昏头？实际上她清醒得很

财经要闻

股民当街砍博主！韩国股市终极大屠杀

汽车要闻

把中国超跑卖到英国，比亚迪正在被世界看见

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

教育

旅游

手机

军事航空

本地新闻

十年了，为什么鬼怪CP还能让人美美嗑上？

教育要闻

湖北3名教师违规补课被处分，有人算了笔账：不止倒亏几十万

旅游要闻

苏州河的另一种读法：从千年水脉到生活秀场

手机要闻

30年前的一句话成为现实！荣耀Robot Phone应验凯文·凯利预言

军事要闻

美军连续七晚空袭伊朗

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版