再创历史！DeepSeek最新开源模型Math-V2实现IMO金牌水准，提出可自验证的数学推理|定理|验证器|deepseek

再创历史！DeepSeek最新开源模型Math-V2实现IMO金牌水准，提出可自验证的数学推理

2025-12-01 19:51:35　来源: 大数据文摘

北京举报

分享至

大数据文摘受权转载自头部科技

文丨谭梓馨

继OpenAI发布GPT-5.1、谷歌推出Gemini 3、Anthropic迭代Claude Opus 4.5之后。

11月27日晚间， DeepSeek团队在开源社区低调发布了一款新模型DeepSeekMath-V2，该模型展现出强大的定理证明能力，在IMO 2025和CMO 2024上取得了金牌水平成绩，并在Putnam 2024上取得接近完美的118分（满分是120分，人类选手的历史最高分为90分）。

值得关注的是，这也是首个在IMO竞赛中达到金牌水准的开源模型，今年7月份，谷歌DeepMind的“Gemini Deep Think”曾斩获IMO 2025金牌。
网友们称赞：大蓝鲸又回来了！

让AI推理过程像数学家一样严谨

DeepSeek这篇新模型论文讲了什么？简单来说，其改变了AI数学推理的既有路径：从传统的“结果导向”(只关注答案是否正确) 转向“过程导向”(重视推理过程的严谨性和可验证性)。

核心创新是一种自验证架构：首先训练一个基于LLM的精准且可信的定理证明验证器；随后以该验证器作为奖励模型，训练一个证明生成器，并激励生成器在最终定稿前，自主识别并修正自身证明过程中的尽可能多的问题。

这一架构使模型能像数学家一样思考：自己写证明→自己挑毛病→自己改到无懈可击，实现了AI推理的“自我反思”能力。

DeepSeek团队在论文中表示，大语言模型（LLMs）在数学推理领域已取得显著进展，若能进一步突破，有望对科学研究产生深远影响。

通过强化学习放大推理能力（该方法以最终答案的正确性为奖励导向），LLMs在一年内实现了性能跨越式提升，然而，这种方法存在根本性局限：一味追求更高的最终答案准确率，无法解决一个核心问题——正确答案并不等同于严谨的推理过程。

为突破深度推理的边界，DeepSeek团队认为有必要对数学推理的完整性与严谨性进行验证，尤其在测试阶段计算量扩容场景下（例如面对无已知解的开放性问题时），自验证能力至关重要。

为避免生成器性能提升后出现“生成-验证能力差距”扩大的问题，团队还提出通过扩容验证计算量，自动标记新增的高难度验证样本，进而生成训练数据以持续优化验证器。

最终，DeepSeekMath-V2 展现出卓越的定理证明能力：在2025年国际数学奥林匹克（IMO）、2024年中国数学奥林匹克（CMO）中均斩获金牌级得分，且在2024年普特南数学竞赛（Putnam）中，通过扩容测试阶段计算量，取得了118/120的近乎满分成绩，超越了人类参赛者90分的最高纪录。

研究结果表明，可自验证数学推理是一条切实可行的研究路径，有望助力研发出能力更强大的数学AI系统。

人类即便在没有参考解法的情况下，也能识别证明中的问题——这是解决开放性问题时的关键能力。DeepSeek团队认为，LLMs能够通过训练获得“无参考解法下识别证明问题”的能力。

利用“自我认知”系统性提升数学推理

DeepSeekMath-V2的证明验证器与生成器构成协同循环：验证器助力生成器优化，而生成器性能提升后，会产出挑战验证器当前能力边界的新证明。

这些挑战性样本（即验证器单次验证可能无法识别问题的证明），将成为提升验证器自身性能的宝贵训练数据。

在DeepSeek自研的CNML级别题目集中包含91道定理证明题，涵盖代数（13道）、几何（24道）、数论（19道）、组合数学（24道）和不等式（11道）五大类别，难度与中国全国高中数学联赛（CNML）题目相当，各模型在不同类别CNML级别题目上的得分显示，DeepSeekMath-V2的性能持续优于Gemini2.5-pro和GPT5-Thinking-High，展现出跨领域的卓越定理证明能力。

在2024年国际数学奥林匹克预选题（IMO Shortlist 2024）上，研究人员通过序贯优化实现证明质量提升。

针对每道题目启动了32条独立的优化线程，并通过最终验证器产出的32份验证分析报告进行多数投票，判定证明的正确性。

结果显示，模型自主筛选的最优证明获得了显著高于线程平均水平的验证得分，这表明模型的生成器具备准确评估证明质量的能力；此外，随着最大序贯尝试次数的增加，单次通过率实现了实质性提升，证明自验证机制能有效引导迭代优化过程。

这些结果证实：DeepSeekMath-V2生成器能够可靠区分高质量证明与有缺陷证明，并利用这种自我认知能力，系统性地提升其数学推理水平。

DeepSeek团队在论文总结中表示，推进自然语言定理证明的发展将为形式化推理带来显著助力。期望通过本研究，为构建真正可靠的数学推理系统做出贡献——这类系统能够同时借助非形式化洞察与形式化保障，推动数学研究的进步。

开源AI进入中国主导阶段

尽管不是科技巨头，但DeepSeek一直是全球开源模型的创新探索引领者。

日前，麻省理工学院（MIT）和开源平台Hugging Face合作的一项“开放智能经济”研究发现，过去一年中，中国开发的新型开源模型的下载总量占比上升至17%，在全球开源AI模型市场中比美国占据了更多关键优势。

研究还发现，美国、中国、英国的开发力量严重偏向产业端；而德国、法国及欧洲其他地区与线上开发力量则更均衡，涵盖非营利机构、高校及社区贡献者。

行业权力格局正发生根本性重构：谷歌、Meta和OpenAI主导的美国开源权重产业优势已大幅下滑，非关联开发者、社区组织以及2025年崛起的中国产业力量逐渐崛起。
随着DeepSeek、Qwen、Hunyuan、GLM、Kimi、MiniMax、ERNIE等多家开源模型的持续渗透，且不断拉近与封闭模型之间的差距，或将开启由中国开发者主导的新一轮市场权力整合。

注：头图AI生成

作者长期关注 AI 产业与学术，欢迎对这些方向感兴趣的朋友添加微信Q1yezi，共同交流行业动态与技术趋势！

GPU 训练特惠！

H100/H200 GPU算力按秒计费，平均节省开支30%以上！

扫码了解详情☝

点「赞」的人都变好看了哦！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.