DeepSeek推出数学推理新模型，IMO竞赛达金牌水平超越GPT-5|代数|数论|imo|deepseek

DeepSeek推出数学推理新模型，IMO竞赛达金牌水平超越GPT-5

2025-11-28 09:26:23　来源: 金融界

北京举报

分享至

11月27日晚间，DeepSeek在HuggingFace平台正式推出全新数学推理模型DeepSeekMath-V2。该模型采用可自我验证的训练框架，标志着人工智能在数学推理领域取得重要进展。

新模型基于DeepSeek-V3.2-Exp-Base构建而成。通过内置LLM验证器自动审查生成的数学证明过程，同时利用高难度样本持续优化模型整体性能。这种创新架构突破了传统模型仅追求答案准确性的局限。

在国际权威数学竞赛中，DeepSeekMath-V2展现出卓越表现。该模型在2025年国际数学奥林匹克竞赛（IMO2025）中达到金牌水平，在2024年中国数学奥林匹克竞赛（CMO2024）中同样获得金牌级成绩。据悉，模型在2024年普特南数学竞赛中取得118/120分的优异表现，接近满分水准。

DeepSeekMath-V2的核心创新在于构建自驱动的验证-生成闭环机制。系统将一个LLM设定为"审稿人"角色，专门负责证明验证工作。另一个LLM则承担"作者"职责，专注于证明生成任务。两个模块通过强化学习机制实现协同工作，并引入"元验证"层有效抑制模型产生幻觉现象。

在团队自主构建的91个CNML级别问题测试中，新模型显示出强劲的数学推理能力。涵盖代数、几何、数论、组合学和不等式等各个类别，DeepSeekMath-V2的表现均超越GPT-5-Thinking-High和Gemini2.5-Pro等先进模型。

在IMO-ProofBench基准测试环节，该模型同样表现突出。基础集测试中，其人工评估结果优于DeepMind开发的DeepThink模型。面对更具挑战性的高级集测试，模型保持了强劲竞争优势，显著超越其他基准模型的表现水准。

团队认为，大型语言模型在数学推理方面已取得显著进展。然而，单纯追求最终答案准确性无法解决核心问题。正确答案并不能保证推理过程的严谨性，许多数学任务如定理证明需要严格的逐步推导过程。

为突破深度推理的现有局限，团队着力验证数学推理的全面性与严谨性。DeepSeekMath-V2通过自我验证机制，确保推理链条的每个环节都经过严格检验，从而提升整体推理质量。

该成果验证了自验证推理路径的实际可行性，为构建更加可靠的数学智能系统指明新的发展方向。模型的代码与权重文件已完成开源处理，用户可通过HuggingFace及GitHub平台获取相关资源。

团队表示，尽管仍有大量工作需要完成，但这些成果表明自我验证的数学推理是一条可行的研究路径。这项技术突破或将有助于开发功能更为强大的数学人工智能系统，推动相关领域的进一步发展。

声明：市场有风险，投资需谨慎。本文为AI基于第三方数据生成，仅供参考，不构成个人投资建议。

本文源自：市场资讯

作者：观察君

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

DeepSeek推出数学推理新模型，IMO竞赛达金牌水平超越GPT-5

HUAWEI Pura X Max发布 售价10999元起

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

阿森纳已拼尽全力，但你早干嘛去了...

《八千里路云和月》田家泰暗杀

利润暴跌7成，字节到底在做什么

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

春天衣服不用准备太多！这几大单品提前备好，百搭实用又不过时

大司马回归两个月，某音人气稳居顶流行列，道出风光背后心酸现状

【孤独症科普】啥是孤独症，哪些孩子易发生，如何应对？

沙特官宣：全球最大单体建筑，延期十年！网友：又是画饼？

特朗普:美舰向伊朗货船开火炸出个洞

HUAWEI Pura X Max发布售价10999元起

把天门山搬进厂?开仰望U8冲上45度坡的那刻我腿软了