11月27日晚间,DeepSeek在HuggingFace平台正式推出全新数学推理模型DeepSeekMath-V2。该模型采用可自我验证的训练框架,标志着人工智能在数学推理领域取得重要进展。
新模型基于DeepSeek-V3.2-Exp-Base构建而成。通过内置LLM验证器自动审查生成的数学证明过程,同时利用高难度样本持续优化模型整体性能。这种创新架构突破了传统模型仅追求答案准确性的局限。
在国际权威数学竞赛中,DeepSeekMath-V2展现出卓越表现。该模型在2025年国际数学奥林匹克竞赛(IMO2025)中达到金牌水平,在2024年中国数学奥林匹克竞赛(CMO2024)中同样获得金牌级成绩。据悉,模型在2024年普特南数学竞赛中取得118/120分的优异表现,接近满分水准。
DeepSeekMath-V2的核心创新在于构建自驱动的验证-生成闭环机制。系统将一个LLM设定为"审稿人"角色,专门负责证明验证工作。另一个LLM则承担"作者"职责,专注于证明生成任务。两个模块通过强化学习机制实现协同工作,并引入"元验证"层有效抑制模型产生幻觉现象。
在团队自主构建的91个CNML级别问题测试中,新模型显示出强劲的数学推理能力。涵盖代数、几何、数论、组合学和不等式等各个类别,DeepSeekMath-V2的表现均超越GPT-5-Thinking-High和Gemini2.5-Pro等先进模型。
在IMO-ProofBench基准测试环节,该模型同样表现突出。基础集测试中,其人工评估结果优于DeepMind开发的DeepThink模型。面对更具挑战性的高级集测试,模型保持了强劲竞争优势,显著超越其他基准模型的表现水准。
团队认为,大型语言模型在数学推理方面已取得显著进展。然而,单纯追求最终答案准确性无法解决核心问题。正确答案并不能保证推理过程的严谨性,许多数学任务如定理证明需要严格的逐步推导过程。
为突破深度推理的现有局限,团队着力验证数学推理的全面性与严谨性。DeepSeekMath-V2通过自我验证机制,确保推理链条的每个环节都经过严格检验,从而提升整体推理质量。
该成果验证了自验证推理路径的实际可行性,为构建更加可靠的数学智能系统指明新的发展方向。模型的代码与权重文件已完成开源处理,用户可通过HuggingFace及GitHub平台获取相关资源。
团队表示,尽管仍有大量工作需要完成,但这些成果表明自我验证的数学推理是一条可行的研究路径。这项技术突破或将有助于开发功能更为强大的数学人工智能系统,推动相关领域的进一步发展。
声明:市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。
本文源自:市场资讯
作者:观察君
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.