网易首页 > 网易号 > 正文 申请入驻

DeepSeek推出DeepSeekMath‑V2 模型,主攻自验证数学推理能力

0
分享至

11月27日,DeepSeek推出新型数学推理模型DeepSeekMath-V2,采用可自我验证的数学推理训练框架。

团队表示,该成果验证了自验证推理路径的可行性,为构建更可靠的数学智能系统提供了新的发展方向。模型代码与权重已在Hugging Face及GitHub平台开源发布。

该模型基于DeepSeek-V3.2-Exp-Base构建,通过LLM验证器自动审查生成的数学证明,并利用高难度样本持续优化模型性能。在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)中均达到金牌水平,并在2024年普特南数学竞赛(Putnam 2024)中取得118/120(近乎满分)的优异成绩。

技术创新:从最终答案奖励到自我验证

在数学推理与定理证明领域,传统强化学习方法存在根本性局限,它仅通过奖励与标准答案匹配的最终结果来训练模型,却忽视了推理过程的质量。这种方法的缺陷在于,正确答案未必意味着推导过程正确,且许多定理证明任务根本不需要数值答案,而是要求严格的逻辑推导过程。

DeepSeekMath-V2针对这些问题提出了创新性的解决方案。该系统的核心架构构建了一个自驱动的验证-生成闭环:将一个LLM作为“审稿人”担任证明验证器,另一个LLM作为“作者”负责证明生成,两者通过强化学习机制相互协作,并引入“元验证”层来有效抑制模型幻觉。

关键的技术创新在于元验证机制,通过第二层评估过程来检查验证器识别的问题是否真实存在。实验结果表明,将元验证器的反馈纳入验证器训练后,验证器在证明分析方面的质量评分显著提升,同时保持了证明评分预测的准确性,实现了验证精度与可靠性的双重突破。

自动化标注流程降低人工成本

为解决人工标注成本高昂的难题,研究团队设计了一套高效的自动化评估流程。该体系基于多层验证机制,通过交叉检验与共识决策确保标注的准确性。具体而言,系统会为每个证明生成多轮独立分析,并对识别出的问题进行二次验证,最终依据共识结果进行质量评分。

值得关注的是,在后续训练阶段,这一自动化流程已能完全替代人工标注。质量评估显示,自动化标注结果与专家判断高度一致,证实了该系统能够自主生成高质量训练数据,持续优化模型性能。

这一技术路径的突破性在于构建了完整的自驱动学习生态系统。系统通过验证反馈直接优化生成质量,利用自动化评估处理复杂案例,并持续产生训练数据促进系统迭代。这种创新方法不仅显著降低了人力成本,更证明了在适当技术支持下,人工智能系统能够实现自我演进与持续改进,为下一代自主学习系统的开发奠定了重要基础。

基准测试展现领先性能

在自主构建的91个CNML级别问题测试中,DeepSeekMath-V2展现出卓越的数学推理能力,在代数、几何、数论、组合学和不等式等所有类别中均超越了GPT-5-Thinking-High和Gemini 2.5-Pro的表现。

在IMO-ProofBench基准测试中,该模型同样表现优异:在基础集上,其人工评估结果优于DeepMind的DeepThink(IMO金牌水平);在更具挑战性的高级集上,模型保持了强劲的竞争力,同时显著超越了所有其他基准模型。

特别值得关注的是验证机制的有效性:对于未完全解决的问题,生成器能够准确识别证明过程中的真实缺陷;而对于完全解决的问题,则成功通过了全部64次验证尝试。这一结果表明,基于大语言模型的验证器确实能够有效评估那些传统上被认为难以自动验证的复杂数学证明,为自动化数学推理系统的发展提供了重要技术支撑。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
惋惜!30岁德国国脚宣布退役 遭第3次韧带撕裂 曾在拜仁5年夺14冠

惋惜!30岁德国国脚宣布退役 遭第3次韧带撕裂 曾在拜仁5年夺14冠

我爱英超
2026-05-07 12:35:29
何洁近况令人诧异!暴瘦20斤,换了发色,面相大变,刁磊有福了

何洁近况令人诧异!暴瘦20斤,换了发色,面相大变,刁磊有福了

情感大头说说
2026-05-07 11:29:06
交通银行:坚决拥护党中央决定

交通银行:坚决拥护党中央决定

新京报政事儿
2026-05-07 12:32:06
俄罗斯副部长被查前成功出逃美国,跨三国离境

俄罗斯副部长被查前成功出逃美国,跨三国离境

桂系007
2026-05-01 23:48:19
俩11、12岁女孩五一失联,惨遭熟人亲属杀害,手段残忍令人发指

俩11、12岁女孩五一失联,惨遭熟人亲属杀害,手段残忍令人发指

老猫观点
2026-05-06 18:57:19
刚刚,马斯克官宣xAI解散,22万张GPU算力租给Anthropic

刚刚,马斯克官宣xAI解散,22万张GPU算力租给Anthropic

机器之心Pro
2026-05-07 10:25:42
世界杯国际足联开出天价版权:对中国开价近3亿美元,是印度的17倍,现“降”至1.2至1.5亿美元;电视转播谈判陷僵局

世界杯国际足联开出天价版权:对中国开价近3亿美元,是印度的17倍,现“降”至1.2至1.5亿美元;电视转播谈判陷僵局

浙江之声
2026-05-07 08:24:22
「救救」海参崴的中国小学生

「救救」海参崴的中国小学生

非典型佛教徒
2026-05-06 23:10:16
欧冠决赛对阵出炉:巴黎力争卫冕!阿森纳盼复仇+冲首冠 31日打响

欧冠决赛对阵出炉:巴黎力争卫冕!阿森纳盼复仇+冲首冠 31日打响

我爱英超
2026-05-07 05:06:13
侯维栋被开除党籍,交通银行党委:坚决拥护党中央决定

侯维栋被开除党籍,交通银行党委:坚决拥护党中央决定

澎湃新闻
2026-05-07 13:29:09
16岁女孩景区内坠亡,现场画面流出,目击者发声,赔偿金额曝光

16岁女孩景区内坠亡,现场画面流出,目击者发声,赔偿金额曝光

老猫观点
2026-05-07 07:27:36
恒大集团创始人许家印被曝出猛料

恒大集团创始人许家印被曝出猛料

地产微资讯
2026-05-07 09:28:09
院长和女研究员在国际顶刊大肆造假,同济大学通报:院长免职降级,第一作者被解聘

院长和女研究员在国际顶刊大肆造假,同济大学通报:院长免职降级,第一作者被解聘

高分子科学前沿
2026-05-06 21:26:12
国乒男团VS韩国队,比赛时间公布,王皓是否换人,央视解说引争议

国乒男团VS韩国队,比赛时间公布,王皓是否换人,央视解说引争议

体育大学僧
2026-05-07 10:52:38
第三轮第六批中央生态环境保护督察全面启动

第三轮第六批中央生态环境保护督察全面启动

生态环境部
2026-05-07 10:04:40
女子和表弟偷情,丈夫半夜来捉奸,2008年杀表弟后妻子嫌让她丢脸

女子和表弟偷情,丈夫半夜来捉奸,2008年杀表弟后妻子嫌让她丢脸

汉史趣闻
2026-05-03 15:27:31
已致3人死亡!暴发病毒疫情邮轮将抵达西班牙,“所有人将被遣返各自国家”

已致3人死亡!暴发病毒疫情邮轮将抵达西班牙,“所有人将被遣返各自国家”

南方都市报
2026-05-07 12:26:12
波波锦囊奏效!森林狼狂输38分创队史最差 落后47分华子仍笑嘻嘻

波波锦囊奏效!森林狼狂输38分创队史最差 落后47分华子仍笑嘻嘻

醉卧浮生
2026-05-07 12:46:36
洪迪厄斯号豪华邮轮毒株确认可人传人,可通过同床共枕或共享食物传播,该邮轮上共149人

洪迪厄斯号豪华邮轮毒株确认可人传人,可通过同床共枕或共享食物传播,该邮轮上共149人

极目新闻
2026-05-07 10:54:57
韩媒力挺央视:中国男足都没进世界杯,国际足联以为中国好对付吗?

韩媒力挺央视:中国男足都没进世界杯,国际足联以为中国好对付吗?

砚底沉香
2026-05-07 10:42:21
2026-05-07 13:48:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
145718文章数 2653485关注度
往期回顾 全部

科技要闻

凌晨突发!马斯克租22万块GPU给“死敌”

头条要闻

北京三位女大学生青海自驾游2死1伤 伤者一审获刑4年

头条要闻

北京三位女大学生青海自驾游2死1伤 伤者一审获刑4年

体育要闻

阿森纳巴黎会师欧冠决赛!5月31日开战

娱乐要闻

小S阿雅重返大S母校,翻看大S毕业照

财经要闻

特朗普:美伊“很有可能”达成协议

汽车要闻

理想为什么不做轿车,有了解释……

态度原创

数码
家居
游戏
旅游
教育

数码要闻

华为MatePad Pro Max设计与核心配置曝光 将于5月7日全球亮相

家居要闻

破茧成蝶 土味精装房爆改

靠说话打架的游戏,是怎么让人喊出“爷青回”的?

旅游要闻

“五一”假期盘点:文旅消费亮点纷呈

教育要闻

高考倒计时30天,华南理工杨中民校长向您发出诚挚邀约!

无障碍浏览 进入关怀版