网易首页 > 网易号 > 正文 申请入驻

DeepSeek推出DeepSeekMath‑V2 模型,主攻自验证数学推理能力

0
分享至

11月27日,DeepSeek推出新型数学推理模型DeepSeekMath-V2,采用可自我验证的数学推理训练框架。

团队表示,该成果验证了自验证推理路径的可行性,为构建更可靠的数学智能系统提供了新的发展方向。模型代码与权重已在Hugging Face及GitHub平台开源发布。

该模型基于DeepSeek-V3.2-Exp-Base构建,通过LLM验证器自动审查生成的数学证明,并利用高难度样本持续优化模型性能。在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)中均达到金牌水平,并在2024年普特南数学竞赛(Putnam 2024)中取得118/120(近乎满分)的优异成绩。

技术创新:从最终答案奖励到自我验证

在数学推理与定理证明领域,传统强化学习方法存在根本性局限,它仅通过奖励与标准答案匹配的最终结果来训练模型,却忽视了推理过程的质量。这种方法的缺陷在于,正确答案未必意味着推导过程正确,且许多定理证明任务根本不需要数值答案,而是要求严格的逻辑推导过程。

DeepSeekMath-V2针对这些问题提出了创新性的解决方案。该系统的核心架构构建了一个自驱动的验证-生成闭环:将一个LLM作为“审稿人”担任证明验证器,另一个LLM作为“作者”负责证明生成,两者通过强化学习机制相互协作,并引入“元验证”层来有效抑制模型幻觉。

关键的技术创新在于元验证机制,通过第二层评估过程来检查验证器识别的问题是否真实存在。实验结果表明,将元验证器的反馈纳入验证器训练后,验证器在证明分析方面的质量评分显著提升,同时保持了证明评分预测的准确性,实现了验证精度与可靠性的双重突破。

自动化标注流程降低人工成本

为解决人工标注成本高昂的难题,研究团队设计了一套高效的自动化评估流程。该体系基于多层验证机制,通过交叉检验与共识决策确保标注的准确性。具体而言,系统会为每个证明生成多轮独立分析,并对识别出的问题进行二次验证,最终依据共识结果进行质量评分。

值得关注的是,在后续训练阶段,这一自动化流程已能完全替代人工标注。质量评估显示,自动化标注结果与专家判断高度一致,证实了该系统能够自主生成高质量训练数据,持续优化模型性能。

这一技术路径的突破性在于构建了完整的自驱动学习生态系统。系统通过验证反馈直接优化生成质量,利用自动化评估处理复杂案例,并持续产生训练数据促进系统迭代。这种创新方法不仅显著降低了人力成本,更证明了在适当技术支持下,人工智能系统能够实现自我演进与持续改进,为下一代自主学习系统的开发奠定了重要基础。

基准测试展现领先性能

在自主构建的91个CNML级别问题测试中,DeepSeekMath-V2展现出卓越的数学推理能力,在代数、几何、数论、组合学和不等式等所有类别中均超越了GPT-5-Thinking-High和Gemini 2.5-Pro的表现。

在IMO-ProofBench基准测试中,该模型同样表现优异:在基础集上,其人工评估结果优于DeepMind的DeepThink(IMO金牌水平);在更具挑战性的高级集上,模型保持了强劲的竞争力,同时显著超越了所有其他基准模型。

特别值得关注的是验证机制的有效性:对于未完全解决的问题,生成器能够准确识别证明过程中的真实缺陷;而对于完全解决的问题,则成功通过了全部64次验证尝试。这一结果表明,基于大语言模型的验证器确实能够有效评估那些传统上被认为难以自动验证的复杂数学证明,为自动化数学推理系统的发展提供了重要技术支撑。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
豆芽立大功!浙科大实证:豆芽可通过菌群代谢,减少84%腹部脂肪!

豆芽立大功!浙科大实证:豆芽可通过菌群代谢,减少84%腹部脂肪!

科学认识论
2026-04-20 14:45:02
港媒曝张曼玉“五官彻底分离”,61岁生图惹争议,俩部位面目全非

港媒曝张曼玉“五官彻底分离”,61岁生图惹争议,俩部位面目全非

冷紫葉
2026-04-20 17:12:17
彭伟鹏被查

彭伟鹏被查

农民日报
2026-04-20 10:26:01
匈牙利当选总理毛焦尔:我和以色列总理内塔尼亚胡明白说了,他若入境我国,必将被逮捕

匈牙利当选总理毛焦尔:我和以色列总理内塔尼亚胡明白说了,他若入境我国,必将被逮捕

极目新闻
2026-04-21 12:29:14
津鲁大战争议判罚!格劳手球逃点,阿尔瓦罗飞铲送点,主裁获赞

津鲁大战争议判罚!格劳手球逃点,阿尔瓦罗飞铲送点,主裁获赞

奥拜尔
2026-04-21 21:42:50
拼多多暴力抗法震惊全网,市值万亿巨头为何如此嚣张

拼多多暴力抗法震惊全网,市值万亿巨头为何如此嚣张

燕梳楼频道
2026-04-20 21:12:04
斯诺克世锦赛:3冠王第6局只进1球!小特81-5止损,拒绝连输3局!

斯诺克世锦赛:3冠王第6局只进1球!小特81-5止损,拒绝连输3局!

刘姚尧的文字城堡
2026-04-21 19:26:12
4月21日俄乌最新:俄罗斯创造的神话

4月21日俄乌最新:俄罗斯创造的神话

西楼饮月
2026-04-21 20:24:18
中方不再伺候了!对荷光刻机优待全部取消,450亿芯片不做了!

中方不再伺候了!对荷光刻机优待全部取消,450亿芯片不做了!

马捗在解说
2026-04-21 12:53:27
左手幻觉,右手投毒,普通人凭什么相信AI?

左手幻觉,右手投毒,普通人凭什么相信AI?

果壳
2026-04-20 20:09:40
29999元!华为非凡大师女表一分钟全部售罄:供不应求

29999元!华为非凡大师女表一分钟全部售罄:供不应求

快科技
2026-04-20 22:20:13
国内油价今年来首次下调

国内油价今年来首次下调

界面新闻
2026-04-21 14:57:08
中超争议判罚!颜骏凌超巨失误,VAR介入,陈纯新笑纳大礼

中超争议判罚!颜骏凌超巨失误,VAR介入,陈纯新笑纳大礼

奥拜尔
2026-04-21 20:54:59
伊朗万吨大船无视封锁线,美军下令开火,特朗普暴怒,英法德失声

伊朗万吨大船无视封锁线,美军下令开火,特朗普暴怒,英法德失声

几人尽弃
2026-04-21 17:03:51
越来越清晰:只剩革命卫队问题还没解决,未来会被内外联合绞杀吗

越来越清晰:只剩革命卫队问题还没解决,未来会被内外联合绞杀吗

民间胡扯老哥
2026-04-21 05:45:15
被苹果、华为干倒的诺基亚,又杀回来了!

被苹果、华为干倒的诺基亚,又杀回来了!

大佬灼见
2026-04-19 10:28:53
2026年一季度消费:汽车、彩电、空调全线下跌

2026年一季度消费:汽车、彩电、空调全线下跌

风向观察
2026-04-21 09:27:07
格力回应铝线电机争议:相关工程机已停产,海信称靠多三两铜多500元时代已终结

格力回应铝线电机争议:相关工程机已停产,海信称靠多三两铜多500元时代已终结

红星资本局
2026-04-21 20:40:16
内塔尼亚胡计划访问匈牙利,匈当选总理:他入境就会被抓!

内塔尼亚胡计划访问匈牙利,匈当选总理:他入境就会被抓!

每日经济新闻
2026-04-21 18:39:15
姚晨发文怒斥深圳违规私转患者救护车:如此草菅人命的急救车,肯定是极少数,家中至亲曾突发急症叫过急救车,为家人抢回黄金急救时间

姚晨发文怒斥深圳违规私转患者救护车:如此草菅人命的急救车,肯定是极少数,家中至亲曾突发急症叫过急救车,为家人抢回黄金急救时间

大风新闻
2026-04-21 18:33:25
2026-04-21 22:16:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
144919文章数 2653330关注度
往期回顾 全部

科技要闻

创造4万亿帝国、访华20次,库克留下了什么

头条要闻

媒体:急于摆脱对华稀土依赖 美企28亿美元在巴西抢矿

头条要闻

媒体:急于摆脱对华稀土依赖 美企28亿美元在巴西抢矿

体育要闻

62岁,成为中国足坛最火的人

娱乐要闻

周润发时隔16年再卖楼,变现数亿资产

财经要闻

现实是最大的荒诞:千亿平台的冲突始末

汽车要闻

全新坦克700正式上市 售价42.8万-50.8万元

态度原创

家居
游戏
教育
艺术
房产

家居要闻

诗意光影 窥见自然之境

玩家怒喷《黑旗》重制实机不如原版!育碧拉完了?

教育要闻

毁掉一个孩子最快的方式,就是让他去住宿

艺术要闻

任伯年写竹,真带劲

房产要闻

年薪40-50万!海南地产圈还在猛招人

无障碍浏览 进入关怀版