网易首页 > 网易号 > 正文 申请入驻

DeepSeek推出DeepSeekMath‑V2 模型,主攻自验证数学推理能力

0
分享至

11月27日,DeepSeek推出新型数学推理模型DeepSeekMath-V2,采用可自我验证的数学推理训练框架。

团队表示,该成果验证了自验证推理路径的可行性,为构建更可靠的数学智能系统提供了新的发展方向。模型代码与权重已在Hugging Face及GitHub平台开源发布。

该模型基于DeepSeek-V3.2-Exp-Base构建,通过LLM验证器自动审查生成的数学证明,并利用高难度样本持续优化模型性能。在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)中均达到金牌水平,并在2024年普特南数学竞赛(Putnam 2024)中取得118/120(近乎满分)的优异成绩。

技术创新:从最终答案奖励到自我验证

在数学推理与定理证明领域,传统强化学习方法存在根本性局限,它仅通过奖励与标准答案匹配的最终结果来训练模型,却忽视了推理过程的质量。这种方法的缺陷在于,正确答案未必意味着推导过程正确,且许多定理证明任务根本不需要数值答案,而是要求严格的逻辑推导过程。

DeepSeekMath-V2针对这些问题提出了创新性的解决方案。该系统的核心架构构建了一个自驱动的验证-生成闭环:将一个LLM作为“审稿人”担任证明验证器,另一个LLM作为“作者”负责证明生成,两者通过强化学习机制相互协作,并引入“元验证”层来有效抑制模型幻觉。

关键的技术创新在于元验证机制,通过第二层评估过程来检查验证器识别的问题是否真实存在。实验结果表明,将元验证器的反馈纳入验证器训练后,验证器在证明分析方面的质量评分显著提升,同时保持了证明评分预测的准确性,实现了验证精度与可靠性的双重突破。

自动化标注流程降低人工成本

为解决人工标注成本高昂的难题,研究团队设计了一套高效的自动化评估流程。该体系基于多层验证机制,通过交叉检验与共识决策确保标注的准确性。具体而言,系统会为每个证明生成多轮独立分析,并对识别出的问题进行二次验证,最终依据共识结果进行质量评分。

值得关注的是,在后续训练阶段,这一自动化流程已能完全替代人工标注。质量评估显示,自动化标注结果与专家判断高度一致,证实了该系统能够自主生成高质量训练数据,持续优化模型性能。

这一技术路径的突破性在于构建了完整的自驱动学习生态系统。系统通过验证反馈直接优化生成质量,利用自动化评估处理复杂案例,并持续产生训练数据促进系统迭代。这种创新方法不仅显著降低了人力成本,更证明了在适当技术支持下,人工智能系统能够实现自我演进与持续改进,为下一代自主学习系统的开发奠定了重要基础。

基准测试展现领先性能

在自主构建的91个CNML级别问题测试中,DeepSeekMath-V2展现出卓越的数学推理能力,在代数、几何、数论、组合学和不等式等所有类别中均超越了GPT-5-Thinking-High和Gemini 2.5-Pro的表现。

在IMO-ProofBench基准测试中,该模型同样表现优异:在基础集上,其人工评估结果优于DeepMind的DeepThink(IMO金牌水平);在更具挑战性的高级集上,模型保持了强劲的竞争力,同时显著超越了所有其他基准模型。

特别值得关注的是验证机制的有效性:对于未完全解决的问题,生成器能够准确识别证明过程中的真实缺陷;而对于完全解决的问题,则成功通过了全部64次验证尝试。这一结果表明,基于大语言模型的验证器确实能够有效评估那些传统上被认为难以自动验证的复杂数学证明,为自动化数学推理系统的发展提供了重要技术支撑。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
宗馥莉除名娃哈哈大反转,一切都结束了!

宗馥莉除名娃哈哈大反转,一切都结束了!

财经三分钟pro
2026-01-15 16:52:43
5.96万亿几乎花光:俄罗斯财政在赌什么?

5.96万亿几乎花光:俄罗斯财政在赌什么?

桂系007
2026-01-16 23:58:08
5块钱搞不定的8元套餐,在淘宝花8块4,一天就搞定了

5块钱搞不定的8元套餐,在淘宝花8块4,一天就搞定了

复转这些年
2026-01-16 23:51:17
拔出萝卜带出泥!李湘全网被禁关,王诗龄身份遭质疑,前夫已被抓

拔出萝卜带出泥!李湘全网被禁关,王诗龄身份遭质疑,前夫已被抓

一娱三分地
2026-01-16 19:22:29
一手好牌打稀烂!6主力负伤+魔鬼赛程,北京难了,许利民麻烦大了

一手好牌打稀烂!6主力负伤+魔鬼赛程,北京难了,许利民麻烦大了

后仰大风车
2026-01-17 08:20:09
国家出手,李湘全网账号被封!知情人曝原因,比闫学晶风波还恶劣

国家出手,李湘全网账号被封!知情人曝原因,比闫学晶风波还恶劣

阿纂看事
2026-01-16 14:58:49
芯片已永久转移安世中国,荷兰结局注定:费尽心机抢了一栋办公楼

芯片已永久转移安世中国,荷兰结局注定:费尽心机抢了一栋办公楼

花小猫的美食日常
2026-01-17 07:32:46
哇塞,恭喜湖人,历史级三分射手来了!

哇塞,恭喜湖人,历史级三分射手来了!

体育新角度
2026-01-17 15:33:06
杨瀚森30+20被队友毁了!轰14分17板却只出手6次,4大独狼太心累

杨瀚森30+20被队友毁了!轰14分17板却只出手6次,4大独狼太心累

嘴炮体坛
2026-01-17 12:59:32
皇马球迷拉横幅抗议78岁佛爷:离开吧!失败者 为钱出卖一切

皇马球迷拉横幅抗议78岁佛爷:离开吧!失败者 为钱出卖一切

叶青足球世界
2026-01-17 15:34:58
中超冠军欲重金引进巴西新星,林肯成转会焦点!

中超冠军欲重金引进巴西新星,林肯成转会焦点!

球天下资讯
2026-01-17 16:13:32
童年最看走眼的两个明星,一个是F4里的吴建豪,一个是SHE里的E

童年最看走眼的两个明星,一个是F4里的吴建豪,一个是SHE里的E

大铁猫娱乐
2025-12-29 16:12:25
马家军蹂躏女红军纪实!咬烂乳房、木棍捅下阴是最“仁慈”的虐待

马家军蹂躏女红军纪实!咬烂乳房、木棍捅下阴是最“仁慈”的虐待

温读史
2026-01-16 11:21:30
为救白血病丈夫,山东姑娘深夜雪地直播跳舞,目前已筹款十几万元

为救白血病丈夫,山东姑娘深夜雪地直播跳舞,目前已筹款十几万元

潇湘晨报
2026-01-17 11:46:28
1994年大案:“变态色魔”王万明,他的荒淫无耻,比你想的更恶劣

1994年大案:“变态色魔”王万明,他的荒淫无耻,比你想的更恶劣

叹为观止易
2026-01-16 10:22:49
安徽小伙在小国家创业,“享受”一夫多妻、开放生活的他如今怎样

安徽小伙在小国家创业,“享受”一夫多妻、开放生活的他如今怎样

牛牛叨史
2026-01-06 12:59:43
2026年1月存款利率大改!1万元存一年利息多少?我算透了说实在的

2026年1月存款利率大改!1万元存一年利息多少?我算透了说实在的

星辰宇的不羁
2026-01-11 10:01:20
高市早苗对华正式“宣战”!中国两邻居站队日本,特朗普告示全球

高市早苗对华正式“宣战”!中国两邻居站队日本,特朗普告示全球

来科点谱
2026-01-16 08:58:19
从国家一级演员到“淫魔”,床戏令人大开眼界,却深受观众喜欢?

从国家一级演员到“淫魔”,床戏令人大开眼界,却深受观众喜欢?

小熊侃史
2026-01-17 07:50:11
47岁吴佩慈,6年生4娃嫁不进豪门被嘲,如今因准婆婆被捕口碑逆转

47岁吴佩慈,6年生4娃嫁不进豪门被嘲,如今因准婆婆被捕口碑逆转

娱人细品
2026-01-16 16:12:36
2026-01-17 16:52:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
140258文章数 2652158关注度
往期回顾 全部

科技要闻

8亿周活扛不住烧钱 ChatGPT终向广告"低头"

头条要闻

区民政局副局长"靠老欺老":8年侵吞公共财物1257万

头条要闻

区民政局副局长"靠老欺老":8年侵吞公共财物1257万

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

徐家还是爱孩子的,在马筱梅生产前选择和解

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

亲子
教育
房产
健康
军事航空

亲子要闻

调查 | “障碍”边界变大,困住2000万A娃

教育要闻

1335 万!高考人数 8 年首降,这些省份反而逆势增长

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

血常规3项异常,是身体警报!

军事要闻

普京谈及当前国际局势:世界太危险了

无障碍浏览 进入关怀版