网易首页 > 网易号 > 正文 申请入驻

刚刚,DeepSeek开源新模型,拿下奥数证明题冠军

0
分享至


智东西
作者 李水青
编辑 心缘

智东西11月17 日报道,今日,DeepSeek开源了“奥数金牌级”模型DeepSeekMath-V2,该模型具备强大的定理证明能力

DeepSeekMath-V2在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)上取得了金牌水平的成绩;并在2024年普特南大学生数学竞赛(Putnam 2024)上取得了接近满分(118/120分)的成绩,超过人类最高的90分成绩。


如下图所示,DeepSeekMath-V2以10%的优势击败谷歌的IMO金奖得主DeepThink模型。

▲DeepSeekMath-V2在数学竞赛中的成绩表现


▲DeepSeekMath-V2在IMO-ProofBench的测评结果

上述结果表明,自验证数学推理是一个可行的研究方向,可能有助于开发更强大的数学AI系统。


Hugging Face地址:
https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
论文地址:
https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf

按惯例,DeepSeek往往会将新开源的模型直接上线DeepSeek,我们第一时间尝试进行了体验。

首先让DeepSeek证明一道较简单的题目“证明根号2为无理数”,DeepSeek快速给出了正确答案。


当智东西输入“证明奇数和整数哪个多?”这一证明题,DeepSeek也给出了正确证明过程和答案,这一证明过程大部分人应该可以看懂。当然,奥数级证明题会更加复杂,如果有能够看懂理解这类题目的读者,可以再进一步进行体验测试。



回到模型背后的研发问题,我们来具体看看论文内容,从已有的研究来看,在数学推理领域,强化学习(RL)传统方法足以让大模型在主要评估最终答案的数学竞赛(如AIME和HMMT)中达到很高的水平。然而这种奖励机制存在两个根本性的局限性:

首先,传统方法不能可靠地代表推理的正确性,模型可能通过有缺陷的逻辑或侥幸的错误得出正确答案。

其次,它不适用于定理证明任务,在这类任务中,问题可能不需要生成数值形式的最终答案,而严谨的推导才是主要目标。

为此,DeepSeek建议在大型语言模型中开发证明验证能力,基于DeepSeek-V3.2-Exp-Base开发了DeepSeekMath-V2。他们让模型明确了解其奖励函数,并使其能够通过有意识的推理而非盲目的试错来最大化这一奖励。

DeepSeek制定了用于证明评估的高级评分标准,目的是训练一个验证器,使其能根据这些评分标准对证明进行评估,模拟数学专家的评估过程。以DeepSeek-V3.2-Exp-SFT的一个版本为基础,通过强化学习训练模型生成证明分析,训练过程使用了两个奖励组件:格式奖励和分数奖励。


然后是构建强化学习数据集。DeepSeek基于17503道竞赛题目、DeepSeek-V3.2-Exp-Thinking生成的候选证明、带专家评分的随机抽取的证明样本,构建了初始强化学习训练数据集。

紧接着,其设置了强化学习目标和训练验证器的强化学习目标。具体是以DeepSeek-V3.2-Exp-SFT的一个版本为基础,通过强化学习训练模型生成证明分析,训练过程使用了两个奖励组件:格式奖励和分数奖励。而后通过下列函数完成训练验证器的强化学习目标。

为了解决训练过程中“验证器可能通过预测正确分数同时虚构不存在的问题来获得全部奖励”这一漏洞,DeepSeek引入了一个二次评估过程——元验证(meta-verification),从而提高验证器识别问题的忠实度。

在证明生成阶段,DeepSeek进行了证明生成器的训练,并通过自我验证增强推理能力,解决模型被要求一次性生成并分析自己的证明时“生成器不顾外部验证器判错而宣称证明是正确的”。


最后,DeepSeek证明验证器和生成器形成了一个协同循环:验证器改进生成器,而随着生成器的改进,它会生成新的证明,这些证明对验证器当前的能力构成挑战,这些挑战也成为增强验证器自身的宝贵训练数据。

简单来说,DeepSeekMath-V2模型中的验证器能完成逐步检查证明过程,而生成器则会修正自身的错误。

从实验结果来看,在单步生成结果评估中,如图1所示,在CNML级别的所有问题类别(代数、几何、数论、组合数学和不等式)中,DeepSeekMath-V2始终优于GPT-5-Thinking-High和Gemini 2.5-Pro,展现出在各领域更卓越的定理证明能力。


在带自我验证的顺序优化中,其对2024 IMO备选题进行连续优化后,证明质量提升。自选的最佳证明比线程平均值获得了显著更高的验证分数,这表明生成器能够准确评估证明质量。这些结果证实,其生成器能够可靠地区分高质量证明和有缺陷的证明,并利用这种自我认知系统地改进其数学推理能力。

在高计算量探索中,DeepSeek扩大了验证和生成计算的规模,他们的方法解决了2025 IMO的6道题中的5道,以及2024 CMO的4道题,另外1道题获得部分分数,在这两项顶尖高中竞赛中均达到金牌水平,在基础集上优于DeepMind的DeepThink(IMO金牌水平),在高级集上保持竞争力,同时大幅优于所有其他基线模型。

但DeepSeek发现,最困难的IMO级别问题对其模型来说仍然具有挑战性。

值得注意的是,对于未完全解决的问题,DeepSeek的生成器通常能在其证明过程中识别出真正的问题,而完全解决的问题则能通过所有64次验证尝试。这表明,我们能够成功训练基于大语言模型的验证器,以评估那些此前被认为难以自动验证的证明。通过在验证器的指导下增加测试时的计算量,DeepSeek的模型能够解决那些需要人类竞争者花费数小时才能解决的问题。

结语:可自我验证的AI系统,离解决研究级数学问题更进一步

总的来说,DeepSeek提出了一个既能生成又能验证数学证明的模型。团队突破了基于最终答案的奖励机制的局限性,迈向了可自我验证的数学推理。

这项工作证实,大语言模型能够培养出针对复杂推理任务的有意义的自我评估能力。尽管仍存在重大挑战,这一研究方向有望为创建可自我验证的AI系统解决研究级数学问题这一目标做出贡献。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
毛主席去世后,华国锋除了依靠叶帅外,还有几个大员是他信任的

毛主席去世后,华国锋除了依靠叶帅外,还有几个大员是他信任的

谈古论今历史有道
2026-01-07 07:45:03
华国锋退下来了,组织专门找到他的秘书,诚恳让其自己挑前途~

华国锋退下来了,组织专门找到他的秘书,诚恳让其自己挑前途~

鹤羽说个事
2026-01-14 15:22:18
访华告吹,中方通知高市早苗,不会撤销制裁,日本计划强登钓鱼岛

访华告吹,中方通知高市早苗,不会撤销制裁,日本计划强登钓鱼岛

阿离家居
2026-01-16 11:08:54
巴萨死里逃生!西乙18岁前锋吃独食:空门不传+射门被扑 队友怒骂

巴萨死里逃生!西乙18岁前锋吃独食:空门不传+射门被扑 队友怒骂

风过乡
2026-01-16 08:01:49
强降雪来袭!河南发布提示→

强降雪来袭!河南发布提示→

大象新闻
2026-01-16 10:37:04
B费弃曼联?拜仁有意触发其5700万镑解约条款,追随凯恩冠军之路

B费弃曼联?拜仁有意触发其5700万镑解约条款,追随凯恩冠军之路

篮球看比赛
2026-01-16 11:53:21
高中大部分人面临的问题:中考考得不错,到高一成绩断崖式下跌

高中大部分人面临的问题:中考考得不错,到高一成绩断崖式下跌

好爸育儿
2026-01-14 15:48:29
刘涛 大长腿

刘涛 大长腿

小椰的奶奶
2026-01-16 11:55:36
不许为民除害的法,不要也罢

不许为民除害的法,不要也罢

夜半挑灯看吴钩
2026-01-06 11:38:08
男子存500万被银行问来历,一气之下要销卡,员工:注销要正当原因

男子存500万被银行问来历,一气之下要销卡,员工:注销要正当原因

浮生实录集
2025-09-11 17:15:31
拔萝卜出泥!学历还没查清,闫学晶再迎噩耗,多位大V锤她恐坐牢

拔萝卜出泥!学历还没查清,闫学晶再迎噩耗,多位大V锤她恐坐牢

流史岁月
2026-01-15 10:16:09
风暴中的携程总部,大楼形如“高速列车”,扎哈设计!

风暴中的携程总部,大楼形如“高速列车”,扎哈设计!

GA环球建筑
2026-01-15 17:32:25
2003年廊坊械斗命案:臧天朔被捕后才知,原来当初自己那么愚蠢

2003年廊坊械斗命案:臧天朔被捕后才知,原来当初自己那么愚蠢

芳芳历史烩
2026-01-15 13:57:57
随着小特6-2大胜艾伦,赵心童5-6被绝杀,大师赛半决赛出炉附赛程

随着小特6-2大胜艾伦,赵心童5-6被绝杀,大师赛半决赛出炉附赛程

小火箭爱体育
2026-01-16 07:06:43
国共论坛将登场,侯友宜表态惊人;黄国昌喊话大陆,作出重要决定

国共论坛将登场,侯友宜表态惊人;黄国昌喊话大陆,作出重要决定

防务观察室
2026-01-15 13:41:25
齐达内:教练是为球员而存在的,在皇马我们随时为球员服务

齐达内:教练是为球员而存在的,在皇马我们随时为球员服务

懂球帝
2026-01-16 03:28:49
重庆市区划调整后,首届区委领导班子产生

重庆市区划调整后,首届区委领导班子产生

上观新闻
2026-01-15 20:04:11
受够了AI脱衣?新《古墓丽影》劳拉演员宣布推特删号

受够了AI脱衣?新《古墓丽影》劳拉演员宣布推特删号

游民星空
2026-01-14 12:13:11
把1-1扑成2-0,霍安-加西亚94分钟神扑单刀助巴萨晋级

把1-1扑成2-0,霍安-加西亚94分钟神扑单刀助巴萨晋级

懂球帝
2026-01-16 07:53:07
嚣张!日本队宣布重要决定,中国男篮新大名单曝光,徐杰有望加入

嚣张!日本队宣布重要决定,中国男篮新大名单曝光,徐杰有望加入

宗介说体育
2026-01-15 14:18:13
2026-01-16 12:24:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11082文章数 116943关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

"装死"小羊身价飙至30万元 专家:可以人工繁殖更多只

头条要闻

"装死"小羊身价飙至30万元 专家:可以人工繁殖更多只

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

从 "商务" 变 "潮酷" 全新一汽奥迪A6L首秀亮相

态度原创

游戏
本地
数码
艺术
公开课

《生危9》海量新截图 展示视角、敌人、手表手办

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

数码要闻

罗马仕被曝正亏本清理库存充电宝:27000mAh型号售价45元

艺术要闻

300亿!341米!迪拜将建全球首个奔驰品牌城市

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版