网易首页 > 网易号 > 正文 申请入驻

刚刚,DeepSeek开源新模型,拿下奥数证明题冠军

0
分享至


智东西
作者 李水青
编辑 心缘

智东西11月17 日报道,今日,DeepSeek开源了“奥数金牌级”模型DeepSeekMath-V2,该模型具备强大的定理证明能力

DeepSeekMath-V2在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)上取得了金牌水平的成绩;并在2024年普特南大学生数学竞赛(Putnam 2024)上取得了接近满分(118/120分)的成绩,超过人类最高的90分成绩。


如下图所示,DeepSeekMath-V2以10%的优势击败谷歌的IMO金奖得主DeepThink模型。

▲DeepSeekMath-V2在数学竞赛中的成绩表现


▲DeepSeekMath-V2在IMO-ProofBench的测评结果

上述结果表明,自验证数学推理是一个可行的研究方向,可能有助于开发更强大的数学AI系统。


Hugging Face地址:
https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
论文地址:
https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf

按惯例,DeepSeek往往会将新开源的模型直接上线DeepSeek,我们第一时间尝试进行了体验。

首先让DeepSeek证明一道较简单的题目“证明根号2为无理数”,DeepSeek快速给出了正确答案。


当智东西输入“证明奇数和整数哪个多?”这一证明题,DeepSeek也给出了正确证明过程和答案,这一证明过程大部分人应该可以看懂。当然,奥数级证明题会更加复杂,如果有能够看懂理解这类题目的读者,可以再进一步进行体验测试。



回到模型背后的研发问题,我们来具体看看论文内容,从已有的研究来看,在数学推理领域,强化学习(RL)传统方法足以让大模型在主要评估最终答案的数学竞赛(如AIME和HMMT)中达到很高的水平。然而这种奖励机制存在两个根本性的局限性:

首先,传统方法不能可靠地代表推理的正确性,模型可能通过有缺陷的逻辑或侥幸的错误得出正确答案。

其次,它不适用于定理证明任务,在这类任务中,问题可能不需要生成数值形式的最终答案,而严谨的推导才是主要目标。

为此,DeepSeek建议在大型语言模型中开发证明验证能力,基于DeepSeek-V3.2-Exp-Base开发了DeepSeekMath-V2。他们让模型明确了解其奖励函数,并使其能够通过有意识的推理而非盲目的试错来最大化这一奖励。

DeepSeek制定了用于证明评估的高级评分标准,目的是训练一个验证器,使其能根据这些评分标准对证明进行评估,模拟数学专家的评估过程。以DeepSeek-V3.2-Exp-SFT的一个版本为基础,通过强化学习训练模型生成证明分析,训练过程使用了两个奖励组件:格式奖励和分数奖励。


然后是构建强化学习数据集。DeepSeek基于17503道竞赛题目、DeepSeek-V3.2-Exp-Thinking生成的候选证明、带专家评分的随机抽取的证明样本,构建了初始强化学习训练数据集。

紧接着,其设置了强化学习目标和训练验证器的强化学习目标。具体是以DeepSeek-V3.2-Exp-SFT的一个版本为基础,通过强化学习训练模型生成证明分析,训练过程使用了两个奖励组件:格式奖励和分数奖励。而后通过下列函数完成训练验证器的强化学习目标。

为了解决训练过程中“验证器可能通过预测正确分数同时虚构不存在的问题来获得全部奖励”这一漏洞,DeepSeek引入了一个二次评估过程——元验证(meta-verification),从而提高验证器识别问题的忠实度。

在证明生成阶段,DeepSeek进行了证明生成器的训练,并通过自我验证增强推理能力,解决模型被要求一次性生成并分析自己的证明时“生成器不顾外部验证器判错而宣称证明是正确的”。


最后,DeepSeek证明验证器和生成器形成了一个协同循环:验证器改进生成器,而随着生成器的改进,它会生成新的证明,这些证明对验证器当前的能力构成挑战,这些挑战也成为增强验证器自身的宝贵训练数据。

简单来说,DeepSeekMath-V2模型中的验证器能完成逐步检查证明过程,而生成器则会修正自身的错误。

从实验结果来看,在单步生成结果评估中,如图1所示,在CNML级别的所有问题类别(代数、几何、数论、组合数学和不等式)中,DeepSeekMath-V2始终优于GPT-5-Thinking-High和Gemini 2.5-Pro,展现出在各领域更卓越的定理证明能力。


在带自我验证的顺序优化中,其对2024 IMO备选题进行连续优化后,证明质量提升。自选的最佳证明比线程平均值获得了显著更高的验证分数,这表明生成器能够准确评估证明质量。这些结果证实,其生成器能够可靠地区分高质量证明和有缺陷的证明,并利用这种自我认知系统地改进其数学推理能力。

在高计算量探索中,DeepSeek扩大了验证和生成计算的规模,他们的方法解决了2025 IMO的6道题中的5道,以及2024 CMO的4道题,另外1道题获得部分分数,在这两项顶尖高中竞赛中均达到金牌水平,在基础集上优于DeepMind的DeepThink(IMO金牌水平),在高级集上保持竞争力,同时大幅优于所有其他基线模型。

但DeepSeek发现,最困难的IMO级别问题对其模型来说仍然具有挑战性。

值得注意的是,对于未完全解决的问题,DeepSeek的生成器通常能在其证明过程中识别出真正的问题,而完全解决的问题则能通过所有64次验证尝试。这表明,我们能够成功训练基于大语言模型的验证器,以评估那些此前被认为难以自动验证的证明。通过在验证器的指导下增加测试时的计算量,DeepSeek的模型能够解决那些需要人类竞争者花费数小时才能解决的问题。

结语:可自我验证的AI系统,离解决研究级数学问题更进一步

总的来说,DeepSeek提出了一个既能生成又能验证数学证明的模型。团队突破了基于最终答案的奖励机制的局限性,迈向了可自我验证的数学推理。

这项工作证实,大语言模型能够培养出针对复杂推理任务的有意义的自我评估能力。尽管仍存在重大挑战,这一研究方向有望为创建可自我验证的AI系统解决研究级数学问题这一目标做出贡献。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
旧手机回收价狂涨五六倍!回收商:开不了机的照样高价收

旧手机回收价狂涨五六倍!回收商:开不了机的照样高价收

快科技
2026-03-25 14:53:24
杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

李橑在北漂
2026-03-25 23:30:59
徐阳点评U23国足2-2泰国:句句实在话,理性看球更懂赛场本质!

徐阳点评U23国足2-2泰国:句句实在话,理性看球更懂赛场本质!

田先生篮球
2026-03-26 06:00:06
烧了18.6万美元让AI连轴肝了17天,它产出了166篇论文

烧了18.6万美元让AI连轴肝了17天,它产出了166篇论文

酷玩实验室
2026-03-25 18:25:49
上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

黄河新闻网吕梁
2026-03-26 15:14:06
电力人气股,涨停!9连板

电力人气股,涨停!9连板

新浪财经
2026-03-26 12:19:23
中疾控发布提示:我国面临较大疫情输入风险

中疾控发布提示:我国面临较大疫情输入风险

随州派
2026-03-24 11:44:16
广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

天天话事
2026-03-26 09:30:14
俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

项鹏飞
2026-03-24 20:28:43
溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

千秋文化
2026-01-29 21:22:16
张雪峰死因:吃外卖撑住了?

张雪峰死因:吃外卖撑住了?

李万卿
2026-03-26 10:48:19
油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

复转这些年
2026-03-26 09:40:14
张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

阿纂看事
2026-03-25 16:29:49
真的太孤独了!山东47岁母亲称已怀胎8月,两女远嫁却极力反对…

真的太孤独了!山东47岁母亲称已怀胎8月,两女远嫁却极力反对…

火山詩话
2026-03-25 13:41:56
人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

慧眼看世界哈哈
2026-03-24 06:36:05
80年陈云建议陈锡联辞职,陈锡联猛拍桌:让我干啥,我绝无二话!

80年陈云建议陈锡联辞职,陈锡联猛拍桌:让我干啥,我绝无二话!

抽象派大师
2026-03-25 12:04:28
两省省委领导班子调整

两省省委领导班子调整

上观新闻
2026-03-25 15:07:07
出大事了,特朗普通报全球,美头号敌人已亮相,担心的事即将发生

出大事了,特朗普通报全球,美头号敌人已亮相,担心的事即将发生

策略述
2026-03-26 13:45:17
黄金、白银,直线跳水!特朗普,大消息!

黄金、白银,直线跳水!特朗普,大消息!

证券时报e公司
2026-03-26 14:47:48
曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

古希腊掌管松饼的神
2026-03-25 12:00:46
2026-03-26 16:39:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11433文章数 117015关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
教育
游戏
旅游
手机

皮衣+裙,高级到炸

教育要闻

2026湖北高职单招工作启动

商业互吹or真心话?制作人玩《红色沙漠》忘记工作

旅游要闻

德阳绵竹:赏花、览文旅精品......沿山旅游“火”起来

手机要闻

iPhone「自己打电话」是Bug!苹果终于承认了,怎么回事?

无障碍浏览 进入关怀版