网易首页 > 网易号 > 正文 申请入驻

刚刚,DeepSeek开源新模型,拿下奥数证明题冠军

0
分享至

来源:市场资讯

(来源:智东西)


智东西

作者 李水青

编辑 心缘

智东西11月17 日报道,今日,DeepSeek开源了“奥数金牌级”模型DeepSeekMath-V2,该模型具备强大的定理证明能力。

DeepSeekMath-V2在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)上取得了金牌水平的成绩;并在2024年普特南大学生数学竞赛(Putnam 2024)上取得了接近满分(118/120分)的成绩,超过人类最高的90分成绩。


如下图所示,DeepSeekMath-V2以10%的优势击败谷歌的IMO金奖得主DeepThink模型。

▲DeepSeekMath-V2在数学竞赛中的成绩表现


▲DeepSeekMath-V2在IMO-ProofBench的测评结果

上述结果表明,自验证数学推理是一个可行的研究方向,可能有助于开发更强大的数学AI系统。


Hugging Face地址:

https://huggingface.co/deepseek-ai/DeepSeek-Math-V2

论文地址:

https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf

按惯例,DeepSeek往往会将新开源的模型直接上线DeepSeek,我们第一时间尝试进行了体验。

首先让DeepSeek证明一道较简单的题目“证明根号2为无理数”,DeepSeek快速给出了正确答案。


当智东西输入“证明奇数和整数哪个多?”这一证明题,DeepSeek也给出了正确证明过程和答案,这一证明过程大部分人应该可以看懂。当然,奥数级证明题会更加复杂,如果有能够看懂理解这类题目的读者,可以再进一步进行体验测试。



回到模型背后的研发问题,我们来具体看看论文内容,从已有的研究来看,在数学推理领域,强化学习(RL)传统方法足以让大模型在主要评估最终答案的数学竞赛(如AIME和HMMT)中达到很高的水平。然而这种奖励机制存在两个根本性的局限性:

首先,传统方法不能可靠地代表推理的正确性,模型可能通过有缺陷的逻辑或侥幸的错误得出正确答案。

其次,它不适用于定理证明任务,在这类任务中,问题可能不需要生成数值形式的最终答案,而严谨的推导才是主要目标。

为此,DeepSeek建议在大型语言模型中开发证明验证能力,基于DeepSeek-V3.2-Exp-Base开发了DeepSeekMath-V2。他们让模型明确了解其奖励函数,并使其能够通过有意识的推理而非盲目的试错来最大化这一奖励。

DeepSeek制定了用于证明评估的高级评分标准,目的是训练一个验证器,使其能根据这些评分标准对证明进行评估,模拟数学专家的评估过程。以DeepSeek-V3.2-Exp-SFT的一个版本为基础,通过强化学习训练模型生成证明分析,训练过程使用了两个奖励组件:格式奖励和分数奖励。


然后是构建强化学习数据集。DeepSeek基于17503道竞赛题目、DeepSeek-V3.2-Exp-Thinking生成的候选证明、带专家评分的随机抽取的证明样本,构建了初始强化学习训练数据集。

紧接着,其设置了强化学习目标和训练验证器的强化学习目标。具体是以DeepSeek-V3.2-Exp-SFT的一个版本为基础,通过强化学习训练模型生成证明分析,训练过程使用了两个奖励组件:格式奖励和分数奖励。而后通过下列函数完成训练验证器的强化学习目标。

为了解决训练过程中“验证器可能通过预测正确分数同时虚构不存在的问题来获得全部奖励”这一漏洞,DeepSeek引入了一个二次评估过程——元验证(meta-verification),从而提高验证器识别问题的忠实度。

在证明生成阶段,DeepSeek进行了证明生成器的训练,并通过自我验证增强推理能力,解决模型被要求一次性生成并分析自己的证明时“生成器不顾外部验证器判错而宣称证明是正确的”。


最后,DeepSeek证明验证器和生成器形成了一个协同循环:验证器改进生成器,而随着生成器的改进,它会生成新的证明,这些证明对验证器当前的能力构成挑战,这些挑战也成为增强验证器自身的宝贵训练数据。

简单来说,DeepSeekMath-V2模型中的验证器能完成逐步检查证明过程,而生成器则会修正自身的错误。

从实验结果来看,在单步生成结果评估中,如图1所示,在CNML级别的所有问题类别(代数、几何、数论、组合数学和不等式)中,DeepSeekMath-V2始终优于GPT-5-Thinking-High和Gemini 2.5-Pro,展现出在各领域更卓越的定理证明能力。


在带自我验证的顺序优化中,其对2024 IMO备选题进行连续优化后,证明质量提升。自选的最佳证明比线程平均值获得了显著更高的验证分数,这表明生成器能够准确评估证明质量。这些结果证实,其生成器能够可靠地区分高质量证明和有缺陷的证明,并利用这种自我认知系统地改进其数学推理能力。

在高计算量探索中,DeepSeek扩大了验证和生成计算的规模,他们的方法解决了2025 IMO的6道题中的5道,以及2024 CMO的4道题,另外1道题获得部分分数,在这两项顶尖高中竞赛中均达到金牌水平,在基础集上优于DeepMind的DeepThink(IMO金牌水平),在高级集上保持竞争力,同时大幅优于所有其他基线模型。

但DeepSeek发现,最困难的IMO级别问题对其模型来说仍然具有挑战性。

值得注意的是,对于未完全解决的问题,DeepSeek的生成器通常能在其证明过程中识别出真正的问题,而完全解决的问题则能通过所有64次验证尝试。这表明,我们能够成功训练基于大语言模型的验证器,以评估那些此前被认为难以自动验证的证明。通过在验证器的指导下增加测试时的计算量,DeepSeek的模型能够解决那些需要人类竞争者花费数小时才能解决的问题。

结语:可自我验证的AI系统,离解决研究级数学问题更进一步

总的来说,DeepSeek提出了一个既能生成又能验证数学证明的模型。团队突破了基于最终答案的奖励机制的局限性,迈向了可自我验证的数学推理。

这项工作证实,大语言模型能够培养出针对复杂推理任务的有意义的自我评估能力。尽管仍存在重大挑战,这一研究方向有望为创建可自我验证的AI系统解决研究级数学问题这一目标做出贡献。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
贾国龙最新发声:回归一线,不再打造个人IP!预计近半年西贝亏损将超6亿元

贾国龙最新发声:回归一线,不再打造个人IP!预计近半年西贝亏损将超6亿元

封面新闻
2026-01-26 09:47:06
白银彻底失控了

白银彻底失控了

格隆汇
2026-01-26 20:18:13
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
老婆提出过年各回各家,我妈打了20通电话:17口人年夜饭我做

老婆提出过年各回各家,我妈打了20通电话:17口人年夜饭我做

行走的知识库
2026-01-27 03:46:23
来了,曼联!曝9500万“顶星”空降加盟红魔!两员大将遭火速放逐

来了,曼联!曝9500万“顶星”空降加盟红魔!两员大将遭火速放逐

头狼追球
2026-01-26 11:37:29
言出必行!邵佳一履行承诺,国足做出2项调整,相中7位U23新星

言出必行!邵佳一履行承诺,国足做出2项调整,相中7位U23新星

国足风云
2026-01-26 10:09:36
1399元 小米首款儿童手表开售:秒级连续定位、支持水域提醒

1399元 小米首款儿童手表开售:秒级连续定位、支持水域提醒

快科技
2026-01-27 00:34:08
历史罕见!NBL石家庄翔蓝四加时险胜焦作文旅 威姆斯空砍30+15

历史罕见!NBL石家庄翔蓝四加时险胜焦作文旅 威姆斯空砍30+15

狼叔评论
2026-01-26 23:50:09
有存款100万,已经不是一般普通人了。

有存款100万,已经不是一般普通人了。

爱吃糖的猫cat
2026-01-12 19:08:47
外交部回应美国威胁对加拿大进口商品征收100%关税

外交部回应美国威胁对加拿大进口商品征收100%关税

界面新闻
2026-01-26 15:24:34
香港财库局与上金所签重磅协议:3年内计划储金超2000吨,香港黄金中央清算系统年内将试运行

香港财库局与上金所签重磅协议:3年内计划储金超2000吨,香港黄金中央清算系统年内将试运行

每日经济新闻
2026-01-26 12:27:05
你有勇气说出内心的秘密吗?网友:我和前女友有一个12岁的女儿

你有勇气说出内心的秘密吗?网友:我和前女友有一个12岁的女儿

夜深爱杂谈
2026-01-16 18:30:54
苏联的邻居们,几乎都有一个类似外蒙的存在?芬兰、伊朗纷纷点头

苏联的邻居们,几乎都有一个类似外蒙的存在?芬兰、伊朗纷纷点头

历史摆渡
2026-01-24 18:40:03
他俩官宣结婚,朋友圈都炸了!!!

他俩官宣结婚,朋友圈都炸了!!!

柠檬有娱乐
2026-01-26 11:16:46
爆了爆了!四战砸出93分!谢谢你,湖人!

爆了爆了!四战砸出93分!谢谢你,湖人!

篮球实战宝典
2026-01-26 22:43:06
输电网拥堵致芝加哥电力价格跌破零

输电网拥堵致芝加哥电力价格跌破零

财联社
2026-01-27 04:56:05
官方:马塞洛16岁儿子恩佐-阿尔维斯与皇马签下首份职业合同

官方:马塞洛16岁儿子恩佐-阿尔维斯与皇马签下首份职业合同

懂球帝
2026-01-27 03:34:24
被拉入黑名单的5个生活用品,它们正在偷走你的健康!你还在用吗

被拉入黑名单的5个生活用品,它们正在偷走你的健康!你还在用吗

美家指南
2025-11-28 17:10:53
受贿金额巨大!又一大三甲原书记被查...

受贿金额巨大!又一大三甲原书记被查...

医疗器械经销商联盟
2026-01-26 13:30:21
向太曝马伊琍已再婚:当年文章过不了心理那关

向太曝马伊琍已再婚:当年文章过不了心理那关

娱乐看阿敞
2025-12-12 15:50:00
2026-01-27 06:44:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2057560文章数 5298关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

女子被丈夫和闺蜜背叛一夜白头:听到儿子叫第三者妈妈

头条要闻

女子被丈夫和闺蜜背叛一夜白头:听到儿子叫第三者妈妈

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

本地
房产
游戏
数码
公开课

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

房产要闻

突发!三亚官宣,调整安居房政策!

猎魂世界:先遣服1.5版本新内容汇总!这第7魂环真是够那个了!

数码要闻

1399元 小米首款儿童手表开售:秒级连续定位、支持水域提醒

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版