网易首页 > 网易号 > 正文 申请入驻

DeepSeek最新发布再放大招,DeepSeekMath-V2背后的认知

0
分享至


DeepSeekMath-V2:当AI学会自我怀疑,数学竞赛金牌只是开始

我们似乎已经习惯了AI在计算上的无所不能,但内心深处总有一个疑问:它真的懂数学吗?

是只是一个更快的算器?

过去,AI在数学领域的表现,常常像一个自信的骗子,它可能通过暴力搜索或纯粹的运气,猜中正确答案,但推理过程却漏洞百出。

这种模式在需要严谨证明的数学领域,几乎是死路一条。

因为对于真正的数学,尤其是定理证明,答案正确不等于推理正确。过程的严谨性,才是灵魂所在。

传统依赖最终答案奖励的训练方法,无法教会AI这一点。

它只会鼓励模型不择手段地得到那个数字,哪怕逻辑链条早已断裂。

就在最近DeepSeek团队发布的DeepSeekMath-V2,似乎彻底改变了这一切。

它不再满足于给出答案,而是学会了像人类数学家一样,审视、怀疑并修正自己的证明过程。

这不仅仅是一次技术迭代,更像是一场AI思维方式的革命。


核心突破:从自信的严谨的数学家

DeepSeekMath-V2最引人注目的地方,不是它又刷新了多少榜单,而是它采用了一种全新的方法论:自验证数学推理。

简单来说,它不再盲目自信,而是学会了自我怀疑。

生成器验证双模型博弈

这个系统的核心,是一个精妙的生成器验证器双模型架构。

你可以把它想象成一个学生和一个极其严苛的教授之间的互动:

生成器(TheProofGenerator)扮演着学生的角色,它的任务是产出解题步骤和证明过程。

验证(TheVerifier)扮演着教授的角色,它不关心最终答案是否正确,而是逐行审查学生的证明,寻找逻辑上的任何瑕疵、跳跃或不严谨之处。

程形成了一个闭环生成器提交证明,验证器进行严格评审并打分(例如,1分代表严谨,0.5分代表思路对但有瑕疵,0分代表存在致命错误)。

如果验证器不满意,生成器就必须根据反馈进行修改,直到证明过程无懈可击。

这就像我们上学时,把作业交给老师批改,再订正,直到完美为止。

这种机制,迫使AI从一个猜答案的机器,转变为一个构造论证的思想者。

永不足的动态能力差距的奥秘

这里有一个更巧妙的设计。

如果学生进步太快,超过了老师的水平怎么办?

系统就会失去自我纠错的能力。

为了解决这个问题,DeepSeek团队引入了动态能力差距机制。

当生成器变得越来越强,能写出更复杂、更精妙的证明时,验证器也会随之进化。

系统会自动识别出那些验证器难以判断的硬骨头样本,然后投入更多的计算资源(相当于让教授花更多时间、查更多资料)去进行深度分析和标注。

这些被强化审阅过的数据,又会反过来用于训练,让验证器变得更加火眼金睛。

这种生成器和验证器之间的协同进化,就像一场永不休止的军备竞赛。

验证器始终保持着对生成器的微弱优势,迫使后者不断突破自我,攀登更高的逻辑高峰。

这正是DeepSeekMath-V2能够持续进步的动力源泉。

惊人的成绩单AI如何碾类顶级数学竞赛

理论说得再好,终究要靠实力说话。

DeepSeekMath-V2的表现在各大顶级数学竞赛和基准测试中,只能用惊人来形容。

在被誉为数学世界杯的国际数学奥林匹克竞赛(IMO)2025年的测试中,它取得了金牌水平的成绩。

在中国数学奥林匹克(CMO)2024和美国最难的大学生数学竞赛普特南(Putnam)2024的测试中,它同样表现出色,尤其是在普特南竞赛中取得了近乎满分的118/120分。


要知道,这项竞赛的人类中位数分数常常接近于零。

这些成绩的取得,并非简单的单次运行,而是通过测试时计算扩展(scaledtest-timecompute)实现的,即让模型有更多时间去思考、生成多种解法并进行自我验证,最终选出最优解。

这更接近人类顶尖高手解决难题时的状态。

在由GoogleDeepMind团队开发的定理证明基准测试IMO-ProofBench上,DeepSeekMath-V2的表现更是直接挑战了此前的王者,GeminiDeepThink。


在基础证明集(ProofBench-Basic)上,DeepSeekMath-V2达到了惊人的99%准确率,超越了GeminiDeepThink的89%。

在更困难的高级证明集(ProofBench-Advanced)上,两者虽互有胜负(61.9%vs65.7%),但DeepSeekMath-V2已经稳稳地站在了第一梯队,并将GPT-4o、Claude3.5Sonnet等通用模型远远甩在身后。

不只是刷分:什么说这了游戏规则

如果仅仅将DeepSeekMath-V2的成就看作是刷分能力的又一次提升,那就太小看它了。

它的出现,至少在两个层面上改变了AI领域的游戏规则。

开源的力量:打破巨头垄断的神

过去几年,一个普遍的看法是,只有像Google、OpenAI这样的巨头,凭借其海量的计算资源和封闭的数据,才有可能在自动定理证明这样的前沿领域取得突破。DeepSeekMath-V2的成功,以及其基于Apache2.0协议的完全开源,有力地打破了这一神话。

超越数学:一种全新的AI范式

生成器-验证器的架构,其意义远不止于数学。它为构建更可靠、更具逻辑性的AI智能体(Agent)提供了一个全新的蓝图。这种先生成、再批判的模式,可以被广泛应用于:

代码生成:AI不仅写代码,还能自我审查代码的逻辑漏洞和潜在bug。

法律分析:AI在起草合同时,能自我检查条款是否存在矛盾或法律风险。

科学研究:AI在提出科学假说后,能自我评估其与现有证据的逻辑一致性。

我们正在从依赖人类反馈进行强化学习(RLHF)的时代,迈向一个依赖AI自身逻辑反馈进行学习(RLAIF)的新时代。

这标志着AI从一个听话的模仿者,开始向一个独立的思考者转变。

如何只数学猛

DeepSeekMath-V2基于DeepSeek-V3.2-Exp-Base构建,可以通过HuggingFace的transformers库进行调用。但需要注意的是,这是一个拥有6850亿参数的庞然大物(尽管采用了MoE架构,每次推理激活的参数较少),对硬件要求极高,通常需要企业级的GPU集群才能流畅运行。对于普通用户和研究者来说,等待社区推出轻量化的量化版本可能是更现实的选择。

更重要的是,要发挥其最大威力,不能简单地进行一次性提问。最佳实践是采用一种智能体模式(Agent Mode)进行序贯优化:

1.生成初步证明:向模型提出问题。

2.获取自我评估:模型在输出证明的同时,会给出一个自我评估分数。

3.循环优化:如果分数不完美,将带有问题的证明连同反馈再次输入模型,并提示它:请根据你发现的问题优化你的证明。

通过这种方式,你可以引导模型进行多次迭代,模拟其训练时的自我验证过程,从而获得远超单次提问的推理深度和准确性。

比奶茶更精彩的,是AI学会了思考

AI行业已经很久没有出现真正让人眼前一亮、心跳加速的新事物了。我们看了太多的参数竞赛和性能刷榜,却很少看到思维方式的根本性变革。

DeepSeekMath-V2的出现它让我们看到,AI的发展路径并非只有更大、更快这一条路。

通过教会AI自我怀疑,我们或许能打开一扇更智能的大门。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
腾讯宣布推出全新聊天软件,微信要被替代了吗?

腾讯宣布推出全新聊天软件,微信要被替代了吗?

XCiOS俱乐部
2026-01-26 18:29:01
退脏衣女记者全网社死!正脸很白净,坏到骨子里,山东文旅遭围攻

退脏衣女记者全网社死!正脸很白净,坏到骨子里,山东文旅遭围攻

李健政观察
2026-01-26 09:33:07
抢疯了!暴涨40%,多人凌晨排队等开门,有人排了6小时

抢疯了!暴涨40%,多人凌晨排队等开门,有人排了6小时

深圳晚报
2026-01-26 08:11:53
2025年外商投资创2014年以来最低值

2025年外商投资创2014年以来最低值

凯利经济观察
2026-01-26 13:11:38
天呢!一个德国人非议中国教育是对人性的摧残…

天呢!一个德国人非议中国教育是对人性的摧残…

慧翔百科
2026-01-26 11:45:53
刷到20+就拒投?SGA延续纪录却再吞耻辱 美媒:他正毁掉联盟形象

刷到20+就拒投?SGA延续纪录却再吞耻辱 美媒:他正毁掉联盟形象

颜小白的篮球梦
2026-01-26 19:57:59
重磅!NBA三方交易:字母哥+格兰特赴尼克斯,布里奇斯转投开拓者

重磅!NBA三方交易:字母哥+格兰特赴尼克斯,布里奇斯转投开拓者

夜白侃球
2026-01-26 20:29:44
“火烈鸟”导弹4发全中!空袭力度加强,俄军对地攻击导弹疑不足

“火烈鸟”导弹4发全中!空袭力度加强,俄军对地攻击导弹疑不足

鹰眼Defence
2026-01-26 17:27:05
牢A为什么突然爆红?因为他说出了杨振宁不敢明说的后半段!董明珠早就看透了一切

牢A为什么突然爆红?因为他说出了杨振宁不敢明说的后半段!董明珠早就看透了一切

小鱼爱鱼乐
2026-01-26 17:39:17
刚刚,李湘前夫王岳伦发声:什么王诗龄休学呀,什么缅北诈骗呀,各种胡说八道……

刚刚,李湘前夫王岳伦发声:什么王诗龄休学呀,什么缅北诈骗呀,各种胡说八道……

都市快报橙柿互动
2026-01-26 19:01:46
8天连斩曼城阿森纳!44岁卡里克神了:3处变招 老板很满意

8天连斩曼城阿森纳!44岁卡里克神了:3处变招 老板很满意

叶青足球世界
2026-01-26 16:35:47
汪小菲接俩娃回北京,玥儿长高超像大S,打雪仗时一个动作好暖心

汪小菲接俩娃回北京,玥儿长高超像大S,打雪仗时一个动作好暖心

无心小姐姐
2026-01-27 00:44:27
日本新首相人选正式出炉,对华政策引人关注

日本新首相人选正式出炉,对华政策引人关注

风干迷茫人
2026-01-26 12:08:00
佛山路边停车收费出“奇招”,被称“吃相难看”

佛山路边停车收费出“奇招”,被称“吃相难看”

中国新闻周刊
2026-01-26 16:47:50
日本U23中场:中国队总看起来像功夫足球,教练让我们要11人完赛

日本U23中场:中国队总看起来像功夫足球,教练让我们要11人完赛

懂球帝
2026-01-26 20:41:10
2025年新生儿仅有792万,一个重要原因是育儿的廉价劳动力已经不足了

2025年新生儿仅有792万,一个重要原因是育儿的廉价劳动力已经不足了

风向观察
2026-01-25 12:07:51
黄金与白银在刷新历史高点后大幅回调

黄金与白银在刷新历史高点后大幅回调

每日经济新闻
2026-01-27 05:38:36
深圳这一天,娱乐圈的人情冷暖,在梁小龙追悼会体现得淋漓尽致

深圳这一天,娱乐圈的人情冷暖,在梁小龙追悼会体现得淋漓尽致

墨印斋
2026-01-26 18:25:03
炸了!集体逼空暴涨

炸了!集体逼空暴涨

君临财富
2026-01-26 20:39:13
杨鸣:球队最近的表现让大家很失望,我非常内疚和惭愧

杨鸣:球队最近的表现让大家很失望,我非常内疚和惭愧

懂球帝
2026-01-26 17:30:13
2026-01-27 06:40:49
AI变革 incentive-icons
AI变革
AI时代的变革,无论你主不主动,都与你有关
133文章数 16关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

女子被丈夫和闺蜜背叛一夜白头:听到儿子叫第三者妈妈

头条要闻

女子被丈夫和闺蜜背叛一夜白头:听到儿子叫第三者妈妈

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

教育
家居
时尚
手机
数码

教育要闻

浙江一地取消中考选拔功能 这模式能全国推广吗?

家居要闻

流韵雅居,让复杂变纯粹

甜了10年,超多暧昧细节,全网求他俩原地结婚

手机要闻

苹果更改iOS 27内部代号,距离亮相仅剩五个月!

数码要闻

1399元 小米首款儿童手表开售:秒级连续定位、支持水域提醒

无障碍浏览 进入关怀版