网易首页 > 网易号 > 正文 申请入驻

不只是“做题家”!DeepSeek最新模型打破数学推理局限,部分性能超越Gemini DeepThink

0
分享至

或许人们还沉浸在Gemini 3带来的冲击中,但就在11月27日晚间,DeepSeek在AI开源社区Hugging Face上发布其最新数学模型DeepSeek Math-V2一事,再次引起AI圈内一片沸腾。

在一同发布的论文中,DeepSeek方面表示,该模型通过自验证的方式突破了目前AI在深度推理方面的局限,尤其是针对大模型在数学领域“只是做题家,难成数学家”的症结,即,只重视答案却无法保证推理过程的严谨、正确。

DeepSeek以验证器为奖励模型训练证明生成器,并激励生成器在最终定稿前尽可能多地识别和解决自身证明中的问题,并通过扩展验证计算能力,自动标记新的难以验证的证明,从而创建训练数据以进一步改进验证器。

最终,Math-V2诞生了。

DeepSeek称,这款模型展现了强大的定理证明能力。换句话说,与此前大多大模型在数学方面的表现不同,Math-V2不再只是“做题家”,而真正有可能靠自身全面、严谨的数学推理能力对科学研究产生深远影响。

DeepSeek也列举了多项验证该模型的强大的证据:Math-V2在IMO(国际数学奥林匹克竞赛)2025和CMO(中国数学奥林匹克)2024上都取得了金牌级成绩,在北美大学生数学竞赛Putnam 2024上通过扩展测试计算实现了接近满分的成绩(118/120)。

此前,今年7月,OpenAI和谷歌都曾宣布其模型在IMO2025中取得了金牌级成绩,一度形成大模型数学能力天花板。相比于二者,DeepSeek的Math-V2不仅是首个开源的IMO金牌级模型,在测试中,也在部分性能上展现出了更大的优势。

在IMO-Proof Bench评估中,基准测试方面Math-V2得分居首,高达99%,高于谷歌的Gemini Deep Think(IMO Gold)的89%和GPT 5的59%。在进阶测试上,Math-V2得分61.9%,仅次于Gemini Deep Think(IMO Gold)的65.7%。


图片来源:DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

DeepSeek方面表示,尽管仍有许多工作要做,但这些结果表明,自验证数学推理是一个可行的研究方向,可能有助于开发更强大的数学AI系统。

这款突破性的开源数学模型发布后,再次在社交平台、reddit、Hacker News等评论区、社区引发热潮。

其在测试、竞赛成绩和自验证方面形成的数学定理证明能力突破,最令人关注。

“从‘结果导向’的验证转向‘过程导向’的验证,这对于定理证明尤为重要,因为在定理证明中,严格的逐步推导比数值答案更重要。” “虽然还不清楚具体用途,但拥有一位全天候免费提供的数学天才,其潜力巨大。” “这款开源模型会大大有助于自动化许多注重验证的编程语言中的繁琐工作!”

由研究人员和工程师组成的跨学科团队Binary Verse AI发文称,一个开源模型悄无声息地发布,却突破了本科数学的瓶颈。该文章作者阿兹马特(Azmat)提到,Math-V2的有趣之处不仅在于竞赛分数,更在于其方法。


图片来源:DeepSeek Math V2: Inside the Open Source Model That Beat Google at the Math Olympiad,Binary Verse AI

“如果你曾经批改过数学试卷,你就会明白猜对答案的学生和真正推导出答案的学生之间的区别。”阿兹马特认为,此前的大模型多属于前者,只是概率性的猜测者,而Math-V2的出现改变了这一切。

文章总结称,我们正从“聊天机器人”时代过渡到“推理者”时代。Math-V2证明了可自验证的数学推理是可以解决的。或许,人类不需要通用人工智能(AGI)来获得严谨的数学运算能力,只需要教会模型保持谦逊。

社交平台上,不少AI领域的KOL和知名专家都在转发消息并表示“DeepSeek强势回归”“这是你无法忽视的力量”。


图片来自社交平台X

虽然DeepSeek R2的“难产”已经成为了AI领域玩梗级别的存在,但实际上,不管是10月发布、让OpenAI联合创始人大神安德烈·卡帕斯(Andrej Karpathy)盛赞的探索视觉-文本压缩边界的DeepSeek-OCR,还是刚刚发布的Math-V2,都提示着人们:别忘了,今年AI领域的惊喜,正是从DeepSeek开始的。(作者|胡珈萌,编辑|李程程)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
雷军转发诅咒反弹帖,目前已删除!评论区惊现一片“支持董明珠”

雷军转发诅咒反弹帖,目前已删除!评论区惊现一片“支持董明珠”

火山诗话
2026-01-14 06:54:06
委内政部长表示美国袭击致超过100人死亡,“爆炸威力巨大无法进行DNA鉴定”

委内政部长表示美国袭击致超过100人死亡,“爆炸威力巨大无法进行DNA鉴定”

大风新闻
2026-01-14 10:15:03
2026央视春晚首次彩排引热议,语言类节目回春,9大看点令人期待

2026央视春晚首次彩排引热议,语言类节目回春,9大看点令人期待

白面书誏
2026-01-13 16:43:06
杜兰特28+10火箭战胜公牛结束3连败,申京23+7+11汤普森23分

杜兰特28+10火箭战胜公牛结束3连败,申京23+7+11汤普森23分

湖人崛起
2026-01-14 11:28:33
韩国真的没小孩了!

韩国真的没小孩了!

奋斗在韩国
2026-01-13 13:42:26
合川杀猪宴火到央视!人民日报点名,恶心事发生,网名呆呆难保住

合川杀猪宴火到央视!人民日报点名,恶心事发生,网名呆呆难保住

李健政观察
2026-01-13 14:55:06
澳大利亚驱逐伊朗大使,西方多国纷纷与波斯政府“翻脸”

澳大利亚驱逐伊朗大使,西方多国纷纷与波斯政府“翻脸”

史政先锋
2026-01-13 23:03:50
株洲灿灿跟风杀猪,比呆呆还野!文旅提前6天准备,却被网友骂惨

株洲灿灿跟风杀猪,比呆呆还野!文旅提前6天准备,却被网友骂惨

李健政观察
2026-01-13 15:57:55
什么盛世?谁的盛世?

什么盛世?谁的盛世?

浪子说
2026-01-14 07:03:51
熬夜猝死只是表象,"口子姐"生前最后一年经历被扒,迟早要出事

熬夜猝死只是表象,"口子姐"生前最后一年经历被扒,迟早要出事

李健政观察
2026-01-13 09:27:27
突然停摆!河南又一家骨科专科医院倒下,123名医护被迫找下家

突然停摆!河南又一家骨科专科医院倒下,123名医护被迫找下家

医脉圈
2026-01-13 21:00:34
私!贪!狂!洪礼和三个字总结自己违法犯罪之路

私!贪!狂!洪礼和三个字总结自己违法犯罪之路

环球网资讯
2026-01-13 20:53:23
陈志被捕后,太子集团旗下大型房地产项目被禁止销售:付全款购房者可申请产权转移

陈志被捕后,太子集团旗下大型房地产项目被禁止销售:付全款购房者可申请产权转移

红星新闻
2026-01-13 13:34:29
不容易!河北农村燃气降价2毛钱,每户再给200元补贴

不容易!河北农村燃气降价2毛钱,每户再给200元补贴

小萝卜丝
2026-01-14 09:18:09
瑞银泼冷水:明年房价再跌10%,后年再跌5%

瑞银泼冷水:明年房价再跌10%,后年再跌5%

谭谈投研
2025-12-27 18:07:13
让人眼红!合川呆呆3天涨粉175万,预计收入400万,96个大哥守护

让人眼红!合川呆呆3天涨粉175万,预计收入400万,96个大哥守护

火山诗话
2026-01-13 06:57:26
5天清仓21吨银条,狂赚2.47亿元!广州一物业公司股价大涨,老板娘“眼光”独到?6年前公司就开始囤银,还做了波段

5天清仓21吨银条,狂赚2.47亿元!广州一物业公司股价大涨,老板娘“眼光”独到?6年前公司就开始囤银,还做了波段

每日经济新闻
2026-01-13 23:11:07
网传“骨科神医”家藏3.2亿现金,全被冻结!

网传“骨科神医”家藏3.2亿现金,全被冻结!

达文西看世界
2026-01-10 14:18:58
金惠景陪李在明出席晚宴全程冷脸,高市早苗和李在明尽情畅欢颜

金惠景陪李在明出席晚宴全程冷脸,高市早苗和李在明尽情畅欢颜

斜烟风起雨未
2026-01-14 09:44:12
蒋超良被渗透式“围猎” 商人开口就要大项目

蒋超良被渗透式“围猎” 商人开口就要大项目

环球网资讯
2026-01-13 20:53:20
2026-01-14 11:56:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
128904文章数 861632关注度
往期回顾 全部

科技要闻

美国批准英伟达H200卖给中国,但有条件

头条要闻

委方:美国袭击爆炸威力巨大 无法对残骸进行DNA鉴定

头条要闻

委方:美国袭击爆炸威力巨大 无法对残骸进行DNA鉴定

体育要闻

牛津学霸买下儿时主队,让它成为英超黑马

娱乐要闻

何晴去世30天,许亚军终于发声

财经要闻

"死了么"App爆火:流量来了 困境未解

汽车要闻

曝Model Y或降到20万以内!

态度原创

教育
数码
房产
本地
公开课

教育要闻

跟大鹏老师学将军饮马,通熟易懂!

数码要闻

华硕ProArt 创13 2026开启预约 支持360°旋转多形态

房产要闻

热销17亿后!天正·三亚湾壹号,被爆违建!

本地新闻

云游内蒙|到巴彦淖尔去,赴一场塞上江南的邀约

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版