网易首页 > 网易号 > 正文 申请入驻

不只是“做题家”!DeepSeek最新模型打破数学推理局限,部分性能超越Gemini DeepThink

0
分享至

或许人们还沉浸在Gemini 3带来的冲击中,但就在11月27日晚间,DeepSeek在AI开源社区Hugging Face上发布其最新数学模型DeepSeek Math-V2一事,再次引起AI圈内一片沸腾。

在一同发布的论文中,DeepSeek方面表示,该模型通过自验证的方式突破了目前AI在深度推理方面的局限,尤其是针对大模型在数学领域“只是做题家,难成数学家”的症结,即,只重视答案却无法保证推理过程的严谨、正确。

DeepSeek以验证器为奖励模型训练证明生成器,并激励生成器在最终定稿前尽可能多地识别和解决自身证明中的问题,并通过扩展验证计算能力,自动标记新的难以验证的证明,从而创建训练数据以进一步改进验证器。

最终,Math-V2诞生了。

DeepSeek称,这款模型展现了强大的定理证明能力。换句话说,与此前大多大模型在数学方面的表现不同,Math-V2不再只是“做题家”,而真正有可能靠自身全面、严谨的数学推理能力对科学研究产生深远影响。

DeepSeek也列举了多项验证该模型的强大的证据:Math-V2在IMO(国际数学奥林匹克竞赛)2025和CMO(中国数学奥林匹克)2024上都取得了金牌级成绩,在北美大学生数学竞赛Putnam 2024上通过扩展测试计算实现了接近满分的成绩(118/120)。

此前,今年7月,OpenAI和谷歌都曾宣布其模型在IMO2025中取得了金牌级成绩,一度形成大模型数学能力天花板。相比于二者,DeepSeek的Math-V2不仅是首个开源的IMO金牌级模型,在测试中,也在部分性能上展现出了更大的优势。

在IMO-Proof Bench评估中,基准测试方面Math-V2得分居首,高达99%,高于谷歌的Gemini Deep Think(IMO Gold)的89%和GPT 5的59%。在进阶测试上,Math-V2得分61.9%,仅次于Gemini Deep Think(IMO Gold)的65.7%。


图片来源:DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

DeepSeek方面表示,尽管仍有许多工作要做,但这些结果表明,自验证数学推理是一个可行的研究方向,可能有助于开发更强大的数学AI系统。

这款突破性的开源数学模型发布后,再次在社交平台、reddit、Hacker News等评论区、社区引发热潮。

其在测试、竞赛成绩和自验证方面形成的数学定理证明能力突破,最令人关注。

“从‘结果导向’的验证转向‘过程导向’的验证,这对于定理证明尤为重要,因为在定理证明中,严格的逐步推导比数值答案更重要。” “虽然还不清楚具体用途,但拥有一位全天候免费提供的数学天才,其潜力巨大。” “这款开源模型会大大有助于自动化许多注重验证的编程语言中的繁琐工作!”

由研究人员和工程师组成的跨学科团队Binary Verse AI发文称,一个开源模型悄无声息地发布,却突破了本科数学的瓶颈。该文章作者阿兹马特(Azmat)提到,Math-V2的有趣之处不仅在于竞赛分数,更在于其方法。


图片来源:DeepSeek Math V2: Inside the Open Source Model That Beat Google at the Math Olympiad,Binary Verse AI

“如果你曾经批改过数学试卷,你就会明白猜对答案的学生和真正推导出答案的学生之间的区别。”阿兹马特认为,此前的大模型多属于前者,只是概率性的猜测者,而Math-V2的出现改变了这一切。

文章总结称,我们正从“聊天机器人”时代过渡到“推理者”时代。Math-V2证明了可自验证的数学推理是可以解决的。或许,人类不需要通用人工智能(AGI)来获得严谨的数学运算能力,只需要教会模型保持谦逊。

社交平台上,不少AI领域的KOL和知名专家都在转发消息并表示“DeepSeek强势回归”“这是你无法忽视的力量”。


图片来自社交平台X

虽然DeepSeek R2的“难产”已经成为了AI领域玩梗级别的存在,但实际上,不管是10月发布、让OpenAI联合创始人大神安德烈·卡帕斯(Andrej Karpathy)盛赞的探索视觉-文本压缩边界的DeepSeek-OCR,还是刚刚发布的Math-V2,都提示着人们:别忘了,今年AI领域的惊喜,正是从DeepSeek开始的。(作者|胡珈萌,编辑|李程程)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
周杰伦塌房!什么原创王子,他的这么多歌竟然都是抄来的

周杰伦塌房!什么原创王子,他的这么多歌竟然都是抄来的

可达鸭面面观
2026-04-05 16:59:56
命中了!伊朗真干了

命中了!伊朗真干了

互联网大观
2026-04-07 22:31:40
美军“拯救飞行员”,差一点就失败了

美军“拯救飞行员”,差一点就失败了

中国新闻周刊
2026-04-07 16:42:40
郑丽文已到达南京,国民党一人口出狂言,不装了,赖清德正式发声

郑丽文已到达南京,国民党一人口出狂言,不装了,赖清德正式发声

DS北风
2026-04-07 18:38:24
伊朗一铁路桥遭袭 已致2死3伤

伊朗一铁路桥遭袭 已致2死3伤

财联社
2026-04-07 19:12:37
特朗普设下“最后期限”之际,美国“末日飞机”现身,可抵御核爆炸,紧急状况下充当“空中五角大楼”

特朗普设下“最后期限”之际,美国“末日飞机”现身,可抵御核爆炸,紧急状况下充当“空中五角大楼”

极目新闻
2026-04-07 16:51:27
特朗普“首次承认被黑吃黑”,被点名的库尔德火速否认三连

特朗普“首次承认被黑吃黑”,被点名的库尔德火速否认三连

观察者网
2026-04-07 14:42:00
嫣然天使儿童医院发文感谢陈光标捐赠1000万!陈光标此前称:张雪迟迟没来提车,将车辆变现1000万元赠予嫣然医院

嫣然天使儿童医院发文感谢陈光标捐赠1000万!陈光标此前称:张雪迟迟没来提车,将车辆变现1000万元赠予嫣然医院

每日经济新闻
2026-04-07 14:17:07
三峡大坝收支出炉:运行20余年,总投资近2500亿,如今回本了吗?

三峡大坝收支出炉:运行20余年,总投资近2500亿,如今回本了吗?

丁丁鲤史纪
2026-04-07 10:44:35
开车致女友截瘫后失联男子首发声,女子起诉男方并回应传闻

开车致女友截瘫后失联男子首发声,女子起诉男方并回应传闻

大象新闻
2026-04-07 15:37:04
明天早上8点!全世界都盯着,谁先眨眼谁输,美伊都被逼到墙角

明天早上8点!全世界都盯着,谁先眨眼谁输,美伊都被逼到墙角

谛听骨语本尊
2026-04-07 15:24:24
“最后期限”将至,特朗普的底牌已被看穿 | 京酿馆

“最后期限”将至,特朗普的底牌已被看穿 | 京酿馆

新京报
2026-04-07 12:09:08
美军新型PrSM导弹首次实战?2月28日击中伊朗体育馆致21名青少年遇难

美军新型PrSM导弹首次实战?2月28日击中伊朗体育馆致21名青少年遇难

网易新闻出品
2026-04-07 16:36:53
岳西失踪孩子案告破,楼上邻居落网,提前踩点选盲区,亲属参与了

岳西失踪孩子案告破,楼上邻居落网,提前踩点选盲区,亲属参与了

天天热点见闻
2026-04-07 12:29:59
张雪公布自己设计的跨界踏板车设计图,最新回应:正在制作踏板摩托,这款踏板偏运动越野风格,售价可能比传统的贵一点

张雪公布自己设计的跨界踏板车设计图,最新回应:正在制作踏板摩托,这款踏板偏运动越野风格,售价可能比传统的贵一点

鲁中晨报
2026-04-07 17:13:05
监控系统出现漏洞,300多人被带走?海康威视回应:假的

监控系统出现漏洞,300多人被带走?海康威视回应:假的

21世纪经济报道
2026-04-07 12:52:07
时速超300!郑丽文体验大陆高铁速度

时速超300!郑丽文体验大陆高铁速度

叮当当科技
2026-04-07 18:47:11
交警提醒:转向灯新规4月全面实施,不足3秒直接罚200元扣1分!

交警提醒:转向灯新规4月全面实施,不足3秒直接罚200元扣1分!

复转这些年
2026-04-07 12:26:59
不装了,摊牌了!日本18岁新星承认,乒超练1年,顶在日本打10年

不装了,摊牌了!日本18岁新星承认,乒超练1年,顶在日本打10年

萌兰聊个球
2026-04-07 20:33:11
香蕉被点名!医生提醒:高血糖患者常吃香蕉,很快或迎来这些后果

香蕉被点名!医生提醒:高血糖患者常吃香蕉,很快或迎来这些后果

白话电影院
2026-04-07 20:07:56
2026-04-08 00:16:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
131867文章数 862073关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

特朗普恐吓4小时摧毁伊朗 伊朗称"打穿"海法未见拦截

头条要闻

特朗普恐吓4小时摧毁伊朗 伊朗称"打穿"海法未见拦截

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

女首富陈丽华离世 被曝生前已分好遗产

财经要闻

10万亿财政转移支付,被谁拿走了?

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

亲子
数码
本地
公开课
军事航空

亲子要闻

春天娃长个黄金期,喝对黑豆水,个子悄悄往上窜

数码要闻

OPPO ColorOS共创者星球2026年第1期高票建议采纳情况公布

本地新闻

跟着歌声游安徽,听古村回响

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军营救飞行员出动155架飞机

无障碍浏览 进入关怀版