网易首页 > 网易号 > 正文 申请入驻

不只是“做题家”!DeepSeek最新模型打破数学推理局限,部分性能超越Gemini DeepThink

0
分享至

或许人们还沉浸在Gemini 3带来的冲击中,但就在11月27日晚间,DeepSeek在AI开源社区Hugging Face上发布其最新数学模型DeepSeek Math-V2一事,再次引起AI圈内一片沸腾。

在一同发布的论文中,DeepSeek方面表示,该模型通过自验证的方式突破了目前AI在深度推理方面的局限,尤其是针对大模型在数学领域“只是做题家,难成数学家”的症结,即,只重视答案却无法保证推理过程的严谨、正确。

DeepSeek以验证器为奖励模型训练证明生成器,并激励生成器在最终定稿前尽可能多地识别和解决自身证明中的问题,并通过扩展验证计算能力,自动标记新的难以验证的证明,从而创建训练数据以进一步改进验证器。

最终,Math-V2诞生了。

DeepSeek称,这款模型展现了强大的定理证明能力。换句话说,与此前大多大模型在数学方面的表现不同,Math-V2不再只是“做题家”,而真正有可能靠自身全面、严谨的数学推理能力对科学研究产生深远影响。

DeepSeek也列举了多项验证该模型的强大的证据:Math-V2在IMO(国际数学奥林匹克竞赛)2025和CMO(中国数学奥林匹克)2024上都取得了金牌级成绩,在北美大学生数学竞赛Putnam 2024上通过扩展测试计算实现了接近满分的成绩(118/120)。

此前,今年7月,OpenAI和谷歌都曾宣布其模型在IMO2025中取得了金牌级成绩,一度形成大模型数学能力天花板。相比于二者,DeepSeek的Math-V2不仅是首个开源的IMO金牌级模型,在测试中,也在部分性能上展现出了更大的优势。

在IMO-Proof Bench评估中,基准测试方面Math-V2得分居首,高达99%,高于谷歌的Gemini Deep Think(IMO Gold)的89%和GPT 5的59%。在进阶测试上,Math-V2得分61.9%,仅次于Gemini Deep Think(IMO Gold)的65.7%。

图片来源:DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

DeepSeek方面表示,尽管仍有许多工作要做,但这些结果表明,自验证数学推理是一个可行的研究方向,可能有助于开发更强大的数学AI系统。

这款突破性的开源数学模型发布后,再次在社交平台、reddit、Hacker News等评论区、社区引发热潮。

其在测试、竞赛成绩和自验证方面形成的数学定理证明能力突破,最令人关注。

“从‘结果导向’的验证转向‘过程导向’的验证,这对于定理证明尤为重要,因为在定理证明中,严格的逐步推导比数值答案更重要。” “虽然还不清楚具体用途,但拥有一位全天候免费提供的数学天才,其潜力巨大。” “这款开源模型会大大有助于自动化许多注重验证的编程语言中的繁琐工作!”

由研究人员和工程师组成的跨学科团队Binary Verse AI发文称,一个开源模型悄无声息地发布,却突破了本科数学的瓶颈。该文章作者阿兹马特(Azmat)提到,Math-V2的有趣之处不仅在于竞赛分数,更在于其方法。

图片来源:DeepSeek Math V2: Inside the Open Source Model That Beat Google at the Math Olympiad,Binary Verse AI

“如果你曾经批改过数学试卷,你就会明白猜对答案的学生和真正推导出答案的学生之间的区别。”阿兹马特认为,此前的大模型多属于前者,只是概率性的猜测者,而Math-V2的出现改变了这一切。

文章总结称,我们正从“聊天机器人”时代过渡到“推理者”时代。Math-V2证明了可自验证的数学推理是可以解决的。或许,人类不需要通用人工智能(AGI)来获得严谨的数学运算能力,只需要教会模型保持谦逊。

社交平台上,不少AI领域的KOL和知名专家都在转发消息并表示“DeepSeek强势回归”“这是你无法忽视的力量”。

图片来自社交平台X

虽然DeepSeek R2的“难产”已经成为了AI领域玩梗级别的存在,但实际上,不管是10月发布、让OpenAI联合创始人大神安德烈·卡帕斯(Andrej Karpathy)盛赞的探索视觉-文本压缩边界的DeepSeek-OCR,还是刚刚发布的Math-V2,都提示着人们:别忘了,今年AI领域的惊喜,正是从DeepSeek开始的。(作者|胡珈萌,编辑|李程程)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
爱尔兰最抢眼的雕塑,瞎子路过都忍不住摸一把

爱尔兰最抢眼的雕塑,瞎子路过都忍不住摸一把

beebee
2026-06-02 11:11:48
《教父》早就讲透:男人真正吸引异性的,从来不是甜言蜜语,也不是吃喝玩乐,而是这两种底层能力

《教父》早就讲透:男人真正吸引异性的,从来不是甜言蜜语,也不是吃喝玩乐,而是这两种底层能力

心理观察局
2026-06-03 07:39:04
为什么男人都喜欢看女人的胸部?并非色眯眯,早就被镶嵌在基因里

为什么男人都喜欢看女人的胸部?并非色眯眯,早就被镶嵌在基因里

宇宙时空
2026-06-03 13:52:38
阿隆索疯了!切尔西要回购自家水货,当年 6000 万买来被扫地出门

阿隆索疯了!切尔西要回购自家水货,当年 6000 万买来被扫地出门

奶盖熊本熊
2026-06-03 05:08:29
联合国秘书长确定换人,5名候选人名单出炉,王毅赴纽约定下规矩

联合国秘书长确定换人,5名候选人名单出炉,王毅赴纽约定下规矩

残梦重生来
2026-06-03 04:04:51
三枚导弹砸醒科威特!伊朗撂下史上最狠一句话,美军连夜删帖?

三枚导弹砸醒科威特!伊朗撂下史上最狠一句话,美军连夜删帖?

菁菁子衿
2026-06-03 12:55:47
上海女选手裸照被围观这件事,扯下了“体育赛事照片直播”遮羞布

上海女选手裸照被围观这件事,扯下了“体育赛事照片直播”遮羞布

马拉松跑步健身
2026-06-02 20:24:16
“不理解但尊重”,家长打扮粉嫩幼态送娃上学,网友:很不得体

“不理解但尊重”,家长打扮粉嫩幼态送娃上学,网友:很不得体

蝴蝶花雨话教育
2026-06-03 00:05:12
最高预售价200万元尊界搭载国产朝阳轮胎引发热议,余承东称做高端拔高了中国汽车产业能力

最高预售价200万元尊界搭载国产朝阳轮胎引发热议,余承东称做高端拔高了中国汽车产业能力

金融界
2026-05-31 21:56:07
中日一旦开战,谁会帮我们?俄巴朝各怀心思,真正的底牌只有一张

中日一旦开战,谁会帮我们?俄巴朝各怀心思,真正的底牌只有一张

古史青云啊
2026-05-24 09:40:58
大快人心!反华急先锋王月眉被驱逐出境了!胡锡进曾和她推杯换盏

大快人心!反华急先锋王月眉被驱逐出境了!胡锡进曾和她推杯换盏

深析古今
2026-06-03 15:08:52
黄仁勋到底有没有资格评价华为?

黄仁勋到底有没有资格评价华为?

小明哗扑
2026-06-03 11:01:19
在与俄领导人会面后,俄罗斯寡头们“自愿”为战争捐款2200亿卢布

在与俄领导人会面后,俄罗斯寡头们“自愿”为战争捐款2200亿卢布

山河路口
2026-06-02 14:04:22
闲鱼网出事了!

闲鱼网出事了!

东莞好生活
2026-06-02 15:07:35
拿身份证直接进!北京60岁以上免票逛大公园,外地户口也能进!

拿身份证直接进!北京60岁以上免票逛大公园,外地户口也能进!

原广工业
2026-06-03 16:47:44
邓正红软实力发布:2026世界企业软实力500强 英伟达苹果占据前列

邓正红软实力发布:2026世界企业软实力500强 英伟达苹果占据前列

邓正红软实力
2026-06-03 17:10:57
CBA重金聘请外籍裁判成笑话,总决赛吹稀烂,球迷怒喷

CBA重金聘请外籍裁判成笑话,总决赛吹稀烂,球迷怒喷

宗介说体育
2026-06-03 10:11:01
从0-1到5-3!土伦杯沙特队火力全开,中国队跌到倒数第2名

从0-1到5-3!土伦杯沙特队火力全开,中国队跌到倒数第2名

何老师呀
2026-06-03 05:25:11
胃开始癌变,不是看胃疼不疼!医生:出现5个症状,胃癌或已来临

胃开始癌变,不是看胃疼不疼!医生:出现5个症状,胃癌或已来临

芹姐说生活
2026-06-03 14:16:06
快讯!鲁比奥再次在台湾问题上进行表态!

快讯!鲁比奥再次在台湾问题上进行表态!

故事终将光明磊落
2026-06-03 12:50:14
2026-06-03 19:15:00
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
134511文章数 862215关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

网友花120万在直播间买原石 警方:30人拼单29个是托

头条要闻

网友花120万在直播间买原石 警方:30人拼单29个是托

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

手机
本地
教育
房产
公开课

手机要闻

世界杯观赛神器 vivo Y600 Turbo看球无压力

本地新闻

用杨柳青年画的方式,打开天津

教育要闻

【草原英雄征途】锡林郭勒·少年那达慕成长营

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版