网易首页 > 网易号 > 正文 申请入驻

DeepSeek上新!首个奥数金牌水平的模型来了

0
分享至

11月27日晚,DeepSeek悄悄地在Hugging Face 上开源了一个新模型:DeepSeek-Math-V2。这是一个数学方面的模型,也是目前行业首个达到IMO(国际奥林匹克数学竞赛)金牌水平且开源的模型。

在同步发布的技术论文中,DeepSeek表示,Math-V2的部分性能优于谷歌旗下的Gemini DeepThink,并展示了模型在IMO-ProofBench基准以及近期数学竞赛上的表现。


具体来看,在其中的Basic基准上,DeepSeek-Math-V2 远胜其他模型,达到了近99%的高分,而排在第二的谷歌旗下Gemini Deep Think (IMO Gold)分数为89%。但在更难的 Advanced 子集上,Math-V2分数为61.9%,略逊于 Gemini Deep Think (IMO Gold)的65.7%。

在这篇名为《DeepSeek Math-V2:迈向可自验证的数学推理》的论文中,DeepSeek指出,大语言模型已经在数学推理方面取得了重大进展,这是人工智能的重要试验台,如果进一步推进,可能会对科学研究产生影响。


但当前的AI在数学推理方面有着研究局限:以正确的最终答案作为奖励,正确的答案却不能保证正确的推理。许多数学任务,如定理证明,需要严格的分步推导,而不是数字答案,这使得最终答案奖励不适用。

为了突破深度推理的极限,DeepSeek认为有必要验证数学推理的全面性和严谨性。团队提出,自我验证对于扩展测试时间计算尤为重要,特别是对于那些没有已知解决方案的开放问题。

此次DeepSeek推出的Math-V2就从结果导向转向了过程导向,展示了强大的定理证明能力。这一模型不依赖大量的数学题答案数据,而是通过教会AI如何像数学家一样严谨地审查证明过程,从而在没有人类干预的情况下,也能不断提升解决高难度数学证明题的能力 。

论文提到,Math-V2在IMO 2025和CMO 2024上取得了金牌级成绩,在Putnam 2024上通过扩展测试计算实现了接近满分的成绩(118/120)。

DeepSeek认为,虽然仍有许多工作要做,但这些结果表明,可自我验证的数学推理是一个可行的研究方向,可能有助于开发更强大的数学AI系统。

对于DeepSeek此次的动作,海外的反应是“鲸鱼终于回来了”。有网友感慨,DeepSeek以10个百分点的优势击败了谷歌的IMO Gold 获奖模型DeepThink,这不在预测范围内。“想象一下,当他们公布编程模型时会发生什么,我打赌他们绝对有编程模型。”

目前,行业头部厂商的模型已经又迭代了一轮,11月,先是OpenAI发布了GPT-5.1,几天后xAI发布Grok 4.1,就在上周谷歌发布了Gemini 3系列引爆AI圈,“也该轮到DeepSeek出牌了”。不过,更受外界关注的仍然是,DeepSeek的旗舰模型到底什么时候更新,行业期待“鲸鱼”的下一个动作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
进步神速!骑士二年级锋线新星已经成长为联盟顶级3D球员了?

进步神速!骑士二年级锋线新星已经成长为联盟顶级3D球员了?

稻谷与小麦
2026-03-04 22:35:29
身处迪拜的中国公民称:迪拜机场航站楼被砸了个直径七八米大洞

身处迪拜的中国公民称:迪拜机场航站楼被砸了个直径七八米大洞

半岛晨报
2026-03-03 14:47:56
伊朗外长这番话,可能暗示一个大问题

伊朗外长这番话,可能暗示一个大问题

观察者网
2026-03-02 19:11:48
不是说燃油车的春天来了吗?为何广汽本田2月销量跌了68.93%

不是说燃油车的春天来了吗?为何广汽本田2月销量跌了68.93%

车快评
2026-03-05 00:15:42
才3月,今年最重头的大戏就上演了

才3月,今年最重头的大戏就上演了

独立鱼
2026-03-02 21:09:30
威廉王子高调表达爱意,亲自发布凯特新照,全家祝她生日快乐!

威廉王子高调表达爱意,亲自发布凯特新照,全家祝她生日快乐!

趣味萌宠的日常
2026-03-04 20:25:11
“同归于尽”?伊朗发出“核弹级”警告:普通人如何保住钱袋子?

“同归于尽”?伊朗发出“核弹级”警告:普通人如何保住钱袋子?

知法而形
2026-03-04 15:08:16
100万亿救市!?

100万亿救市!?

中国基金报
2026-03-04 16:10:15
咸鱼还是太全面了,怪不得人称国内黑市

咸鱼还是太全面了,怪不得人称国内黑市

另子维爱读史
2025-12-20 17:07:20
新婚女子手臂成亮点,“满眼都是xxx”,难道新郎一点都不在乎?

新婚女子手臂成亮点,“满眼都是xxx”,难道新郎一点都不在乎?

仙仙先生
2026-01-30 09:35:22
中国撤侨,要求台湾人出示台胞证可接收,台当局表示“不可接受”

中国撤侨,要求台湾人出示台胞证可接收,台当局表示“不可接受”

我心纵横天地间
2026-03-03 16:46:42
伊朗请中方出面,不到24小时,上合组织行动了,特朗普遭内外夹击

伊朗请中方出面,不到24小时,上合组织行动了,特朗普遭内外夹击

阿离家居
2026-03-04 21:22:11
深夜利好,商业航天利润增582%,这13个利润增幅超100%,大超预期

深夜利好,商业航天利润增582%,这13个利润增幅超100%,大超预期

鹏哥投研
2026-03-04 08:50:18
致命一击!乌军无人机端掉俄核心战舰,黑海舰队彻底沦为残兵败将

致命一击!乌军无人机端掉俄核心战舰,黑海舰队彻底沦为残兵败将

老马拉车莫少装
2026-03-05 00:00:29
演都不演了?迪丽热巴被困中东不到48小时,恶心的一幕出现了

演都不演了?迪丽热巴被困中东不到48小时,恶心的一幕出现了

子芫伴你成长
2026-03-04 22:33:30
特朗普称将切断美国和西班牙之间的贸易往来,德国总理默茨:不可能实现

特朗普称将切断美国和西班牙之间的贸易往来,德国总理默茨:不可能实现

环球网资讯
2026-03-04 11:15:01
年薪600万华为技术总监,美国公民身份曝光,带13人窃密获刑

年薪600万华为技术总监,美国公民身份曝光,带13人窃密获刑

过期少女致幻录
2026-03-02 02:11:15
北大教授孔庆东: 对汉服恶语相向,却对伊斯兰文化百般赞美

北大教授孔庆东: 对汉服恶语相向,却对伊斯兰文化百般赞美

老李观历史
2026-03-03 05:52:56
33中5!格林成太阳累赘,排队给火箭道歉,斯通下了一盘大棋

33中5!格林成太阳累赘,排队给火箭道歉,斯通下了一盘大棋

巴叔GO聊体育
2026-03-04 12:35:42
美军地面部队出发之前,法国打给王毅:要同中国一道履行5常责任

美军地面部队出发之前,法国打给王毅:要同中国一道履行5常责任

领悟看世界
2026-03-05 00:12:45
2026-03-05 01:20:49
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
245771文章数 621672关注度
往期回顾 全部

科技要闻

多位核心离职,阿里亲手废掉最强AI天团?

头条要闻

外媒称伊朗封锁霍尔木兹海峡只让中俄船通行 中方回应

头条要闻

外媒称伊朗封锁霍尔木兹海峡只让中俄船通行 中方回应

体育要闻

2026年中超,为什么值得你多看一眼?

娱乐要闻

谢谢谢娜 贡献出26年内娱的第一个笑话

财经要闻

人大代表建议:将农民养老金提到500元

汽车要闻

鸿蒙智行首款猎装车 尚界Z7/Z7T首发

态度原创

健康
亲子
家居
时尚
军事航空

转头就晕的耳石症,能开车上班吗?

亲子要闻

保护孩子宝妈必学,孩子这种行为不是遗传!

家居要闻

极简无界 静居自安然

女人不管多大年纪,都要准备一条黑裙子,百搭舒适又显气质

军事要闻

伊朗为遭到美以空袭小学遇难者举行葬礼

无障碍浏览 进入关怀版