网易首页 > 网易号 > 正文 申请入驻

DeepSeek上新!首个奥数金牌水平的模型来了

0
分享至

11月27日晚,DeepSeek悄悄地在Hugging Face 上开源了一个新模型:DeepSeek-Math-V2。这是一个数学方面的模型,也是目前行业首个达到IMO(国际奥林匹克数学竞赛)金牌水平且开源的模型。

在同步发布的技术论文中,DeepSeek表示,Math-V2的部分性能优于谷歌旗下的Gemini DeepThink,并展示了模型在IMO-ProofBench基准以及近期数学竞赛上的表现。


具体来看,在其中的Basic基准上,DeepSeek-Math-V2 远胜其他模型,达到了近99%的高分,而排在第二的谷歌旗下Gemini Deep Think (IMO Gold)分数为89%。但在更难的 Advanced 子集上,Math-V2分数为61.9%,略逊于 Gemini Deep Think (IMO Gold)的65.7%。

在这篇名为《DeepSeek Math-V2:迈向可自验证的数学推理》的论文中,DeepSeek指出,大语言模型已经在数学推理方面取得了重大进展,这是人工智能的重要试验台,如果进一步推进,可能会对科学研究产生影响。


但当前的AI在数学推理方面有着研究局限:以正确的最终答案作为奖励,正确的答案却不能保证正确的推理。许多数学任务,如定理证明,需要严格的分步推导,而不是数字答案,这使得最终答案奖励不适用。

为了突破深度推理的极限,DeepSeek认为有必要验证数学推理的全面性和严谨性。团队提出,自我验证对于扩展测试时间计算尤为重要,特别是对于那些没有已知解决方案的开放问题。

此次DeepSeek推出的Math-V2就从结果导向转向了过程导向,展示了强大的定理证明能力。这一模型不依赖大量的数学题答案数据,而是通过教会AI如何像数学家一样严谨地审查证明过程,从而在没有人类干预的情况下,也能不断提升解决高难度数学证明题的能力 。

论文提到,Math-V2在IMO 2025和CMO 2024上取得了金牌级成绩,在Putnam 2024上通过扩展测试计算实现了接近满分的成绩(118/120)。

DeepSeek认为,虽然仍有许多工作要做,但这些结果表明,可自我验证的数学推理是一个可行的研究方向,可能有助于开发更强大的数学AI系统。

对于DeepSeek此次的动作,海外的反应是“鲸鱼终于回来了”。有网友感慨,DeepSeek以10个百分点的优势击败了谷歌的IMO Gold 获奖模型DeepThink,这不在预测范围内。“想象一下,当他们公布编程模型时会发生什么,我打赌他们绝对有编程模型。”

目前,行业头部厂商的模型已经又迭代了一轮,11月,先是OpenAI发布了GPT-5.1,几天后xAI发布Grok 4.1,就在上周谷歌发布了Gemini 3系列引爆AI圈,“也该轮到DeepSeek出牌了”。不过,更受外界关注的仍然是,DeepSeek的旗舰模型到底什么时候更新,行业期待“鲸鱼”的下一个动作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
好久不见,开拓者官方:杨瀚森被下放到G联赛撕裂之城混音队

好久不见,开拓者官方:杨瀚森被下放到G联赛撕裂之城混音队

懂球帝
2026-01-15 08:04:58
西安最大规模拆迁来袭,这些片区身价要暴涨!快看有没有你家?

西安最大规模拆迁来袭,这些片区身价要暴涨!快看有没有你家?

说故事的阿袭
2026-01-15 11:11:17
难怪特朗普要“弃台”,美绝密报告曝光:中国电子战已经压制美军

难怪特朗普要“弃台”,美绝密报告曝光:中国电子战已经压制美军

时时有聊
2026-01-13 20:33:21
天呐,58岁那英改头换面,越来越漂亮,像变了个人似的 年轻了20岁

天呐,58岁那英改头换面,越来越漂亮,像变了个人似的 年轻了20岁

陈意小可爱
2026-01-15 00:21:23
突发6大利空,26个商业航天龙头集体跌停,题材龙头集体崩溃了

突发6大利空,26个商业航天龙头集体跌停,题材龙头集体崩溃了

风风顺
2026-01-15 10:25:34
广州突然要拼制造业了,说明真的急了?

广州突然要拼制造业了,说明真的急了?

前沿天地
2026-01-15 02:08:29
本市中小学将彻底告别校外供餐

本市中小学将彻底告别校外供餐

北青网-北京青年报
2026-01-15 02:42:20
毛主席的机要秘书谢静宜有多美?长相可爱,当过北京市委书记

毛主席的机要秘书谢静宜有多美?长相可爱,当过北京市委书记

万物知识圈
2026-01-14 09:05:37
中国若逮捕赖清德咋办?特朗普:中国的事中国定,但会卖我个面子

中国若逮捕赖清德咋办?特朗普:中国的事中国定,但会卖我个面子

乐天闲聊
2026-01-15 11:54:16
导演彼得·杰克逊称永远不会发布《指环王》电影“超级加长版”

导演彼得·杰克逊称永远不会发布《指环王》电影“超级加长版”

IT之家
2026-01-14 16:02:07
同事年终奖2万,我是一袋子酸菜,回家后老板打电话:你占便宜了

同事年终奖2万,我是一袋子酸菜,回家后老板打电话:你占便宜了

船长与船1
2026-01-12 11:13:18
神仙姐姐的野生图,太美了。

神仙姐姐的野生图,太美了。

微微热评
2026-01-09 12:20:53
刘震云:当有一天,你发现周围的人变得客气了,是你的实力变强了

刘震云:当有一天,你发现周围的人变得客气了,是你的实力变强了

清风拂心
2025-12-20 19:02:55
伊朗推迟处决,川普暂缓行动;中东上空“山雨欲来风满楼”

伊朗推迟处决,川普暂缓行动;中东上空“山雨欲来风满楼”

近距离
2026-01-15 11:21:15
形势危急:据称,伊朗抗议活动的死亡人数急剧上升到500多人

形势危急:据称,伊朗抗议活动的死亡人数急剧上升到500多人

一种观点
2026-01-12 08:13:06
谎言被网友揭穿后,“通信专家”项立刚怒斥:你们混得不如我好

谎言被网友揭穿后,“通信专家”项立刚怒斥:你们混得不如我好

区块科技
2026-01-13 18:50:15
外交部:对泰国事故造成人员伤亡表示慰问

外交部:对泰国事故造成人员伤亡表示慰问

界面新闻
2026-01-14 15:29:41
欧洲多国敦促其公民离开伊朗

欧洲多国敦促其公民离开伊朗

环球网资讯
2026-01-15 06:11:57
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
女排名将孙晋芳美国换血续命,90岁婆婆贴身照料,婆媳情超越血缘

女排名将孙晋芳美国换血续命,90岁婆婆贴身照料,婆媳情超越血缘

不写散文诗
2026-01-12 17:20:45
2026-01-15 13:40:49
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
241441文章数 621206关注度
往期回顾 全部

科技要闻

千问接入淘宝支付宝,大模型开卷办事能力

头条要闻

银币半年暴涨20倍 杭州有人一口气花30万买15公斤银砖

头条要闻

银币半年暴涨20倍 杭州有人一口气花30万买15公斤银砖

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

传奇棋圣聂卫平离世,网友集体悼念

财经要闻

“疯狂的白银”,还能走多远?

汽车要闻

今年推出超40款新车,BBA要把失去的夺回来

态度原创

亲子
艺术
教育
家居
公开课

亲子要闻

辅酶q10备孕吃了多久有效果?高龄备孕吃什么有助于怀孕?

艺术要闻

历代书家集字春联大集合

教育要闻

航海类专业赢麻了!交通运输部2025拟录697人,多名专科生上岸

家居要闻

自在自宅 个性自由

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版