网易首页 > 网易号 > 正文 申请入驻

DeepSeek上新!首个奥数金牌水平的模型来了

0
分享至

11月27日晚,DeepSeek悄悄地在Hugging Face 上开源了一个新模型:DeepSeek-Math-V2。这是一个数学方面的模型,也是目前行业首个达到IMO(国际奥林匹克数学竞赛)金牌水平且开源的模型。

在同步发布的技术论文中,DeepSeek表示,Math-V2的部分性能优于谷歌旗下的Gemini DeepThink,并展示了模型在IMO-ProofBench基准以及近期数学竞赛上的表现。

具体来看,在其中的Basic基准上,DeepSeek-Math-V2 远胜其他模型,达到了近99%的高分,而排在第二的谷歌旗下Gemini Deep Think (IMO Gold)分数为89%。但在更难的 Advanced 子集上,Math-V2分数为61.9%,略逊于 Gemini Deep Think (IMO Gold)的65.7%。

在这篇名为《DeepSeek Math-V2:迈向可自验证的数学推理》的论文中,DeepSeek指出,大语言模型已经在数学推理方面取得了重大进展,这是人工智能的重要试验台,如果进一步推进,可能会对科学研究产生影响。

但当前的AI在数学推理方面有着研究局限:以正确的最终答案作为奖励,正确的答案却不能保证正确的推理。许多数学任务,如定理证明,需要严格的分步推导,而不是数字答案,这使得最终答案奖励不适用。

为了突破深度推理的极限,DeepSeek认为有必要验证数学推理的全面性和严谨性。团队提出,自我验证对于扩展测试时间计算尤为重要,特别是对于那些没有已知解决方案的开放问题。

此次DeepSeek推出的Math-V2就从结果导向转向了过程导向,展示了强大的定理证明能力。这一模型不依赖大量的数学题答案数据,而是通过教会AI如何像数学家一样严谨地审查证明过程,从而在没有人类干预的情况下,也能不断提升解决高难度数学证明题的能力 。

论文提到,Math-V2在IMO 2025和CMO 2024上取得了金牌级成绩,在Putnam 2024上通过扩展测试计算实现了接近满分的成绩(118/120)。

DeepSeek认为,虽然仍有许多工作要做,但这些结果表明,可自我验证的数学推理是一个可行的研究方向,可能有助于开发更强大的数学AI系统。

对于DeepSeek此次的动作,海外的反应是“鲸鱼终于回来了”。有网友感慨,DeepSeek以10个百分点的优势击败了谷歌的IMO Gold 获奖模型DeepThink,这不在预测范围内。“想象一下,当他们公布编程模型时会发生什么,我打赌他们绝对有编程模型。”

目前,行业头部厂商的模型已经又迭代了一轮,11月,先是OpenAI发布了GPT-5.1,几天后xAI发布Grok 4.1,就在上周谷歌发布了Gemini 3系列引爆AI圈,“也该轮到DeepSeek出牌了”。不过,更受外界关注的仍然是,DeepSeek的旗舰模型到底什么时候更新,行业期待“鲸鱼”的下一个动作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不能二次加热的6种食物!医生提醒:吃不完或倒掉,别乱节俭

不能二次加热的6种食物!医生提醒:吃不完或倒掉,别乱节俭

冷眼看世界728
2026-05-12 20:46:26
深圳市委书记靳磊与英国外交大臣库珀一行会谈

深圳市委书记靳磊与英国外交大臣库珀一行会谈

证券时报
2026-06-03 20:14:32
记者:M费正式告知西汉姆想离队,加盟曼联的意愿十分强烈

记者:M费正式告知西汉姆想离队,加盟曼联的意愿十分强烈

懂球帝
2026-06-03 21:05:20
胡歌拿下白玉兰视帝,于和伟陪跑真可惜

胡歌拿下白玉兰视帝,于和伟陪跑真可惜

情感大头说说
2026-06-03 19:18:27
库里兄弟欧洲度假,一个赚5亿,一个赚0.5亿,老婆都很漂亮

库里兄弟欧洲度假,一个赚5亿,一个赚0.5亿,老婆都很漂亮

大西体育
2026-06-03 11:01:56
3亿!整整3亿美元!文班亚马牛掰!正式打成联盟新门面

3亿!整整3亿美元!文班亚马牛掰!正式打成联盟新门面

篮球实战宝典
2026-06-02 16:57:20
总决赛G1裁判出炉:福斯特担任主裁 三人执哨两队胜率曝光

总决赛G1裁判出炉:福斯特担任主裁 三人执哨两队胜率曝光

罗说NBA
2026-06-03 21:13:08
中国电动车正以惊人速度贬值

中国电动车正以惊人速度贬值

体坛观察猿
2026-06-01 01:13:10
男篮首节被FMP俱乐部碾压!焦泊乔+2首发齐发挥,防守成麻烦!

男篮首节被FMP俱乐部碾压!焦泊乔+2首发齐发挥,防守成麻烦!

篮球资讯达人
2026-06-03 19:54:26
券商隐形王牌曝光:股价单月涨幅29%,逆袭背后的硬科技“生死暗战”

券商隐形王牌曝光:股价单月涨幅29%,逆袭背后的硬科技“生死暗战”

华夏时报
2026-06-03 08:29:05
一夜三炸!文班顶薪续约,老詹创无人能破纪录,骑士憋大招

一夜三炸!文班顶薪续约,老詹创无人能破纪录,骑士憋大招

阿讯说天下
2026-06-03 02:13:39
校长怒批成人礼:他们是成人了,不是成婚了!

校长怒批成人礼:他们是成人了,不是成婚了!

复转这些年
2026-05-31 21:08:55
重锤高校奢华录取通知书!教育部喊停:通知书必须回归"一页纸"

重锤高校奢华录取通知书!教育部喊停:通知书必须回归"一页纸"

听心堂
2026-06-03 16:16:08
柯蓝:曾被医生断言活不过38岁,28岁遭李亚鹏背叛,53岁成赢家

柯蓝:曾被医生断言活不过38岁,28岁遭李亚鹏背叛,53岁成赢家

以茶带书
2026-06-02 20:04:48
Shams:可以很明确地说 下赛季字母哥不会成为尼克斯的一员

Shams:可以很明确地说 下赛季字母哥不会成为尼克斯的一员

北青网-北京青年报
2026-06-03 19:55:19
持续四年的战争,已经把乌克兰的人口结构彻底砸穿。

持续四年的战争,已经把乌克兰的人口结构彻底砸穿。

空想之喵
2026-04-23 11:08:03
太不堪!当被问到日菲划线时,赖清德转身而去,卢秀燕掉头就跑!

太不堪!当被问到日菲划线时,赖清德转身而去,卢秀燕掉头就跑!

爱下厨的阿酾
2026-06-03 19:16:46
福建彩民中6022万4个月后才敢晒奖,当事人:用老婆孩子和自己的生日组合的号码,完全想不到这种事情会落在自己身上

福建彩民中6022万4个月后才敢晒奖,当事人:用老婆孩子和自己的生日组合的号码,完全想不到这种事情会落在自己身上

台州交通广播
2026-06-03 06:40:07
五粮液虚假陈述正式立案,数万股民具备索赔资格

五粮液虚假陈述正式立案,数万股民具备索赔资格

经理人杂志
2026-06-03 15:45:10
英媒:美国考虑向更多北约盟国部署核武器

英媒:美国考虑向更多北约盟国部署核武器

新京报
2026-06-02 19:42:43
2026-06-03 21:47:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
255095文章数 622606关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

游乐园机器人表演踢中男童腹部致其痛苦倒地 家长发声

头条要闻

游乐园机器人表演踢中男童腹部致其痛苦倒地 家长发声

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

家居
时尚
旅游
本地
手机

家居要闻

江畔轻奢 观云大宅

月经、初潮与生育真相,那些藏在动画片里的性启蒙

旅游要闻

6月10日第32届自贡灯会最后一场亮灯后闭园

本地新闻

用杨柳青年画的方式,打开天津

手机要闻

消息称谷歌正研发至少8款Googlebook安卓本,预计今秋发布

无障碍浏览 进入关怀版