网易首页 > 网易号 > 正文 申请入驻

DeepSeek上新!首个奥数金牌水平的模型来了

0
分享至

11月27日晚,DeepSeek悄悄地在Hugging Face 上开源了一个新模型:DeepSeek-Math-V2。这是一个数学方面的模型,也是目前行业首个达到IMO(国际奥林匹克数学竞赛)金牌水平且开源的模型。

在同步发布的技术论文中,DeepSeek表示,Math-V2的部分性能优于谷歌旗下的Gemini DeepThink,并展示了模型在IMO-ProofBench基准以及近期数学竞赛上的表现。


具体来看,在其中的Basic基准上,DeepSeek-Math-V2 远胜其他模型,达到了近99%的高分,而排在第二的谷歌旗下Gemini Deep Think (IMO Gold)分数为89%。但在更难的 Advanced 子集上,Math-V2分数为61.9%,略逊于 Gemini Deep Think (IMO Gold)的65.7%。

在这篇名为《DeepSeek Math-V2:迈向可自验证的数学推理》的论文中,DeepSeek指出,大语言模型已经在数学推理方面取得了重大进展,这是人工智能的重要试验台,如果进一步推进,可能会对科学研究产生影响。


但当前的AI在数学推理方面有着研究局限:以正确的最终答案作为奖励,正确的答案却不能保证正确的推理。许多数学任务,如定理证明,需要严格的分步推导,而不是数字答案,这使得最终答案奖励不适用。

为了突破深度推理的极限,DeepSeek认为有必要验证数学推理的全面性和严谨性。团队提出,自我验证对于扩展测试时间计算尤为重要,特别是对于那些没有已知解决方案的开放问题。

此次DeepSeek推出的Math-V2就从结果导向转向了过程导向,展示了强大的定理证明能力。这一模型不依赖大量的数学题答案数据,而是通过教会AI如何像数学家一样严谨地审查证明过程,从而在没有人类干预的情况下,也能不断提升解决高难度数学证明题的能力 。

论文提到,Math-V2在IMO 2025和CMO 2024上取得了金牌级成绩,在Putnam 2024上通过扩展测试计算实现了接近满分的成绩(118/120)。

DeepSeek认为,虽然仍有许多工作要做,但这些结果表明,可自我验证的数学推理是一个可行的研究方向,可能有助于开发更强大的数学AI系统。

对于DeepSeek此次的动作,海外的反应是“鲸鱼终于回来了”。有网友感慨,DeepSeek以10个百分点的优势击败了谷歌的IMO Gold 获奖模型DeepThink,这不在预测范围内。“想象一下,当他们公布编程模型时会发生什么,我打赌他们绝对有编程模型。”

目前,行业头部厂商的模型已经又迭代了一轮,11月,先是OpenAI发布了GPT-5.1,几天后xAI发布Grok 4.1,就在上周谷歌发布了Gemini 3系列引爆AI圈,“也该轮到DeepSeek出牌了”。不过,更受外界关注的仍然是,DeepSeek的旗舰模型到底什么时候更新,行业期待“鲸鱼”的下一个动作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这就是杜月笙妻妾真实的样貌,并非演员扮演,货真价实的罕见照片

这就是杜月笙妻妾真实的样貌,并非演员扮演,货真价实的罕见照片

云霄纪史观
2026-03-26 17:17:24
陈天桥:那一夜梁文锋拒绝了我的投资,却让我决定投入10亿美金去做另一件事

陈天桥:那一夜梁文锋拒绝了我的投资,却让我决定投入10亿美金去做另一件事

猎云网
2026-03-19 15:28:10
张雪峰背后的万霞太戳心!001号员工月薪3500熬到并肩成王

张雪峰背后的万霞太戳心!001号员工月薪3500熬到并肩成王

冷桂零落
2026-03-26 22:55:08
一名重大经济犯罪嫌疑人被押解回国

一名重大经济犯罪嫌疑人被押解回国

新华社
2026-03-26 15:00:03
特朗普万万没想到!第一个敢掀桌子的,竟然是马来西亚

特朗普万万没想到!第一个敢掀桌子的,竟然是马来西亚

黑鹰观军事
2026-03-25 17:12:13
上海交大解剖405名心梗死者,惊讶发现患心梗的人,有3个共性

上海交大解剖405名心梗死者,惊讶发现患心梗的人,有3个共性

健康之光
2026-03-26 13:55:06
杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

林轻吟
2026-03-25 19:25:45
油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

复转这些年
2026-03-26 09:40:14
30万!不是工资,是汪峰每个月要给的抚养费

30万!不是工资,是汪峰每个月要给的抚养费

小光侃娱乐
2026-03-25 16:45:05
30多辆大巴车一天只卖几张票!甘肃一地客运中心即将停运

30多辆大巴车一天只卖几张票!甘肃一地客运中心即将停运

快科技
2026-03-26 17:01:50
参数全赢,销量没赢:尚界Z7销量输给小米SU7!差哪呢?

参数全赢,销量没赢:尚界Z7销量输给小米SU7!差哪呢?

生活魔术专家
2026-03-26 18:07:46
在茶水间我帮老公整理领带,女总监冲过来推开我:别碰我男人!

在茶水间我帮老公整理领带,女总监冲过来推开我:别碰我男人!

萧竹轻语
2026-03-10 17:04:51
抗炎才能抗癌!哈佛大学《自然》重磅:炎症会在身体留下长期记忆,显著增加未来患癌风险

抗炎才能抗癌!哈佛大学《自然》重磅:炎症会在身体留下长期记忆,显著增加未来患癌风险

医诺维
2026-03-26 17:00:54
山姆曲奇礼盒紧急下架!监管部门:已立案

山姆曲奇礼盒紧急下架!监管部门:已立案

中国品牌
2026-03-26 19:00:21
夏日清凉:一种关于存在的轻盈宣言

夏日清凉:一种关于存在的轻盈宣言

疾跑的小蜗牛
2026-03-26 21:48:38
重大转折!俄罗斯,公开下场了!

重大转折!俄罗斯,公开下场了!

大嘴说天下
2026-03-26 22:17:57
看是御姐,脸还能打,肉却 “软趴趴” 了

看是御姐,脸还能打,肉却 “软趴趴” 了

飛娱日记
2026-03-13 11:31:29
“鸡蛋界的LV”,安全了吗

“鸡蛋界的LV”,安全了吗

中国新闻周刊
2026-03-26 13:01:31
张雪峰去世,他留下的30个金句,涵盖志愿填报、成长与认知

张雪峰去世,他留下的30个金句,涵盖志愿填报、成长与认知

光影新天地
2026-03-24 22:25:14
吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

念洲
2026-03-26 13:14:22
2026-03-27 00:12:49
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
248301文章数 621905关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
本地
健康
时尚
公开课

教育要闻

天天学习|走进课堂的“大朋友”

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

转头就晕的耳石症,能开车上班吗?

400万人爱过的女孩,被黄谣网暴180天后

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版