网易首页 > 网易号 > 正文 申请入驻

DeepSeek-Math-V2数学模型开源,成绩碾压OpenAI和谷歌同类模型

0
分享至

【TechWeb】12月1日消息,近日, DeepSeek在Hugging Face平台正式开源了DeepSeek-Math-V2模型,这是全球首个达到国际数学奥林匹克竞赛金牌水平的开源数学模型。该模型基于DeepSeek-V3.2-Exp-Base开发。

DeepSeek-Math-V2模型在国际数学奥林匹克IMO 2025模拟赛中解出5道题(共6题),在中国数学奥林匹克CMO 2024中获得金牌级评价,更在被誉为“地狱难度”的普特南(Putnam)数学竞赛2024中取得了118/120的接近满分成绩,远超人类最高分90分。

“鲸鱼回来了!” 这是AI开源社区在DeepSeek发布新模型后的热烈反应。

两大创新,成绩碾压GPT-5-Thinking-High和Gemini 2.5-Pro

根据DeepSeek团队发布的论文,DeepSeekMath-V2的核心突破在于成功实现了“自我验证”的数学推理机制。


传统的AI数学推理训练存在根本性局限——模型奖励基于最终答案的正确性,但这并不能保证推理过程的正确性或逻辑的严谨性。

DeepSeek研究人员在论文中明确指出:“正确答案并不保证推理过程正确”。

这种结果导向的训练方式,导致模型可能通过错误的逻辑得出正确答案,成为“自信的骗子”。

DeepSeekMath-V2彻底改变了这一模式,转向过程导向的训练方法。它不依赖大量的数学题答案数据,而是教会AI如何像数学家一样严谨地审查证明过程。

这种方法模拟了人类数学家的思考方式:写几步之后,停下来反思,发现漏洞就推翻重写,直到自己挑不出毛病为止。

另一个大核心创新则是DeepSeekMath-V2构建了一个多层次自我验证系统。

该系统由三个关键角色组成,形成了一个相互协作又相互制约的架构。

“做题家”(证明生成器) 负责解题和撰写证明过程。与以往不同,它被训练成不仅要写答案,还要进行“自我评价”,诚实指出自己可能出错的地方。

“铁面判官”(证明验证器) 是专门训练的评分模型,它不看答案对错,而是专门盯着证明过程挑刺。它将证明分为三个等级:1分(完全正确)、0.5分(有小瑕疵)、0分(有致命错误)。

“判官的审计员”(元验证器) 是最绝的一步,它专门检查验证器是否在胡乱挑刺。如果验证器指出了一个不存在的错误,它会被元验证器纠正。

通过这种精巧的架构,DeepSeekMath-V2实现了真正的自我反思能力。

模型不再盲目相信自己的第一直觉,而是学会了怀疑、审视和批判性思维。

根据论文公开的数据,DeepSeekMath-V2在多项数学基准测试中展现出统治级的实力。

在IMO-ProofBench基准测试中,DeepSeekMath-V2在Basic子集上获得了接近99%的惊人高分,显著高于Gemini Deep Think的89%。



在更高级的Advanced子集上,DeepSeekMath-V2得分为61.9%,略低于Gemini Deep Think的65.7%,但仍展现出强大的竞争力。

在与顶级模型的直接对比中,DeepSeekMath-V2在所有CNML级别问题类别上,包括代数、几何、数论、组合学和不等式均持续优于GPT-5-Thinking-High和Gemini 2.5-Pro。


在代数领域,DeepSeekMath-V2远超GPT-5-Thinking-High和Gemini 2.5-Pro;在几何领域,其得分几乎是Gemini 2.5-Pro的三倍。

更令人印象深刻的是,当允许模型进行“自我验证”,即生成答案后,自己挑毛病,然后带着问题重新生成,证明的质量分数从初始的0.15(迭代1次)飙升到了0.27(迭代8次)。

开源社区沸腾

DeepSeekMath-V2的开源发布,在AI社区引发了强烈反响。

海外社区有评论称“鲸鱼终于回来了”,并指出DeepSeek以约10个百分点优势超越谷歌同类模型,超出预期。

在技术社区,用户用更通俗的语言解读这一突破:“DeepSeek换了个教法,死磕过程。结果对了,也必须看解题步骤,过程中只要有一步没整明白,也不给糖吃。这就逼着AI必须要真懂,不能当混子。”

还有用户指出这一发布的时间点堪称完美:“就在昨天,AI教父Ilya在访谈中提到,现在的AI就是个只会死记硬背的做题机器。仅仅不到24小时,DeepSeek就把新模型开源了。”

这一巧合被形容为“一次穿越时空的击掌”,是DeepSeek对AI发展路径的实质性回应。

不过,也有用户提出了理性的担忧:“自我纠错这套路,说得轻松其实难度不小啊,验证器要是本身就有问题呢?左手批右手的感觉。”

无论如何,大家都认为DeepSeekMath-V2的开源具有重要的行业意义。

DeepSeekMath-V2采用Apache 2.0许可证,允许修改、重新用途和本地部署,为学术研究和商业应用提供了极大便利。

这一开源降低了全球研究者的门槛,特别是在当前谷歌和OpenAI都将他们的高分数学模型严格限制在付费或实验性访问。

DeepSeekMath-V2的开源发布标志着AI数学推理能力不再是大公司的专属领域,而是成为全球研究者可以共同探索和推进的开放领域。

Hugging Face联合创始人兼Clement Delangue表示:这一发布是迈向AI真正民主化的一步。

用户现在可以免费使用“世界上最好的数学家之一的大脑”,而不必担心公司或政府将其收回。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
舒马赫健康状况重大更新!滑雪事故13年后,车神不再卧床不起

舒马赫健康状况重大更新!滑雪事故13年后,车神不再卧床不起

全景体育V
2026-01-26 18:35:30
美军连夜通告全球,特朗普想通了:对中国不能来硬的,要上点手段

美军连夜通告全球,特朗普想通了:对中国不能来硬的,要上点手段

书纪文谭
2026-01-26 15:25:20
解放军报社论:坚决打赢军队反腐败斗争攻坚战持久战总体战

解放军报社论:坚决打赢军队反腐败斗争攻坚战持久战总体战

新华社
2026-01-24 23:03:04
2-2爆冷!国足平乌兹别克,邵佳一激活留洋神锋:3场3球带队不败

2-2爆冷!国足平乌兹别克,邵佳一激活留洋神锋:3场3球带队不败

球场没跑道
2026-01-26 23:24:04
比断月供更加可怕的是,法拍房没有人接盘,银行打6折都没有人要

比断月供更加可怕的是,法拍房没有人接盘,银行打6折都没有人要

社会日日鲜
2026-01-26 11:57:59
61岁“奶酪女王”遭免职,年薪曾近500万元

61岁“奶酪女王”遭免职,年薪曾近500万元

澎湃新闻
2026-01-26 23:04:06
国务院:免去李旭的新疆生产建设兵团副司令员、中国新建集团公司副总经理职务

国务院:免去李旭的新疆生产建设兵团副司令员、中国新建集团公司副总经理职务

极目新闻
2026-01-26 16:19:31
天呢!一个德国人非议中国教育是对人性的摧残…

天呢!一个德国人非议中国教育是对人性的摧残…

慧翔百科
2026-01-26 11:45:53
事发上海!雇主离世仅12分钟,保姆就陆续转走银行卡内50万元现金,还变卖玉器

事发上海!雇主离世仅12分钟,保姆就陆续转走银行卡内50万元现金,还变卖玉器

新民晚报
2026-01-26 14:44:31
目标库明加!Sidery:湖人近期向勇士提供了一份3换1交易方案

目标库明加!Sidery:湖人近期向勇士提供了一份3换1交易方案

移动挡拆
2026-01-27 06:43:26
外交部宣布:奥尔西将访华

外交部宣布:奥尔西将访华

环球时报国际
2026-01-26 19:43:41
越南曝光中越战争真相:若中国军队晚撤5天,战争结局不敢想象

越南曝光中越战争真相:若中国军队晚撤5天,战争结局不敢想象

鉴史录
2026-01-26 22:15:16
女明星被实名举报“插足婚姻”!

女明星被实名举报“插足婚姻”!

新动察
2026-01-26 10:45:00
重磅!NBA三方交易:字母哥+格兰特赴尼克斯,布里奇斯转投开拓者

重磅!NBA三方交易:字母哥+格兰特赴尼克斯,布里奇斯转投开拓者

夜白侃球
2026-01-26 20:29:44
已经结束咧,名记:我认为字母哥已打完在雄鹿的最后一场比赛

已经结束咧,名记:我认为字母哥已打完在雄鹿的最后一场比赛

懂球帝
2026-01-27 08:15:22
伊朗对国内民众的残酷镇压,成为了自己的催命符

伊朗对国内民众的残酷镇压,成为了自己的催命符

林中木白
2026-01-26 16:58:23
升第一!胡明轩决战连得11分广东双杀天津 萨姆纳39分单节20分

升第一!胡明轩决战连得11分广东双杀天津 萨姆纳39分单节20分

醉卧浮生
2026-01-26 21:24:15
四川警方侦破28年前商场“花坛藏尸案”,凶手因无力偿还欠款杀害女子,作案后频繁出境韩国,整容改名潜逃多年终落网

四川警方侦破28年前商场“花坛藏尸案”,凶手因无力偿还欠款杀害女子,作案后频繁出境韩国,整容改名潜逃多年终落网

扬子晚报
2026-01-26 22:17:45
黄金与白银在刷新历史高点后大幅回调

黄金与白银在刷新历史高点后大幅回调

每日经济新闻
2026-01-27 05:38:36
央视暗访曝光!致命毒红薯已流遍20多省!种植户自己一口都不吃!

央视暗访曝光!致命毒红薯已流遍20多省!种植户自己一口都不吃!

今朝牛马
2026-01-26 22:00:31
2026-01-27 08:35:00
TechWeb incentive-icons
TechWeb
做有态度的互联网资讯。
15563文章数 43055关注度
往期回顾 全部

科技要闻

理想开始关店“过冬”,否认“百家”规模

头条要闻

上海一女子嫌风水不好 屡次掰歪小区两块反光镜

头条要闻

上海一女子嫌风水不好 屡次掰歪小区两块反光镜

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

家居
教育
时尚
公开课
军事航空

家居要闻

流韵雅居,让复杂变纯粹

教育要闻

舟山嵊泗县取消

甜了10年,超多暧昧细节,全网求他俩原地结婚

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

委代总统称遭美威胁:马杜罗已死

无障碍浏览 进入关怀版