网易首页 > 网易科技 > 网易科技 > 正文

趁硅谷过节“开大”!DeepSeek上线“奥数金牌”模型!填平谷歌OpenAI护城河

0
分享至

作者 | 辰辰

出品 | 网易科技

专挑节假日搞大新闻”的DeepSeek又出手了。

就在大洋彼岸的工程师们准备切火鸡庆祝节日时,DeepSeek保持了极客传统,悄然上线了DeepSeekMath-V2。

开源权重、IMO金牌水平、超越GPT-5。 这套熟悉的“三连击”,再次巩固了DeepSeek作为“开源灯塔”的地位。 在算力受限的背景下,DeepSeek 再次证明了自己:不需要庞大的 GPU 集群,也能用算法奇迹在最硬核的数学赛道上,教闭源巨头们“做人”。

它“不搞虚的”,直接拿数学竞赛界的“终极试金石”,包括2025国际数学奥林匹克(IMO 2025) 和 普特南数学竞赛(Putnam) 的真题开练。在严苛的基准测试中,它交出了一份与 GPT-5和 Gemini 2.5 Pro 平起平坐,甚至更胜一筹的完美答卷。

1. 战绩彪悍:AI “碾压”人类学霸

DeepSeekMath-V2到底有多强?数据不会说谎。

—— IMO 2025金牌得主,比肩谷歌 OpenAI 在 IMO 2025的基准测试中,DeepSeekMath-V2成功解出6道题中的5道,达到“金牌”水准。这一成绩直接对标谷歌 DeepMind 和 OpenAI 此前引以为傲的闭源模型。 要知道,在此之前,这种级别的推理能力是硅谷巨头们严防死守的商业机密。

—— 普特南竞赛:118分 VS 人类最高分90分。 威廉·罗威尔·普特南数学竞赛(Putnam)可以说是北美本科生的“噩梦”,以难度极高著称,中位数得分甚至接近于0。DeepSeek 团队透露,DeepSeekMath-V2在2024年的普特南考题测试中,12道题做对了11道,最后一道也仅有微小瑕疵,最终得分118分(满分120)。相比之下,人类选手的最高分只有90分左右。这说明 AI 不仅仅是在“背题”,而是具备了超越顶尖人类选手的逻辑解题能力。

此外,DeepSeekMath-V2在代数、几何等5大数学领域全面超越 GPT-5和 Gemini 2.5 Pro。

2. 揭秘:为什么它能这么聪明?

数学推理一直是 AI 的软肋,因为大模型很容易“一本正经地胡说八道”(幻觉问题)。DeepSeek 是如何解决这个问题的?

答案是“元验证”(Meta-Verification)技术。

传统的 AI 训练是“给糖吃”:答案对了就奖励。但在高等数学证明中,答案对不代表过程对。AI 很容易瞎编一个过程然后蒙对答案。

但 DeepSeek 引入了一套“左右互搏”机制:

其中生成器就像一个学生,负责写解题步骤。验证器则是老师,负责检查逻辑漏洞,不仅仅看答案,还要看推导过程是否严谨。

更绝的是,他们还训练了一个“二阶验证器”,用来监督“老师”批改得对不对,防止模型为了拿分而钻空子。 这种递归式的验证结构,逼着模型必须学会真正的逻辑推理,而不是投机取巧。

而在推理阶段,模型不是张口就来。它会针对一个问题生成64个候选证明路径,然后用验证器逐一打分,挑出逻辑最严密的那一个。 这种“三思而后行”的模式,正是通往通用人工智能(AGI)的关键一步。

此外,DeepSeekMath-V2还打造了数字闭环生态,用验证反馈直接优化生成质量,用自主产生的高难度训练样本推动系统迭代。

3. 最大的杀手锏:它是开源的!

这才是让技术界沸腾的真正原因。

以往,无论是 OpenAI 还是谷歌都选择闭源。你想用顶级的数学推理能力?只能付费调用 API,不仅数据要传到云端,使用更受限于人。

但 DeepSeek 直接掀了桌子:模型权重公开下载,Apache 2.0协议。

Hugging Face 的 CEO 克莱门特·德朗格(Clément Delangue)为此激动地发推表示:

“据我所知,没有任何聊天机器人或 API 能给你提供 IMO 金牌级别的模型。但今天变了,你可以在 Hugging Face 上直接下载 DeepSeek Math-V2的权重。

这意味着,高校研究人员、企业开发者都可以在本地部署这个“数学天才”。所有人都可以体验在本地运行“奥数金牌” AI 的快感,无需担心数据隐私,也不用看硅谷大厂的脸色。 一夜之间,曾经被视为核心竞争力的“推理护城河”,变成了人人可用的基础设施。

一经上线,全球各路技术播客和达人纷纷上手试用。

技术博主、英国程序大佬西蒙·威利森(Simon Willison)快速对 DeepSeek Math-V2的发布做了技术层面解读,强调这是一个开放权重模型。他还特意提到,OpenAI和谷歌的同等模型有将近700G,相比之下DeepSeek Math-V2要小得多。

BinaryVerse 发布的播客也称 DeepSeekMath-V2在某些数学推理基准上超越了已有闭源大模型,但同时也提到,模型“对常识问答或通用场景并非全面领先”。

Hacker News 等社区也纷纷对模型指标和能力发表个人看法。不少人惊讶模型的强大能力,但也有人质疑大量推理算力带来的优异指标是否可迁移到常规使用场景。许多评论强调“惊艳但令人不安”的速度,讨论模型在更广义推理与安全性方面的意义。

4. 逆风翻盘:算力受限下的极致优化

DeepSeek 的这次突围,背景其实略带悲壮。

由于芯片供应问题,DeepSeek 在算力硬件上并不占优,旗舰模型 R2甚至因硬件兼容性问题而被迫推迟。

但在这种极限施压下,DeepSeekMath-V2证明了一件事:算法的创新可以弥补算力的不足。

它没有单纯依赖暴力堆砌英伟达的 GPU 集群,而是通过“冷启动”训练——让 AI 自己生成训练数据,自己训练自己,还用自动化标注系统摆脱了对昂贵人工标注数据的依赖。

5. 结语

DeepSeekMath-V2的发布证实:在通往 AGI 的道路上,开源模型并没有掉队,甚至正在反超。

当硅谷还在试图用“安全”为由将顶级模型锁在黑盒子里时,来自中国企业的 DeepSeek 选择大度把钥匙交给了全世界。

对于所有 AI 从业者来说,这是一个最好的时代。

延伸阅读
相关推荐
热点推荐
图赫尔:这次集训后26人名单更清晰了;三笘薰是一名顶级球员

图赫尔:这次集训后26人名单更清晰了;三笘薰是一名顶级球员

懂球帝
2026-04-01 06:33:08
北京男篮输相难看,许利民表达不满,四大问题明显,麦基作用不大

北京男篮输相难看,许利民表达不满,四大问题明显,麦基作用不大

中国篮坛快讯
2026-04-02 00:04:39
一个能破解任何复杂问题的顶级思维

一个能破解任何复杂问题的顶级思维

德鲁克博雅管理
2026-04-01 17:03:10
重磅:乌克兰攻击俄罗斯东欧最大的下卡姆斯克石化厂!

重磅:乌克兰攻击俄罗斯东欧最大的下卡姆斯克石化厂!

项鹏飞
2026-04-01 21:22:16
伊朗大捷!用一场标志性大胜,打出美国 81 年最大战损的记录?

伊朗大捷!用一场标志性大胜,打出美国 81 年最大战损的记录?

青途历史
2026-03-30 10:26:03
京东副总裁被当场开除:刘强东亲批,两大红线谁碰谁出局

京东副总裁被当场开除:刘强东亲批,两大红线谁碰谁出局

叮当当科技
2026-04-02 05:15:22
28岁川大博士遗体被发现,父母艰辛供读,姐姐悲痛欲绝

28岁川大博士遗体被发现,父母艰辛供读,姐姐悲痛欲绝

超喜欢我
2026-04-02 05:15:13
队史第一人!梅西连续21年为阿根廷破门,戏耍8人防线,连刷5纪录

队史第一人!梅西连续21年为阿根廷破门,戏耍8人防线,连刷5纪录

奥拜尔
2026-04-01 08:29:38
江苏一男子给准儿媳18万8创业,儿子分手后要求其返还钱款;女方称系合伙创业资金,并非彩礼,且从未同意以结婚为前提接受转账;法院判了

江苏一男子给准儿媳18万8创业,儿子分手后要求其返还钱款;女方称系合伙创业资金,并非彩礼,且从未同意以结婚为前提接受转账;法院判了

大风新闻
2026-04-01 12:06:12
古巴:感谢中国无条件支持

古巴:感谢中国无条件支持

新华社
2026-04-01 11:34:05
速报:日本小学生在学校停车场失踪,出动500名警力找不到,引发全国关注。

速报:日本小学生在学校停车场失踪,出动500名警力找不到,引发全国关注。

日本通
2026-04-01 15:06:24
美以还未撤军,阿联酋将对伊朗宣战,话音刚落,中巴发表联合声明

美以还未撤军,阿联酋将对伊朗宣战,话音刚落,中巴发表联合声明

说历史的老牢
2026-04-01 23:27:15
2012年一伙歹徒劫机,快得手时,有女乘客大吼一声,结局意想不到

2012年一伙歹徒劫机,快得手时,有女乘客大吼一声,结局意想不到

阿胡
2025-04-07 16:04:09
虎跳峡遇难独生子后续!遗体肉眼可见,还没捞上来,不是不想捞

虎跳峡遇难独生子后续!遗体肉眼可见,还没捞上来,不是不想捞

阿纂看事
2026-03-31 17:32:23
拆穿张兰的全部谎言,欺诈性转移资产,汪小菲的钱究竟哪里来的?

拆穿张兰的全部谎言,欺诈性转移资产,汪小菲的钱究竟哪里来的?

叮当当科技
2026-04-02 01:56:13
美国要变天了!一个比特朗普更难缠的80后,已经掌握了共和党

美国要变天了!一个比特朗普更难缠的80后,已经掌握了共和党

赵探长TALK
2026-04-01 09:30:50
自食其果意大利,求仁得仁亚平宁!齐沃的联赛冠军,危险了!

自食其果意大利,求仁得仁亚平宁!齐沃的联赛冠军,危险了!

狗哥是一名内拉
2026-04-01 14:29:10
曼联捡到宝了!红魔新星被弗格森盛赞,未来有望登顶世界第一

曼联捡到宝了!红魔新星被弗格森盛赞,未来有望登顶世界第一

澜归序
2026-04-02 03:53:18
中俄给古巴的支援到了,心有不甘的特朗普,最后还是没敢下令拦截

中俄给古巴的支援到了,心有不甘的特朗普,最后还是没敢下令拦截

浪子阿邴聊体育
2026-04-01 04:34:22
连续7场被弃用!拿600万带薪看球,球迷:中国最成功的打工人

连续7场被弃用!拿600万带薪看球,球迷:中国最成功的打工人

弄月公子
2026-04-01 23:36:20
2026-04-02 06:36:49

科技要闻

甲骨文血洗3万人,47人团队仅留3人

头条要闻

伊朗自杀无人机突进北印度洋 逼退“林肯”号航母

头条要闻

伊朗自杀无人机突进北印度洋 逼退“林肯”号航母

体育要闻

NBA扩军,和篮球无关?

娱乐要闻

张婉婷已决定离婚 找律师讨论婚变事宜

财经要闻

电商售械三水光针 机构倒货or假货猖獗?

汽车要闻

三电可靠 用料下本 百万公里的蔚来ES6 拆开看

态度原创

房产
亲子
健康
公开课
军事航空

房产要闻

产业、教育、地产…重大信号发出! 官方定调海口未来5年!

亲子要闻

女性易孕体质的5个特征,了解一下你中几条?

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:将很快撤出伊朗战事

无障碍浏览 进入关怀版
×