网易首页 > 网易号 > 正文 申请入驻

第1个获得数学奥赛金牌的开源模型!DeepSeek新模型获网友盛赞:公开技术文件,了不起!

0
分享至

DeepSeek最新发布的开源数学模型,正将其推向与OpenAI和谷歌等科技巨头同场竞技的舞台DeepSeekMath-V2的模型,在被誉为全球最难的高中数学竞赛中达到了金牌水平,成为首个实现这一成就的开源模型,标志着开源人工智能在复杂推理能力上的一次重大突破。

昨日DeepSeek宣布推出其最新的数学推理模型DeepSeekMath-V2,该模型在模拟的2025年国际数学奥林匹克竞赛(IMO)中解决了6个问题中的5个,达到了金牌水平。这一成就使其成为第一个在IMO级别竞赛中获得金牌的开源模型,引发了AI研究和开发者社区的高度关注。

这一表现直接对标了行业巨头。就在今年7月,谷歌DeepMind的Gemini高级版本和一个来自OpenAI的实验性推理模型也达到了IMO 2025的金牌标准,同样解决了5个问题,它们是首批达到该水平的人工智能模型。然而,与谷歌和OpenAI的闭源实验模型不同,DeepSeekMath-V2的模型权重根据Apache 2.0许可证公开发布,可供公众下载。

值得一提的是,DeepSeekMath-V2采用了一种创新的自我验证训练框架。该方法的核心是训练一个专门的“验证器”(verifier),其任务是评估证明过程的质量,而不是最终答案的对错。而且为了防止模型过度拟合其自身的检查机制,DeepSeek通过增加计算量和自动标记难以验证的证明,来不断提升验证过程的难度,确保验证器与生成器同步进化。

此举被视为人工智能民主化的重要一步。该模型的发布不仅证明了开源社区有能力在尖端AI研究领域追赶甚至比肩顶级闭源实验室,也可能再次引发了市场对于开源模型是否会侵蚀闭源产品商业护城河的讨论——这一话题曾一度动摇投资者对英伟达等AI巨头的信心。

跻身顶尖行列:与OpenAI和谷歌同台竞技

DeepSeekMath-V2的卓越表现,标志着其在复杂的数学推理领域,与全球领先的AI实验室站在了同一起跑线上。国际数学奥林匹克竞赛(IMO)通常被认为是全球难度最高的高中生数学竞赛,在2025年的竞赛中,630名人类参赛者中仅有72人获得金牌。

除了在IMO 2025取得的成就,该模型还在其他高难度数学竞赛中展现了顶级水平。据DeepSeek称,它在中国最顶尖的全国性竞赛——中国数学奥林匹克(CMO)中也达到了金牌水平。

在面向大学本科生的普特南数学竞赛(Putnam 2024)中,该模型在12道题中完全解决了11道,另一道题也仅有微小错误,最终得分118/120,超过了人类参赛者90分的最高分记录。

开源的里程碑:社区盛赞“了不起的发布”

与谷歌和OpenAI尚未公开的实验模型相比,DeepSeekMath-V2的核心吸引力在于其彻底的开放性。该模型的权重已在开源社区Hugging Face上发布,允许研究人员和开发者自由下载。

Hugging Face的联合创始人兼首席执行官Clement Delangue在社交平台X上盛赞道:“想象一下,你可以免费拥有世界上最优秀数学家之一的大脑。”

他补充说,“据我所知,此前没有任何聊天机器人或API能让你接触到一个IMO 2025金牌水平的模型。”他强调,用户可以不受限制地探索、微调、优化模型,并运行在自己的硬件上,“没有任何公司或政府可以收回它。这是人工智能和知识民主化的最佳体现。”


另一位网友elie也评论称:“DeepSeek Math V2是第一个在IMO上达到金牌水平的开源模型吗?而且我们还得到了技术报告,这真是一次了不起的发布。”


还有网友评论称,他们喜欢 5-7 个想法,每个想法都相对简单,不断堆叠,结果出乎意料地越来越好,看起来更像工程而不是研究。


自我验证框架:超越答案,关注推理过程

DeepSeek在技术报告中指出,近期的人工智能模型虽然擅长在数学基准测试中获得正确答案,但往往缺乏严谨的推理过程。报告写道:“许多像定理证明这样的数学任务,需要严谨的逐步推导,而非仅仅一个数值答案。”

为了解决这一问题,DeepSeekMath-V2采用了一种创新的自我验证训练框架。该方法的核心是训练一个专门的“验证器”(verifier),其任务是评估证明过程的质量,而不是最终答案的对错。随后,这个验证器被用作奖励模型,来引导一个独立的“证明生成器”(proof-generator)。只有当生成器成功识别并修复自身证明中的错误时,它才会获得奖励。

这种机制激励模型在最终确定答案之前,尽可能多地发现和解决自身推理链条中的问题。DeepSeek强调,“对于没有已知解决方案的开放性问题,自我验证在扩展测试时计算(test-time compute)方面尤为重要。”测试时计算指的是在推理阶段分配大量计算资源,让模型有更长时间进行推理、探索多种解决方案并完善答案。

动态进化系统:破解“自我过度拟合”难题

为了防止模型过度拟合其自身的检查机制——即只学会欺骗自己的验证器——DeepSeek采用了一种动态进化的策略。该团队通过增加计算量和自动标记难以验证的证明,来不断提升验证过程的难度,确保验证器与生成器同步进化。

DeepSeek在技术文件中解释,这种方法允许他们“扩展验证计算,以自动标记新的、难以验证的证明,从而创造新的训练数据来进一步改进验证器。”通过这种验证-生成闭环和元验证机制,模型能够实现全自动化的数据标注和持续的性能优化,验证了自驱动学习系统在解决复杂数学推理任务上的可行性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这4种鱼,可能含有甲醛和重金属,建议:还是少吃比较好!

这4种鱼,可能含有甲醛和重金属,建议:还是少吃比较好!

阿龙美食记
2026-03-24 21:52:23
“鸟面妈妈”王小妞:不听劝阻生二胎,儿子遗传其外貌,现如何

“鸟面妈妈”王小妞:不听劝阻生二胎,儿子遗传其外貌,现如何

观察者海风
2026-03-24 23:04:30
1976年播报毛主席讣告,播音员念完三遍后突然冒出一句话,全国都慌了

1976年播报毛主席讣告,播音员念完三遍后突然冒出一句话,全国都慌了

文史明鉴
2026-03-25 19:14:13
2012年,用U型锁砸日系车并重伤车主的蔡洋早已出狱,如今怎样了

2012年,用U型锁砸日系车并重伤车主的蔡洋早已出狱,如今怎样了

谈史论天地
2026-03-25 09:57:09
人狂自有天收

人狂自有天收

李老逵乱摆龙门阵
2025-09-11 09:01:28
深圳双雄互撕!大疆一纸诉状,影石一天没了50亿

深圳双雄互撕!大疆一纸诉状,影石一天没了50亿

野马财经
2026-03-26 16:39:35
奴颜媚骨具象化,高市早苗三十年前照片被扒出,原来她从未变过!

奴颜媚骨具象化,高市早苗三十年前照片被扒出,原来她从未变过!

社会酱
2026-03-23 17:34:19
航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

小鹿姐姐情感说
2026-03-26 02:23:54
突发!上海最大商场砸的62亿悬了!

突发!上海最大商场砸的62亿悬了!

新浪财经
2026-03-26 00:14:57
杜月笙的识人术:只看对方的一个站姿,就能知道他是龙还是虫

杜月笙的识人术:只看对方的一个站姿,就能知道他是龙还是虫

千秋文化
2026-03-23 20:09:06
为什么一定要多接高中孩子放学?这5个答案点醒无数家长

为什么一定要多接高中孩子放学?这5个答案点醒无数家长

户外阿毽
2026-03-26 12:33:16
俄军北极最强战舰,被击沉!乌军集中390架自杀机饱和突破成功

俄军北极最强战舰,被击沉!乌军集中390架自杀机饱和突破成功

沧海旅行家
2026-03-26 18:23:44
释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

寻墨阁
2026-03-25 11:39:10
李幼平同志逝世

李幼平同志逝世

澎湃新闻
2026-03-26 18:05:03
越扒越有!张雪峰去世早有预兆,他的3个不良爱好,或成催命符

越扒越有!张雪峰去世早有预兆,他的3个不良爱好,或成催命符

潮鹿逐梦
2026-03-26 11:24:44
人民日报转发,三大巧合坐实“遗言”,猝死前说的话全应验了!

人民日报转发,三大巧合坐实“遗言”,猝死前说的话全应验了!

奇思妙想草叶君
2026-03-25 12:40:13
别再说微胖的女生穿紧身牛仔裤显胖了!这身材谁看了不迷糊

别再说微胖的女生穿紧身牛仔裤显胖了!这身材谁看了不迷糊

牛弹琴123456
2026-03-22 13:59:13
梁兴初被隔离审查8年,自由后叶帅给出两个选择,梁:一个也不要

梁兴初被隔离审查8年,自由后叶帅给出两个选择,梁:一个也不要

兴趣知识
2026-03-25 12:32:27
汪小菲马筱梅基因太绝!家中“小炸毛”萌翻全网这颜值太招人疼!

汪小菲马筱梅基因太绝!家中“小炸毛”萌翻全网这颜值太招人疼!

孤酒老巷QA
2026-03-24 05:34:17
人社部:职称评审将重大调整!!

人社部:职称评审将重大调整!!

新浪财经
2026-03-25 21:42:36
2026-03-26 22:04:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
143584文章数 2653028关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
艺术
本地
数码
教育

家居要闻

傍海而居 静观蝴蝶海

艺术要闻

哪一座桥不是风景?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

数码要闻

iQOO Z11x发布:LCD党的护眼神机 1499元起

教育要闻

江苏省教育厅公布全省中小学生竞赛活动名单

无障碍浏览 进入关怀版