网易首页 > 网易号 > 正文 申请入驻

第1个获得数学奥赛金牌的开源模型!DeepSeek新模型获网友盛赞:公开技术文件,了不起!

0
分享至

DeepSeek最新发布的开源数学模型,正将其推向与OpenAI和谷歌等科技巨头同场竞技的舞台DeepSeekMath-V2的模型,在被誉为全球最难的高中数学竞赛中达到了金牌水平,成为首个实现这一成就的开源模型,标志着开源人工智能在复杂推理能力上的一次重大突破。

昨日DeepSeek宣布推出其最新的数学推理模型DeepSeekMath-V2,该模型在模拟的2025年国际数学奥林匹克竞赛(IMO)中解决了6个问题中的5个,达到了金牌水平。这一成就使其成为第一个在IMO级别竞赛中获得金牌的开源模型,引发了AI研究和开发者社区的高度关注。

这一表现直接对标了行业巨头。就在今年7月,谷歌DeepMind的Gemini高级版本和一个来自OpenAI的实验性推理模型也达到了IMO 2025的金牌标准,同样解决了5个问题,它们是首批达到该水平的人工智能模型。然而,与谷歌和OpenAI的闭源实验模型不同,DeepSeekMath-V2的模型权重根据Apache 2.0许可证公开发布,可供公众下载。

值得一提的是,DeepSeekMath-V2采用了一种创新的自我验证训练框架。该方法的核心是训练一个专门的“验证器”(verifier),其任务是评估证明过程的质量,而不是最终答案的对错。而且为了防止模型过度拟合其自身的检查机制,DeepSeek通过增加计算量和自动标记难以验证的证明,来不断提升验证过程的难度,确保验证器与生成器同步进化。

此举被视为人工智能民主化的重要一步。该模型的发布不仅证明了开源社区有能力在尖端AI研究领域追赶甚至比肩顶级闭源实验室,也可能再次引发了市场对于开源模型是否会侵蚀闭源产品商业护城河的讨论——这一话题曾一度动摇投资者对英伟达等AI巨头的信心。

跻身顶尖行列:与OpenAI和谷歌同台竞技

DeepSeekMath-V2的卓越表现,标志着其在复杂的数学推理领域,与全球领先的AI实验室站在了同一起跑线上。国际数学奥林匹克竞赛(IMO)通常被认为是全球难度最高的高中生数学竞赛,在2025年的竞赛中,630名人类参赛者中仅有72人获得金牌。

除了在IMO 2025取得的成就,该模型还在其他高难度数学竞赛中展现了顶级水平。据DeepSeek称,它在中国最顶尖的全国性竞赛——中国数学奥林匹克(CMO)中也达到了金牌水平。

在面向大学本科生的普特南数学竞赛(Putnam 2024)中,该模型在12道题中完全解决了11道,另一道题也仅有微小错误,最终得分118/120,超过了人类参赛者90分的最高分记录。

开源的里程碑:社区盛赞“了不起的发布”

与谷歌和OpenAI尚未公开的实验模型相比,DeepSeekMath-V2的核心吸引力在于其彻底的开放性。该模型的权重已在开源社区Hugging Face上发布,允许研究人员和开发者自由下载。

Hugging Face的联合创始人兼首席执行官Clement Delangue在社交平台X上盛赞道:“想象一下,你可以免费拥有世界上最优秀数学家之一的大脑。”

他补充说,“据我所知,此前没有任何聊天机器人或API能让你接触到一个IMO 2025金牌水平的模型。”他强调,用户可以不受限制地探索、微调、优化模型,并运行在自己的硬件上,“没有任何公司或政府可以收回它。这是人工智能和知识民主化的最佳体现。”


另一位网友elie也评论称:“DeepSeek Math V2是第一个在IMO上达到金牌水平的开源模型吗?而且我们还得到了技术报告,这真是一次了不起的发布。”


还有网友评论称,他们喜欢 5-7 个想法,每个想法都相对简单,不断堆叠,结果出乎意料地越来越好,看起来更像工程而不是研究。


自我验证框架:超越答案,关注推理过程

DeepSeek在技术报告中指出,近期的人工智能模型虽然擅长在数学基准测试中获得正确答案,但往往缺乏严谨的推理过程。报告写道:“许多像定理证明这样的数学任务,需要严谨的逐步推导,而非仅仅一个数值答案。”

为了解决这一问题,DeepSeekMath-V2采用了一种创新的自我验证训练框架。该方法的核心是训练一个专门的“验证器”(verifier),其任务是评估证明过程的质量,而不是最终答案的对错。随后,这个验证器被用作奖励模型,来引导一个独立的“证明生成器”(proof-generator)。只有当生成器成功识别并修复自身证明中的错误时,它才会获得奖励。

这种机制激励模型在最终确定答案之前,尽可能多地发现和解决自身推理链条中的问题。DeepSeek强调,“对于没有已知解决方案的开放性问题,自我验证在扩展测试时计算(test-time compute)方面尤为重要。”测试时计算指的是在推理阶段分配大量计算资源,让模型有更长时间进行推理、探索多种解决方案并完善答案。

动态进化系统:破解“自我过度拟合”难题

为了防止模型过度拟合其自身的检查机制——即只学会欺骗自己的验证器——DeepSeek采用了一种动态进化的策略。该团队通过增加计算量和自动标记难以验证的证明,来不断提升验证过程的难度,确保验证器与生成器同步进化。

DeepSeek在技术文件中解释,这种方法允许他们“扩展验证计算,以自动标记新的、难以验证的证明,从而创造新的训练数据来进一步改进验证器。”通过这种验证-生成闭环和元验证机制,模型能够实现全自动化的数据标注和持续的性能优化,验证了自驱动学习系统在解决复杂数学推理任务上的可行性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
场均34分9助攻,却引起全联盟声讨!你要这么打,真有可能被抛弃

场均34分9助攻,却引起全联盟声讨!你要这么打,真有可能被抛弃

老梁体育漫谈
2026-01-17 00:04:15
2分钟击毙4人,台独敢越界,斩首行动随时启动,没有例外!

2分钟击毙4人,台独敢越界,斩首行动随时启动,没有例外!

达文西看世界
2026-01-16 15:34:37
活久见!约旦门将扑点后激动握拳 不料球仍入网瞬间傻眼 日本狂喜

活久见!约旦门将扑点后激动握拳 不料球仍入网瞬间傻眼 日本狂喜

我爱英超
2026-01-16 22:45:27
当当创始人李国庆喊话华与华、罗永浩帮西贝一把:将自掏腰包和贾国龙开新公司,这事不用跟老婆商量

当当创始人李国庆喊话华与华、罗永浩帮西贝一把:将自掏腰包和贾国龙开新公司,这事不用跟老婆商量

大风新闻
2026-01-16 22:16:23
中国是大号朝鲜吗?

中国是大号朝鲜吗?

特例的猫
2026-01-16 19:44:18
杨贵妃们穿马甲——这不只是蠢货作妖,这是时代的倒退

杨贵妃们穿马甲——这不只是蠢货作妖,这是时代的倒退

细雨中的呼喊
2026-01-16 10:18:06
官方披露!马杜罗瑞士个人账户坐拥127吨黄金

官方披露!马杜罗瑞士个人账户坐拥127吨黄金

难得君
2026-01-16 13:43:31
损失大了:印度火箭太空翻滚,把16颗卫星送入印度洋,咋做到的?

损失大了:印度火箭太空翻滚,把16颗卫星送入印度洋,咋做到的?

知鉴明史
2026-01-15 18:56:30
聂卫平离世!3任妻子3个娃,第二任是王刚妹妹,现任小他23岁

聂卫平离世!3任妻子3个娃,第二任是王刚妹妹,现任小他23岁

叶公子
2026-01-16 14:43:14
中国被公认为世界上最安全的大国

中国被公认为世界上最安全的大国

中国日报网
2026-01-16 17:53:07
财政部同意福彩变更双色球游戏规则

财政部同意福彩变更双色球游戏规则

吉刻新闻
2026-01-16 19:15:24
泽连斯基回应特朗普说其“阻挠达成俄乌和平协议”:俄罗斯发动袭击旨在破坏乌克兰能源系统,必须向俄施压

泽连斯基回应特朗普说其“阻挠达成俄乌和平协议”:俄罗斯发动袭击旨在破坏乌克兰能源系统,必须向俄施压

鲁中晨报
2026-01-16 18:55:02
杨兰兰案又爆大料!被澳媒拍到派“替身”去警局报到

杨兰兰案又爆大料!被澳媒拍到派“替身”去警局报到

霹雳炮
2026-01-16 21:22:36
上海一服务员帮顾客拍照心生不满,发朋友圈辱骂“俩人才吃一千四,什么时候吃到一万四再让我服务你好吗?”

上海一服务员帮顾客拍照心生不满,发朋友圈辱骂“俩人才吃一千四,什么时候吃到一万四再让我服务你好吗?”

观威海
2026-01-16 14:46:02
开年大瓜!国产女优上岸成功嫁为人妻,拍短视频后遭恶语相向

开年大瓜!国产女优上岸成功嫁为人妻,拍短视频后遭恶语相向

社会酱
2026-01-16 16:54:49
周琦末节神秘消失北京主场输给山西,许利民说的对:球队没希望了

周琦末节神秘消失北京主场输给山西,许利民说的对:球队没希望了

姜大叔侃球
2026-01-16 22:13:40
特朗普为何最后一刻叫停打击伊朗?海湾多国向美施压,连以色列都劝“刹一脚”

特朗普为何最后一刻叫停打击伊朗?海湾多国向美施压,连以色列都劝“刹一脚”

红星新闻
2026-01-16 13:32:27
刀刀致命!罗永浩回应长文被贾国龙反扑,这是对西贝重大污蔑诽谤

刀刀致命!罗永浩回应长文被贾国龙反扑,这是对西贝重大污蔑诽谤

火山诗话
2026-01-16 17:43:07
报应来得太快!终于知道李湘为啥被封了,这瓜不简单!

报应来得太快!终于知道李湘为啥被封了,这瓜不简单!

皮蛋儿电影
2026-01-16 22:51:50
A股:股民系好安全带,深夜证监会再度发声,下周将迎更大级别行情?

A股:股民系好安全带,深夜证监会再度发声,下周将迎更大级别行情?

股市皆大事
2026-01-16 21:25:25
2026-01-17 05:48:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
140245文章数 2652156关注度
往期回顾 全部

科技要闻

贾国龙与罗永浩被禁言,微博CEO回应

头条要闻

罗永浩、贾国龙微博账号均被禁言

头条要闻

罗永浩、贾国龙微博账号均被禁言

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

李湘翻车,早就有迹可循!

财经要闻

清流|酒店商家在携程和美团之间沦为炮灰

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

房产
游戏
时尚
艺术
本地

房产要闻

喜封金顶 臻境初呈丨中粮·铂悦壹号3#楼封顶大吉!

十三年后,《逆战:未来》想为所有逆行者们找回青春"/> 主站 商城 论坛 自运营 登录 注册 十三年后,《逆战:未来》想为所有逆行者们找回青春 廉颇 2...

今年冬天最时髦保暖的4组搭配,照着穿美出新高度!

艺术要闻

齐白石画头毛驴当马卖,卖了1300万,网友:笑喷了!

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

无障碍浏览 进入关怀版