网易首页 > 网易号 > 正文 申请入驻

再创历史!DeepSeek最新开源模型Math-V2实现IMO金牌水准,提出可自验证的数学推理

0
分享至

大数据文摘受权转载自头部科技

文丨谭梓馨

继OpenAI发布GPT-5.1、谷歌推出Gemini 3、Anthropic迭代Claude Opus 4.5之后。

11月27日晚间, DeepSeek团队在开源社区低调发布了一款新模型DeepSeekMath-V2,该模型展现出强大的定理证明能力,在IMO 2025和CMO 2024上取得了金牌水平成绩,并在Putnam 2024上取得接近完美的118分(满分是120分,人类选手的历史最高分为90分)。


值得关注的是,这也是首个在IMO竞赛中达到金牌水准的开源模型,今年7月份,谷歌DeepMind的“Gemini Deep Think”曾斩获IMO 2025金牌。
网友们称赞:大蓝鲸又回来了!

让AI推理过程像数学家一样严谨

DeepSeek这篇新模型论文讲了什么?简单来说,其改变了AI数学推理的既有路径:从传统的“结果导向”(只关注答案是否正确) 转向“过程导向”(重视推理过程的严谨性和可验证性)。

核心创新是一种自验证架构:首先训练一个基于LLM的精准且可信的定理证明验证器;随后以该验证器作为奖励模型,训练一个证明生成器,并激励生成器在最终定稿前,自主识别并修正自身证明过程中的尽可能多的问题。

这一架构使模型能像数学家一样思考:自己写证明→自己挑毛病→自己改到无懈可击,实现了AI推理的“自我反思”能力。


DeepSeek团队在论文中表示,大语言模型(LLMs)在数学推理领域已取得显著进展,若能进一步突破,有望对科学研究产生深远影响。

通过强化学习放大推理能力(该方法以最终答案的正确性为奖励导向),LLMs在一年内实现了性能跨越式提升,然而,这种方法存在根本性局限:一味追求更高的最终答案准确率,无法解决一个核心问题——正确答案并不等同于严谨的推理过程。

为突破深度推理的边界,DeepSeek团队认为有必要对数学推理的完整性与严谨性进行验证,尤其在测试阶段计算量扩容场景下(例如面对无已知解的开放性问题时),自验证能力至关重要。


为避免生成器性能提升后出现“生成-验证能力差距”扩大的问题,团队还提出通过扩容验证计算量,自动标记新增的高难度验证样本,进而生成训练数据以持续优化验证器。

最终,DeepSeekMath-V2 展现出卓越的定理证明能力:在2025年国际数学奥林匹克(IMO)、2024年中国数学奥林匹克(CMO)中均斩获金牌级得分,且在2024年普特南数学竞赛(Putnam)中,通过扩容测试阶段计算量,取得了118/120的近乎满分成绩,超越了人类参赛者90分的最高纪录。


研究结果表明,可自验证数学推理是一条切实可行的研究路径,有望助力研发出能力更强大的数学AI系统。

人类即便在没有参考解法的情况下,也能识别证明中的问题——这是解决开放性问题时的关键能力。DeepSeek团队认为,LLMs能够通过训练获得“无参考解法下识别证明问题”的能力。

利用“自我认知”系统性提升数学推理

DeepSeekMath-V2的证明验证器与生成器构成协同循环:验证器助力生成器优化,而生成器性能提升后,会产出挑战验证器当前能力边界的新证明。

这些挑战性样本(即验证器单次验证可能无法识别问题的证明),将成为提升验证器自身性能的宝贵训练数据。


在DeepSeek自研的CNML级别题目集中包含91道定理证明题,涵盖代数(13道)、几何(24道)、数论(19道)、组合数学(24道)和不等式(11道)五大类别,难度与中国全国高中数学联赛(CNML)题目相当,各模型在不同类别CNML级别题目上的得分显示,DeepSeekMath-V2的性能持续优于Gemini2.5-pro和GPT5-Thinking-High,展现出跨领域的卓越定理证明能力。


在2024年国际数学奥林匹克预选题(IMO Shortlist 2024)上,研究人员通过序贯优化实现证明质量提升。

针对每道题目启动了32条独立的优化线程,并通过最终验证器产出的32份验证分析报告进行多数投票,判定证明的正确性。

结果显示,模型自主筛选的最优证明获得了显著高于线程平均水平的验证得分,这表明模型的生成器具备准确评估证明质量的能力;此外,随着最大序贯尝试次数的增加,单次通过率实现了实质性提升,证明自验证机制能有效引导迭代优化过程。

这些结果证实:DeepSeekMath-V2生成器能够可靠区分高质量证明与有缺陷证明,并利用这种自我认知能力,系统性地提升其数学推理水平。

DeepSeek团队在论文总结中表示,推进自然语言定理证明的发展将为形式化推理带来显著助力。期望通过本研究,为构建真正可靠的数学推理系统做出贡献——这类系统能够同时借助非形式化洞察与形式化保障,推动数学研究的进步。

开源AI进入中国主导阶段

尽管不是科技巨头,但DeepSeek一直是全球开源模型的创新探索引领者。

日前,麻省理工学院(MIT)和开源平台Hugging Face合作的一项“开放智能经济”研究发现,过去一年中,中国开发的新型开源模型的下载总量占比上升至17%,在全球开源AI模型市场中比美国占据了更多关键优势。


研究还发现,美国、中国、英国的开发力量严重偏向产业端;而德国、法国及欧洲其他地区与线上开发力量则更均衡,涵盖非营利机构、高校及社区贡献者。


行业权力格局正发生根本性重构:谷歌、Meta和OpenAI主导的美国开源权重产业优势已大幅下滑,非关联开发者、社区组织以及2025年崛起的中国产业力量逐渐崛起。
随着DeepSeek、Qwen、Hunyuan、GLM、Kimi、MiniMax、ERNIE等多家开源模型的持续渗透,且不断拉近与封闭模型之间的差距,或将开启由中国开发者主导的新一轮市场权力整合。

注:头图AI生成

作者长期关注 AI 产业与学术,欢迎对这些方向感兴趣的朋友添加微信Q1yezi,共同交流行业动态与技术趋势!

GPU 训练特惠!

H100/H200 GPU算力按秒计费,平均节省开支30%以上!

扫码了解详情☝

点「赞」的人都变好看了哦!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
舒马赫健康状况重大更新!滑雪事故13年后,车神不再卧床不起

舒马赫健康状况重大更新!滑雪事故13年后,车神不再卧床不起

全景体育V
2026-01-26 18:35:30
美军连夜通告全球,特朗普想通了:对中国不能来硬的,要上点手段

美军连夜通告全球,特朗普想通了:对中国不能来硬的,要上点手段

书纪文谭
2026-01-26 15:25:20
解放军报社论:坚决打赢军队反腐败斗争攻坚战持久战总体战

解放军报社论:坚决打赢军队反腐败斗争攻坚战持久战总体战

新华社
2026-01-24 23:03:04
2-2爆冷!国足平乌兹别克,邵佳一激活留洋神锋:3场3球带队不败

2-2爆冷!国足平乌兹别克,邵佳一激活留洋神锋:3场3球带队不败

球场没跑道
2026-01-26 23:24:04
比断月供更加可怕的是,法拍房没有人接盘,银行打6折都没有人要

比断月供更加可怕的是,法拍房没有人接盘,银行打6折都没有人要

社会日日鲜
2026-01-26 11:57:59
61岁“奶酪女王”遭免职,年薪曾近500万元

61岁“奶酪女王”遭免职,年薪曾近500万元

澎湃新闻
2026-01-26 23:04:06
国务院:免去李旭的新疆生产建设兵团副司令员、中国新建集团公司副总经理职务

国务院:免去李旭的新疆生产建设兵团副司令员、中国新建集团公司副总经理职务

极目新闻
2026-01-26 16:19:31
天呢!一个德国人非议中国教育是对人性的摧残…

天呢!一个德国人非议中国教育是对人性的摧残…

慧翔百科
2026-01-26 11:45:53
事发上海!雇主离世仅12分钟,保姆就陆续转走银行卡内50万元现金,还变卖玉器

事发上海!雇主离世仅12分钟,保姆就陆续转走银行卡内50万元现金,还变卖玉器

新民晚报
2026-01-26 14:44:31
目标库明加!Sidery:湖人近期向勇士提供了一份3换1交易方案

目标库明加!Sidery:湖人近期向勇士提供了一份3换1交易方案

移动挡拆
2026-01-27 06:43:26
外交部宣布:奥尔西将访华

外交部宣布:奥尔西将访华

环球时报国际
2026-01-26 19:43:41
越南曝光中越战争真相:若中国军队晚撤5天,战争结局不敢想象

越南曝光中越战争真相:若中国军队晚撤5天,战争结局不敢想象

鉴史录
2026-01-26 22:15:16
女明星被实名举报“插足婚姻”!

女明星被实名举报“插足婚姻”!

新动察
2026-01-26 10:45:00
重磅!NBA三方交易:字母哥+格兰特赴尼克斯,布里奇斯转投开拓者

重磅!NBA三方交易:字母哥+格兰特赴尼克斯,布里奇斯转投开拓者

夜白侃球
2026-01-26 20:29:44
已经结束咧,名记:我认为字母哥已打完在雄鹿的最后一场比赛

已经结束咧,名记:我认为字母哥已打完在雄鹿的最后一场比赛

懂球帝
2026-01-27 08:15:22
伊朗对国内民众的残酷镇压,成为了自己的催命符

伊朗对国内民众的残酷镇压,成为了自己的催命符

林中木白
2026-01-26 16:58:23
升第一!胡明轩决战连得11分广东双杀天津 萨姆纳39分单节20分

升第一!胡明轩决战连得11分广东双杀天津 萨姆纳39分单节20分

醉卧浮生
2026-01-26 21:24:15
四川警方侦破28年前商场“花坛藏尸案”,凶手因无力偿还欠款杀害女子,作案后频繁出境韩国,整容改名潜逃多年终落网

四川警方侦破28年前商场“花坛藏尸案”,凶手因无力偿还欠款杀害女子,作案后频繁出境韩国,整容改名潜逃多年终落网

扬子晚报
2026-01-26 22:17:45
黄金与白银在刷新历史高点后大幅回调

黄金与白银在刷新历史高点后大幅回调

每日经济新闻
2026-01-27 05:38:36
央视暗访曝光!致命毒红薯已流遍20多省!种植户自己一口都不吃!

央视暗访曝光!致命毒红薯已流遍20多省!种植户自己一口都不吃!

今朝牛马
2026-01-26 22:00:31
2026-01-27 08:35:00
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6821文章数 94528关注度
往期回顾 全部

科技要闻

理想开始关店“过冬”,否认“百家”规模

头条要闻

上海一女子嫌风水不好 屡次掰歪小区两块反光镜

头条要闻

上海一女子嫌风水不好 屡次掰歪小区两块反光镜

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

健康
时尚
旅游
亲子
军事航空

耳石脱落为何让人天旋地转+恶心?

甜了10年,超多暧昧细节,全网求他俩原地结婚

旅游要闻

英媒:中国正成为全球健康旅游目的地

亲子要闻

网友:这阶段属于纯阳之体

军事要闻

委代总统称遭美威胁:马杜罗已死

无障碍浏览 进入关怀版