网易首页 > 网易号 > 正文 申请入驻

DeepSeek推出数学推理新模型,IMO竞赛达金牌水平超越GPT-5

0
分享至

11月27日晚间,DeepSeek在HuggingFace平台正式推出全新数学推理模型DeepSeekMath-V2。该模型采用可自我验证的训练框架,标志着人工智能在数学推理领域取得重要进展。

新模型基于DeepSeek-V3.2-Exp-Base构建而成。通过内置LLM验证器自动审查生成的数学证明过程,同时利用高难度样本持续优化模型整体性能。这种创新架构突破了传统模型仅追求答案准确性的局限。

在国际权威数学竞赛中,DeepSeekMath-V2展现出卓越表现。该模型在2025年国际数学奥林匹克竞赛(IMO2025)中达到金牌水平,在2024年中国数学奥林匹克竞赛(CMO2024)中同样获得金牌级成绩。据悉,模型在2024年普特南数学竞赛中取得118/120分的优异表现,接近满分水准。

DeepSeekMath-V2的核心创新在于构建自驱动的验证-生成闭环机制。系统将一个LLM设定为"审稿人"角色,专门负责证明验证工作。另一个LLM则承担"作者"职责,专注于证明生成任务。两个模块通过强化学习机制实现协同工作,并引入"元验证"层有效抑制模型产生幻觉现象。

在团队自主构建的91个CNML级别问题测试中,新模型显示出强劲的数学推理能力。涵盖代数、几何、数论、组合学和不等式等各个类别,DeepSeekMath-V2的表现均超越GPT-5-Thinking-High和Gemini2.5-Pro等先进模型。

在IMO-ProofBench基准测试环节,该模型同样表现突出。基础集测试中,其人工评估结果优于DeepMind开发的DeepThink模型。面对更具挑战性的高级集测试,模型保持了强劲竞争优势,显著超越其他基准模型的表现水准。

团队认为,大型语言模型在数学推理方面已取得显著进展。然而,单纯追求最终答案准确性无法解决核心问题。正确答案并不能保证推理过程的严谨性,许多数学任务如定理证明需要严格的逐步推导过程。

为突破深度推理的现有局限,团队着力验证数学推理的全面性与严谨性。DeepSeekMath-V2通过自我验证机制,确保推理链条的每个环节都经过严格检验,从而提升整体推理质量。

该成果验证了自验证推理路径的实际可行性,为构建更加可靠的数学智能系统指明新的发展方向。模型的代码与权重文件已完成开源处理,用户可通过HuggingFace及GitHub平台获取相关资源。

团队表示,尽管仍有大量工作需要完成,但这些成果表明自我验证的数学推理是一条可行的研究路径。这项技术突破或将有助于开发功能更为强大的数学人工智能系统,推动相关领域的进一步发展。

声明:市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。

本文源自:市场资讯

作者:观察君

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比利时男子在云南哈巴雪山失联超25天,搜救仍无发现 知情人称他曾现身进山口被劝返

比利时男子在云南哈巴雪山失联超25天,搜救仍无发现 知情人称他曾现身进山口被劝返

红星新闻
2026-04-20 19:01:11
浙江大学研究:每天多吃一个蛋,心血管疾病和癌症死亡风险增加

浙江大学研究:每天多吃一个蛋,心血管疾病和癌症死亡风险增加

健身狂人
2026-04-20 18:15:29
理想电池包卡扣损坏车主无奈走全损?卡扣与电池盒为一体结构无法单独维修

理想电池包卡扣损坏车主无奈走全损?卡扣与电池盒为一体结构无法单独维修

板扎在线
2026-04-19 07:34:16
杨幂估计头都大了,这眼神躲还是不躲好啊。

杨幂估计头都大了,这眼神躲还是不躲好啊。

科学发掘
2026-04-18 12:22:04
仅剩1天!赖清德将登机离岛,郑丽文好言相劝,国台办已宣告结局

仅剩1天!赖清德将登机离岛,郑丽文好言相劝,国台办已宣告结局

近史谈
2026-04-21 02:02:26
这8种病立马办残疾证!符合条件每月领钱,别傻傻把福利扔了!

这8种病立马办残疾证!符合条件每月领钱,别傻傻把福利扔了!

记录生活日常阿蜴
2026-04-14 07:01:50
日本又在历史伤口上公然撒盐

日本又在历史伤口上公然撒盐

烽火瞭望者
2026-04-20 11:26:11
大S到死都没料到!她走后,真心疼玥儿箖箖竟是被她拉黑的前婆婆

大S到死都没料到!她走后,真心疼玥儿箖箖竟是被她拉黑的前婆婆

情感大头说说
2026-04-20 15:16:32
2年1.3亿!最被高估的联盟巨星,被二当家拖进季后赛,硬仗又萎了

2年1.3亿!最被高估的联盟巨星,被二当家拖进季后赛,硬仗又萎了

你的篮球频道
2026-04-20 09:24:43
CBA积分榜:上海锁定常规赛冠军 山东排第8

CBA积分榜:上海锁定常规赛冠军 山东排第8

闪电新闻
2026-04-20 19:53:00
一张封面让以色列炸锅,大使怒骂,杂志不道歉,最后视频曝光

一张封面让以色列炸锅,大使怒骂,杂志不道歉,最后视频曝光

海绵芝士局
2026-04-20 16:17:16
为什么山东高速拒绝巩晓彬而广东队却不敢换掉杜锋?两个字:背景

为什么山东高速拒绝巩晓彬而广东队却不敢换掉杜锋?两个字:背景

姜大叔侃球
2026-04-20 11:17:20
哈兰德:我背上很多抓痕,女朋友不太高兴;父亲教我不能假摔

哈兰德:我背上很多抓痕,女朋友不太高兴;父亲教我不能假摔

懂球帝
2026-04-20 23:25:16
德塞利公开道歉:我错看了萨利巴

德塞利公开道歉:我错看了萨利巴

篮坛第一线
2026-04-21 02:57:15
Model Y 撞报废,车主轻伤,又订了辆 Model Y L!

Model Y 撞报废,车主轻伤,又订了辆 Model Y L!

新浪财经
2026-04-20 15:28:47
腾讯推出“QQ音乐畅听耳机”:提供会员曲库10年畅听,399元

腾讯推出“QQ音乐畅听耳机”:提供会员曲库10年畅听,399元

IT之家
2026-04-20 16:02:11
比亚迪2026款海狮05上市 标配第二代刀片 9.79万起售

比亚迪2026款海狮05上市 标配第二代刀片 9.79万起售

CNMO科技
2026-04-20 20:20:07
2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

观察鉴娱
2026-03-18 09:09:10
大量硼砂,别再给家里人吃了!这10类食物最易掺硼砂,超危险

大量硼砂,别再给家里人吃了!这10类食物最易掺硼砂,超危险

笑熬浆糊111
2026-04-13 00:05:12
胡歌当年居然没有和左一这个美女在一起!太可惜了吧!

胡歌当年居然没有和左一这个美女在一起!太可惜了吧!

小椰的奶奶
2026-04-20 02:15:20
2026-04-21 04:19:00
金融界 incentive-icons
金融界
投资者信赖的财经金融门户网站
9194706文章数 546236关注度
往期回顾 全部

科技要闻

HUAWEI Pura X Max发布 售价10999元起

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

时尚
游戏
亲子
艺术
军事航空

春天衣服不用准备太多!这几大单品提前备好,百搭实用又不过时

大司马回归两个月,某音人气稳居顶流行列,道出风光背后心酸现状

亲子要闻

【孤独症科普】啥是孤独症,哪些孩子易发生,如何应对?

艺术要闻

沙特官宣:全球最大单体建筑,延期十年!网友:又是画饼?

军事要闻

特朗普:美舰向伊朗货船开火炸出个洞

无障碍浏览 进入关怀版