网易首页 > 网易号 > 正文 申请入驻

DeepSeek推出数学推理新模型,IMO竞赛达金牌水平超越GPT-5

0
分享至

11月27日晚间,DeepSeek在HuggingFace平台正式推出全新数学推理模型DeepSeekMath-V2。该模型采用可自我验证的训练框架,标志着人工智能在数学推理领域取得重要进展。

新模型基于DeepSeek-V3.2-Exp-Base构建而成。通过内置LLM验证器自动审查生成的数学证明过程,同时利用高难度样本持续优化模型整体性能。这种创新架构突破了传统模型仅追求答案准确性的局限。

在国际权威数学竞赛中,DeepSeekMath-V2展现出卓越表现。该模型在2025年国际数学奥林匹克竞赛(IMO2025)中达到金牌水平,在2024年中国数学奥林匹克竞赛(CMO2024)中同样获得金牌级成绩。据悉,模型在2024年普特南数学竞赛中取得118/120分的优异表现,接近满分水准。

DeepSeekMath-V2的核心创新在于构建自驱动的验证-生成闭环机制。系统将一个LLM设定为"审稿人"角色,专门负责证明验证工作。另一个LLM则承担"作者"职责,专注于证明生成任务。两个模块通过强化学习机制实现协同工作,并引入"元验证"层有效抑制模型产生幻觉现象。

在团队自主构建的91个CNML级别问题测试中,新模型显示出强劲的数学推理能力。涵盖代数、几何、数论、组合学和不等式等各个类别,DeepSeekMath-V2的表现均超越GPT-5-Thinking-High和Gemini2.5-Pro等先进模型。

在IMO-ProofBench基准测试环节,该模型同样表现突出。基础集测试中,其人工评估结果优于DeepMind开发的DeepThink模型。面对更具挑战性的高级集测试,模型保持了强劲竞争优势,显著超越其他基准模型的表现水准。

团队认为,大型语言模型在数学推理方面已取得显著进展。然而,单纯追求最终答案准确性无法解决核心问题。正确答案并不能保证推理过程的严谨性,许多数学任务如定理证明需要严格的逐步推导过程。

为突破深度推理的现有局限,团队着力验证数学推理的全面性与严谨性。DeepSeekMath-V2通过自我验证机制,确保推理链条的每个环节都经过严格检验,从而提升整体推理质量。

该成果验证了自验证推理路径的实际可行性,为构建更加可靠的数学智能系统指明新的发展方向。模型的代码与权重文件已完成开源处理,用户可通过HuggingFace及GitHub平台获取相关资源。

团队表示,尽管仍有大量工作需要完成,但这些成果表明自我验证的数学推理是一条可行的研究路径。这项技术突破或将有助于开发功能更为强大的数学人工智能系统,推动相关领域的进一步发展。

声明:市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。

本文源自:市场资讯

作者:观察君

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
继福原爱怀三胎后,前夫圣诞节晒8岁女儿漂亮,2个娃被养得很明媚

继福原爱怀三胎后,前夫圣诞节晒8岁女儿漂亮,2个娃被养得很明媚

动物奇奇怪怪
2025-12-28 16:39:11
国产奔驰GLE售价曝光!进口版车主吐槽:后悔买早了

国产奔驰GLE售价曝光!进口版车主吐槽:后悔买早了

汽车网评
2025-12-27 20:46:36
财政工作会议在北京召开

财政工作会议在北京召开

财联社
2025-12-28 12:07:04
长江策|苏北或将迎首个“万亿之城”,为什么是徐州?

长江策|苏北或将迎首个“万亿之城”,为什么是徐州?

现代快报
2025-12-28 17:32:04
越南谈中越战争:中国不是给越南一个教训,而是摧毁,他们做到了

越南谈中越战争:中国不是给越南一个教训,而是摧毁,他们做到了

爱史纪
2025-12-28 19:31:40
增长278%,692亿!韩国船企再获15艘大单,中企却刚刚“破零”?

增长278%,692亿!韩国船企再获15艘大单,中企却刚刚“破零”?

品牌观察官
2025-12-27 18:06:04
光刻机巨头开始慌了,中国造不成光刻机,但是要造一个光刻工厂!

光刻机巨头开始慌了,中国造不成光刻机,但是要造一个光刻工厂!

隐龙天下
2025-12-12 00:57:51
冲上热搜!黄子韬因脑淤血接受开颅手术缝了43针,本人回应

冲上热搜!黄子韬因脑淤血接受开颅手术缝了43针,本人回应

半岛晨报
2025-12-28 18:04:45
杨少华长子杨威,对儿子杨化然说:我去德云社演出,郭德纲给钱了

杨少华长子杨威,对儿子杨化然说:我去德云社演出,郭德纲给钱了

知法而形
2025-12-27 19:44:29
连续两场比赛命中20+三分,且三分命中率超50%,这不会是常规操作

连续两场比赛命中20+三分,且三分命中率超50%,这不会是常规操作

小七说篮球
2025-12-28 20:10:15
饲料大王刘永好坦言:我们吃的猪肉90%是“三元猪”,所以不香了

饲料大王刘永好坦言:我们吃的猪肉90%是“三元猪”,所以不香了

丁丁鲤史纪
2025-12-23 16:14:18
西伯利亚零下71度如何生活?当地女性直言,最怕解决生理问题

西伯利亚零下71度如何生活?当地女性直言,最怕解决生理问题

忠于法纪
2025-12-10 11:23:33
邓小平视察二汽,得知王兆国38岁就当副厂长后大喜:要好好培养他

邓小平视察二汽,得知王兆国38岁就当副厂长后大喜:要好好培养他

帝哥说史
2025-12-23 06:30:03
对越自卫反击战胜利结束后,邓小平不再兼任总参谋长,由杨得志接任该职务,许世友也随之离开军队

对越自卫反击战胜利结束后,邓小平不再兼任总参谋长,由杨得志接任该职务,许世友也随之离开军队

史海孤雁
2025-12-19 17:46:12
独生女不愿接班,天津老板套现7.2亿,把家族产业卖给了安徽国资

独生女不愿接班,天津老板套现7.2亿,把家族产业卖给了安徽国资

素衣读史
2025-12-23 17:03:03
大量食用油被检测出致癌物?快看你家厨房有没有这4种油,别吃了

大量食用油被检测出致癌物?快看你家厨房有没有这4种油,别吃了

今朝牛马
2025-12-28 16:29:09
抗美援朝彭总大骂梁兴初,后来彭总落难,梁的一句话让人肃然起敬

抗美援朝彭总大骂梁兴初,后来彭总落难,梁的一句话让人肃然起敬

云霄纪史观
2025-12-28 19:08:56
重庆机场集团声明:公司无任何 “特殊招聘渠道”

重庆机场集团声明:公司无任何 “特殊招聘渠道”

界面新闻
2025-12-28 18:06:47
残忍的遗传规律:父母如果患上以下4种癌,下一代可能会复制

残忍的遗传规律:父母如果患上以下4种癌,下一代可能会复制

柏拉图的诉说1
2025-10-30 18:45:15
姜昆翻车,美国境内唱红歌,早年抵制洋节挂在嘴边,回应未移民!

姜昆翻车,美国境内唱红歌,早年抵制洋节挂在嘴边,回应未移民!

你食不食油饼
2025-12-26 06:13:35
2025-12-28 21:04:49
金融界 incentive-icons
金融界
投资者信赖的财经金融门户网站
9194706文章数 545637关注度
往期回顾 全部

科技要闻

特斯拉将在华布局自动驾驶?记者求证→

头条要闻

新华社发文:积蓄统一大势

头条要闻

新华社发文:积蓄统一大势

体育要闻

83分钟绝杀!曼城2-1年度收官:英超6连胜狂飙

娱乐要闻

白敬亭现身冰雪大世界 拍视频还翻车了

财经要闻

英伟达的收购史

汽车要闻

理想的2026:L9不容有失,i9再战纯电?

态度原创

游戏
数码
健康
艺术
家居

《生化危机6》是否为系列败笔?来看看爆料大佬咋说!

数码要闻

AM4老兵不死:锐龙7 5800X登上销量榜首!前十有4款是AM4

这些新疗法,让化疗不再那么痛苦

艺术要闻

惊艳!陈红20年前沙发照曝光,宛如人间尤物!

家居要闻

格调时尚 智慧品质居所

无障碍浏览 进入关怀版