网易首页 > 网易号 > 正文 申请入驻

DeepSeek推出数学推理新模型,IMO竞赛达金牌水平超越GPT-5

0
分享至

11月27日晚间,DeepSeek在HuggingFace平台正式推出全新数学推理模型DeepSeekMath-V2。该模型采用可自我验证的训练框架,标志着人工智能在数学推理领域取得重要进展。

新模型基于DeepSeek-V3.2-Exp-Base构建而成。通过内置LLM验证器自动审查生成的数学证明过程,同时利用高难度样本持续优化模型整体性能。这种创新架构突破了传统模型仅追求答案准确性的局限。

在国际权威数学竞赛中,DeepSeekMath-V2展现出卓越表现。该模型在2025年国际数学奥林匹克竞赛(IMO2025)中达到金牌水平,在2024年中国数学奥林匹克竞赛(CMO2024)中同样获得金牌级成绩。据悉,模型在2024年普特南数学竞赛中取得118/120分的优异表现,接近满分水准。

DeepSeekMath-V2的核心创新在于构建自驱动的验证-生成闭环机制。系统将一个LLM设定为"审稿人"角色,专门负责证明验证工作。另一个LLM则承担"作者"职责,专注于证明生成任务。两个模块通过强化学习机制实现协同工作,并引入"元验证"层有效抑制模型产生幻觉现象。

在团队自主构建的91个CNML级别问题测试中,新模型显示出强劲的数学推理能力。涵盖代数、几何、数论、组合学和不等式等各个类别,DeepSeekMath-V2的表现均超越GPT-5-Thinking-High和Gemini2.5-Pro等先进模型。

在IMO-ProofBench基准测试环节,该模型同样表现突出。基础集测试中,其人工评估结果优于DeepMind开发的DeepThink模型。面对更具挑战性的高级集测试,模型保持了强劲竞争优势,显著超越其他基准模型的表现水准。

团队认为,大型语言模型在数学推理方面已取得显著进展。然而,单纯追求最终答案准确性无法解决核心问题。正确答案并不能保证推理过程的严谨性,许多数学任务如定理证明需要严格的逐步推导过程。

为突破深度推理的现有局限,团队着力验证数学推理的全面性与严谨性。DeepSeekMath-V2通过自我验证机制,确保推理链条的每个环节都经过严格检验,从而提升整体推理质量。

该成果验证了自验证推理路径的实际可行性,为构建更加可靠的数学智能系统指明新的发展方向。模型的代码与权重文件已完成开源处理,用户可通过HuggingFace及GitHub平台获取相关资源。

团队表示,尽管仍有大量工作需要完成,但这些成果表明自我验证的数学推理是一条可行的研究路径。这项技术突破或将有助于开发功能更为强大的数学人工智能系统,推动相关领域的进一步发展。

声明:市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。

本文源自:市场资讯

作者:观察君

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1949年,毛人凤抓了400多名共产党,卢汉左右为难,想到了一个人

1949年,毛人凤抓了400多名共产党,卢汉左右为难,想到了一个人

墨说古今
2026-02-09 23:42:18
炸裂!6个月翻三倍牛股却在半个月跌超40%,五万多散户彻夜难眠!

炸裂!6个月翻三倍牛股却在半个月跌超40%,五万多散户彻夜难眠!

股市皆大事
2026-02-15 12:52:17
“不好看,有点吓人!”艺考生晒堪比小燕子的大眼睛,引人不适

“不好看,有点吓人!”艺考生晒堪比小燕子的大眼睛,引人不适

蝴蝶花雨话教育
2026-02-08 12:47:42
相爱15年抵不过残酷现实!王石75岁已经老了,45岁田朴珺貌美如花

相爱15年抵不过残酷现实!王石75岁已经老了,45岁田朴珺貌美如花

玥来玥好讲故事
2026-02-14 20:23:55
从排队3000桌到闭店80%!文和友的败局,给网红餐饮上了一课

从排队3000桌到闭店80%!文和友的败局,给网红餐饮上了一课

青眼财经
2026-02-07 22:22:53
前骑士总经理:如果詹姆斯完全不想回骑士 我会感到有些惊讶

前骑士总经理:如果詹姆斯完全不想回骑士 我会感到有些惊讶

北青网-北京青年报
2026-02-15 07:48:10
不演了!法国通告全球,27国或对华加税30%,法财长:一刀切不行

不演了!法国通告全球,27国或对华加税30%,法财长:一刀切不行

趣味萌宠的日常
2026-02-15 12:58:04
毛主席唯一一个活下来的儿子毛岸青,晚年的时候享受的什么待遇?

毛主席唯一一个活下来的儿子毛岸青,晚年的时候享受的什么待遇?

乐天闲聊
2026-02-13 11:33:46
1小时会晤结束,中美谈妥?华春莹离开谈判桌,王毅留下一份清单

1小时会晤结束,中美谈妥?华春莹离开谈判桌,王毅留下一份清单

比利
2026-02-15 01:21:53
闻仲打了15年的北海,到底有多恐怖?姜子牙为何一生不敢踏足?

闻仲打了15年的北海,到底有多恐怖?姜子牙为何一生不敢踏足?

千秋文化
2026-02-13 18:52:29
湖人中锋海斯演砸了!多跑一步扣篮太搞笑 湖媒:他毁了扣篮大赛

湖人中锋海斯演砸了!多跑一步扣篮太搞笑 湖媒:他毁了扣篮大赛

追球者
2026-02-15 08:59:08
广西省启动2026年独生子女奖励申报!发放标准、条件、材料,看看

广西省启动2026年独生子女奖励申报!发放标准、条件、材料,看看

云鹏叙事
2026-02-15 11:25:22
天雷滚滚!11天7个20cm涨停狂拉336%牛股强制退市,几万散户看傻眼

天雷滚滚!11天7个20cm涨停狂拉336%牛股强制退市,几万散户看傻眼

股市皆大事
2026-02-15 11:45:36
东部战区:沿海一线,导弹全时竖立,这可不是演习,是战备状态!

东部战区:沿海一线,导弹全时竖立,这可不是演习,是战备状态!

百态人间
2026-02-13 15:15:38
李嘉诚再预测未来房地产,今年已基本应验,明年大概率也会是对的

李嘉诚再预测未来房地产,今年已基本应验,明年大概率也会是对的

专业聊房君
2026-02-15 13:27:31
不到24小时,高市病情恶化,日本迎三大坏消息,特朗普或划清界限

不到24小时,高市病情恶化,日本迎三大坏消息,特朗普或划清界限

现代小青青慕慕
2026-02-14 20:03:27
阎维文现状:曾在春晚出尽风头,如今没资格露脸,导演选人惹争议

阎维文现状:曾在春晚出尽风头,如今没资格露脸,导演选人惹争议

嘴角上翘的弧度
2026-02-14 10:45:06
唯一走过长征仍在世的开国少将,党龄超92年,曾被主席亲自接见

唯一走过长征仍在世的开国少将,党龄超92年,曾被主席亲自接见

南书房
2026-02-15 14:05:04
许世友被关押,看守员送烧鸡和酒,多年后看守官至南京军区副司令

许世友被关押,看守员送烧鸡和酒,多年后看守官至南京军区副司令

谈古论今历史有道
2026-02-15 11:10:03
我省吃俭用,年前回娘家每次得花6千多,直到无意中发现父亲遗嘱

我省吃俭用,年前回娘家每次得花6千多,直到无意中发现父亲遗嘱

王二哥老搞笑
2026-02-14 09:02:48
2026-02-15 15:03:00
金融界 incentive-icons
金融界
投资者信赖的财经金融门户网站
9194706文章数 545928关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

女子在上海机场崩溃后奇迹突现 超10万人点赞感谢信

头条要闻

女子在上海机场崩溃后奇迹突现 超10万人点赞感谢信

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

河南春晚被骂上热搜!大量广告满屏AI

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

家居
艺术
数码
公开课
军事航空

家居要闻

中古雅韵 乐韵伴日常

艺术要闻

16位当代中外画家的静物与花卉作品

数码要闻

三星Galaxy Watch8 Classic更新上线独立微信手表版App

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:在俄乌冲突问题上 泽连斯基必须行动起来

无障碍浏览 进入关怀版