网易首页 > 网易号 > 正文 申请入驻

刚刚,DeepSeek 再次创造历史,一出手就是数学奥赛金牌水平

0
分享至

当 Gemini 和 Claude 接连炸场时,不少网友都在追问:DeepSeek 去哪儿了?现在,这条熟悉的「鲸鱼」终于回来了。

就在刚刚,DeepSeek 在 HuggingFace 发布并开源了拥有 685B 参数的全新数学推理模型 DeepSeekMath-V2。

据介绍,过去一年里,大型语言模型在数学推理领域突飞猛进,通过强化学习训练,这些模型在 AIME、HMMT 等数学竞赛中的表现从原本差强人意迅速提升到接近饱和的水平。

然而,这种进步背后隐藏着一个根本问题:现有方法只看答案对不对,不管推理过程是否严谨。正确答案不等于正确的推理过程,而数学证明恰恰需要严密的逻辑推导。

DeepSeek 团队的突破在于找到了一个新方向——让 AI 不仅会做题,还会检查自己的推理过程是否严谨。

具体做法是先训练一个「评判员」来找出证明过程中的问题,再让「答题者」根据这些反馈不断改进。模型会反复修改自己的证明,直到找不出毛病为止,而不是靠碰运气得出答案。

这种自我验证的能力意味着什么?

尽管目前还处于早期阶段,但如果这条路走通了,未来 AI 可能真的具备独立验证数学猜想、甚至推进开放问题研究的能力。

论文显示,DeepSeekMath-V2 基于 DeepSeek-V3.2-Exp-Base 开发,在 IMO 2025 和 CMO 2024 等国际数学奥林匹克竞赛中达到了金牌水平,也是创造历史地成为首个 IMO 金奖级别的开源模型;在美国普特南数学竞赛中也取得了 118 分的高分,满分为 120 分,而人类参赛者的最高分仅为 90 分。

该模型已根据 Apache 2.0 协议开源发布。

研究团队表示,这些成果表明让 AI 学会「自己检查自己」是一条可行的路径,有望推动数学 AI 系统的进一步发展。哪怕是在 AI 数学推理的竞赛中,DeepSeek 也用一个超越人类的成绩证明了自己依然在牌桌上。

附上相关阅读地址:

新模型地址:
https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
新模型技术论文:
https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf







特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为啥不能让父母参与自己生意?网友:让你妈别去了,省得生意变差

为啥不能让父母参与自己生意?网友:让你妈别去了,省得生意变差

解读热点事件
2026-03-31 00:05:08
为啥情侣容易怀孕,夫妻反导不孕不育,生殖科医生:真相有点扎心

为啥情侣容易怀孕,夫妻反导不孕不育,生殖科医生:真相有点扎心

菁妈育儿
2026-04-06 13:25:44
理发店陷入倒闭潮,不是没客人,也不是电商冲击,是被自己弄垮了

理发店陷入倒闭潮,不是没客人,也不是电商冲击,是被自己弄垮了

平说财经
2026-04-04 22:52:59
民政局最新提醒:户口分开不算一家人,这3种证明走遍全国都认

民政局最新提醒:户口分开不算一家人,这3种证明走遍全国都认

李博世财经
2026-04-05 17:20:59
买一赠一也清不掉库存,中国人的牛奶喝到“天花板”了吗?

买一赠一也清不掉库存,中国人的牛奶喝到“天花板”了吗?

临云史策
2026-04-06 12:05:24
脊柱断裂、前夫已死,62岁"亚洲天后"韦唯,现状曝光让人唏嘘不已

脊柱断裂、前夫已死,62岁"亚洲天后"韦唯,现状曝光让人唏嘘不已

丹妮观
2026-04-02 14:43:02
别再被催收吓住了!网贷逾期最可怕的后果,只有内行知道

别再被催收吓住了!网贷逾期最可怕的后果,只有内行知道

小虎新车推荐员
2026-04-06 18:55:43
赔光2亿后,冉莹颖独自搬家30箱未给邹市明留体面

赔光2亿后,冉莹颖独自搬家30箱未给邹市明留体面

春之韵
2026-03-18 09:32:52
内存市场为何迅速崩盘?实在是个人市场变化太快,美韩芯片失败了

内存市场为何迅速崩盘?实在是个人市场变化太快,美韩芯片失败了

柏铭锐谈
2026-04-05 11:28:40
43岁蒋欣澳门逛商场被偶遇,171大高个又瘦又美,比电视上好看

43岁蒋欣澳门逛商场被偶遇,171大高个又瘦又美,比电视上好看

韩小娱
2026-04-04 16:32:36
波黑球童承认偷走唐纳鲁马小抄:这都是为了波黑

波黑球童承认偷走唐纳鲁马小抄:这都是为了波黑

体坛周报
2026-04-06 10:41:36
哈兰德太低调!帽子戏法后就奖励自己吃个英国“餐饮界蜜雪冰城”

哈兰德太低调!帽子戏法后就奖励自己吃个英国“餐饮界蜜雪冰城”

茜子足球
2026-04-06 18:48:01
iPhone 17 Pro Max拍回1.2亿公里外的地球

iPhone 17 Pro Max拍回1.2亿公里外的地球

Ping值焦虑
2026-04-06 00:00:12
41岁女子有性瘾,每天要求37岁男友睡她,一年后男友受不了杀了她

41岁女子有性瘾,每天要求37岁男友睡她,一年后男友受不了杀了她

胖胖侃咖
2025-05-10 08:00:08
日韩股市率先上涨,A股清明节后要布局这些机会

日韩股市率先上涨,A股清明节后要布局这些机会

上观新闻
2026-04-06 22:20:07
伊朗有重大发现:美营救飞行员是假,真正目的是偷浓缩铀

伊朗有重大发现:美营救飞行员是假,真正目的是偷浓缩铀

观察者小海风
2026-04-06 22:46:19
美媒:2028年参选民主党人与2020年立场划清界限

美媒:2028年参选民主党人与2020年立场划清界限

透视到底
2026-04-06 10:47:15
1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

阿校谈史
2026-03-20 11:03:27
王思聪舅舅林友涉连杀两任妻子+雇凶杀害肢解邻居,为啥还能逍遥法外21年?

王思聪舅舅林友涉连杀两任妻子+雇凶杀害肢解邻居,为啥还能逍遥法外21年?

不二表姐
2026-03-30 23:30:07
51分6板3断!45分8板9助!弗拉格创神级纪录,最佳新秀又有悬念了

51分6板3断!45分8板9助!弗拉格创神级纪录,最佳新秀又有悬念了

世界体育圈
2026-04-06 17:22:39
2026-04-07 01:36:49
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6276文章数 26816关注度
往期回顾 全部

科技要闻

折叠屏iPhone要来了,富士康已在试产!

头条要闻

外媒:美国副总统万斯和伊朗外长等人彻夜交流

头条要闻

外媒:美国副总统万斯和伊朗外长等人彻夜交流

体育要闻

官方:中国女足球员邵子钦加盟本菲卡

娱乐要闻

唐嫣罗晋新加坡遛娃,6岁女儿身高抢镜

财经要闻

史诗级暴跌"一周年" A股接下来如何走?

汽车要闻

阿维塔06T快上市了 旅行车还能这么玩?

态度原创

手机
亲子
数码
旅游
公开课

手机要闻

OPPO Find X9s Pro真机现身,还有银色哈苏专业增距镜

亲子要闻

哪款儿童祛疤膏好用又不刺激?2026温和修护祛疤好物分析:舒缓疤痕不适

数码要闻

玄派玄机16 2026笔记本上架:锐龙AI Max+ 395,128GB + 2TB

旅游要闻

清明小长假收官 上海文旅接待游客超739万人次,踏春赏樱、游乐园成市民游客出行首选

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版