网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

「DeepSeek二代」来袭！数学暴击o3，英伟达开源LLM登顶

2025-07-20 18:21:04　来源: 新智元

北京举报

0

分享至

　　新智元报道

　　编辑：KingHZ

　　【新智元导读】基于Qwen2.5架构，采用DeepSeek-R1-0528生成数据，英伟达推出的OpenReasoning-Nemotron模型，以超强推理能力突破数学、科学、代码任务，在多个基准测试中创下新纪录！数学上，更是超越了o3!

　　开源模型王座再次易主？

　　昨天，英伟达开源了OpenReasoning-Nemotron：

　　在多个基准测试中，同规模模型无敌，取得了SOTA得分

　　专为数学、科学、代码定制

　　提供四种参数规模：1.5B、7B、14B和32B，可在本地100%运行。

　　不过，这些模型还是「国产血统」：

　　架构基于Qwen2.5 ，SFT训练使用的是DeepSeek-R1-0528生成的数据。

　　OpenReasoning-Nemotron是目前最强的蒸馏的推理模型。

　　以后，推理模型也有了强基线模型。

　　一张图总结要点：

　　数学基准，超越o3

　　这次在参数高达671B的满血DeepSeek-R1-0528蒸馏，在5M的数学、代码和科学推理轨迹上训练。

　　这次的模型不仅仅进行token预测，还实现了真正的推理能力。

　　核心贡献者、英伟达研究科学家Igor Gitman介绍了这次的亮点。

　　与之前OpenMath/Code/Science发布时的提示集相同，这次只是更新了用于生成答案的R1模型，但改进幅度巨大！

　　而作为「教师」模型，新的R1模型表现出色！

　　而且这次没有进行任何在线强化学习，只进行了有监督微调（SFT）。

　　未来应该可以通过进一步优化这些模型或使用更少的 token 获得相似性能。

　　这些模型支持「重型」推理模式，可以「结合多个智能体的工作」。

　　为此，他们这次使用了。

　　使用GenSelect@64，在多个数学基准测试中超越了OpenAI o3（高算力版）。

　　还有另一个令人惊讶的结果：这些模型只是针对数学问题训练了GenSelect算法，但它竟然也泛化到了代码任务上！

　　32B模型的LCB得分从70.2（pass@1）提升到75.3（GenSelect@16）。

　　需要注意的是，这里没有使用强化学习（RL），但仍然观察到从数学到代码的强大泛化能力！

　　意外的现象

　　首先澄清一点，这是一次「研究性质」模型发布，主要目标是验证生成的新数据的价值，并探索仅通过监督微调（SFT）能将性能推到何种程度。

　　这次仅针对数学、代码和科学推理任务训练了模型，没有进行指令微调或强化学习人类反馈（RLHF）。

　　虽然这些模型在解决推理任务时表现优异，但未经进一步训练，它们可能无法胜任多轮对话或作为通用助手。

　　在一系列具有挑战性的推理基准测试中，模型表现出色。

　　7B、14B和32B模型在各自规模类别下的创下了多项最先进纪录。

　　现在，在开发这些模型时,还发现了两点有趣的事情。

　　（1）参数规模影响巨大。

　　1.5B模型，实际上并没有特别出色。例如，OpenMath-Nemotron-1.5B（我们之前的数学模型发布）在 AIME25 上得分为 49.5，而这个新模型得分为 45.6。

　　但是，7B（或更大的模型）进步就非常显著。OpenMath-7B 模型的得分为 61.2，而 OpenReasoning-7B 的得分则达到了 78.2！

　　因此，1.5B 模型的表现稍微下滑了，但 7B 模型在使用相同数据进行训练后提高了近 20%。

　　研究人员猜测可能是因为在处理较长上下文生成时，1.5B模型可能不太一致。

　　之前的数据集仅包含16K输出token，但这次扩展到了32K，而1.5B模型无法保持推理的一致性。

　　（2）模型学会了两种不同的行为。

　　在之前的 OpenMath 发布中，英伟达研究团队也使用了TIR数据来帮助模型学习使用Python。

　　由于没有时间用新的R1重新生成这些数据，他们决定将一些旧的 TIR 数据混入当前的训练集中，看看会发生什么。

　　他们原本期望：在训练过程中，模型仍然能够学习如何使用 Python，同时保留来自新 CoT 样本的更好推理。

　　然而，事实并非如此——如果你使用TIR模式来评估OpenReasoning模型，你会发现它们与OpenMath模型基本相同，这比带有CoT的新模型要差得多。

　　从某种角度来看，模型学会了两种不同的行为：一种是使用工具，但推理较差；另一种是不使用工具，但推理很强，两者之间没有有效的过渡。非常有趣的是，是否可以通过在TIR模式下应用在线强化学习（RL）来解决这个问题？

　　本地笔记可跑

　　如果笔记本电脑上运行，详细信息如下：

　　模型链接：https://huggingface.co/nvidia/OpenReasoning-Nemotron-32B

　　体验链接：https://huggingface.co/spaces/Tonic/Nvidia-OpenReasoning

　　可以使用LM Studio免费运行它们：

　　下载适用于macOS、Windows或Linux的LM Studio

　　在搜索标签页，输入「openreasoning」

　　安装你想要的版本

　　如果使用ARM处理器，建议使用Bartowski的7B版本。

　　只要骁龙 X Elite + 32GB RAM，就可以加载量化后的14B模型，并在CPU上运行。

　　

　　参考资料：

　　https://x.com/NVIDIAAIDev/status/1946281437935567011

　　https://huggingface.co/blog/nvidia/openreasoning-nemotron

　　https://x.com/josephpollack/status/1946486918696313257

　　https://x.com/igtmn/status/1946585046552658358

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

英伟达23人梦之队，让AI用7天干翻了自己的GPU专家

钛媒体APP 2026-03-26 17:44:44
0 跟贴 0
一篇论文引发存储芯片股暴跌，Google 的「DeepSeek 时刻」来了？

爱范儿 2026-03-26 13:50:20
0 跟贴 0

OpenAI重磅揭秘：你认为的AI幻觉，可能是模型故意出错

新智元 2026-03-25 08:36:09
50 跟贴 50

养虾省91%词元！这家AI记忆公司用1亿个多模态文件验证了！

机器之心Pro 2026-03-25 11:01:48
2 跟贴 2
AI写CUDA算子国产芯片不行？上交方法直线拉升，DeepSeek也适用

机器之心Pro 2026-03-26 15:59:24
0 跟贴 0

量化巨头们的AI大模型“野望”

华尔街见闻官方 2026-03-13 00:24:33
0 跟贴 0

在线等：如何优雅地分走鹅厂这600+万？

量子位 2026-03-26 16:24:03
0 跟贴 0
PixelRefer ：让AI从“看大图”走向“看懂每个对象”

机器之心Pro 2025-11-11 12:49:23
0 跟贴 0

你刷到的视频是真的么？用物理规律拆穿Sora谎言

机器之心Pro 2025-11-05 16:27:02
0 跟贴 0
陶哲轩：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟贴 0
人活着的唯一理由是善良

叶檀财经 2026-02-01 17:07:04
0 跟贴 0
MIT研究生用NotebookLM两天学完一学期课程

量子位 2026-03-22 10:50:49
0 跟贴 0
行业最大规模具身数据集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟贴 0
北京人形发布开源开放生态计划，打造具身智能生态标杆

智东西 2026-03-26 20:57:04
0 跟贴 0
行业最大规模具身数据集！出自简智机器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟贴 0
五八智能四足机器人平台Q20A，适用于千行百业

量子位 2025-09-30 15:35:41
0 跟贴 0
荒野求生（机器狗全自主版），2025ATEC挑战真实户外无遥操

量子位 2025-12-08 19:24:34
0 跟贴 0
清华联手千问重塑归一化范式，让 Transformer 回归「深度」学习

机器之心Pro 2026-02-10 18:50:12
0 跟贴 0
如何点亮小龙虾的牛马技能包?

量子位 2026-03-18 12:51:26
0 跟贴 0
华为、商汤等873家机构遭AI顶会“封杀”，中国学界怒了

智东西 2026-03-26 20:49:23
15 跟贴 15
大模型的下半场，属于拥有云+AI全栈引擎的玩家

量子位 2026-01-30 03:29:45
0 跟贴 0
高通万卫星谈终端大模型优势：个性化与数据推理

量子位 2025-12-11 03:38:41
0 跟贴 0
陶哲轩：AI看似在推理，其实是在背答案

量子位 2026-01-05 09:20:21
0 跟贴 0
机器人管家Figure 03来了，承包一切家务！

量子位 2025-10-11 10:13:00
0 跟贴 0
中国创造一门新编程语言的黄金时代来了？

虎嗅APP 2025-12-23 03:54:05
38 跟贴 38
52天75次发布，A司这场“产品大爆炸”太猛烈了

钛媒体APP 2026-03-26 19:50:22
0 跟贴 0
Harness发威！Claude被榨干的秘诀公开了

智东西 2026-03-26 20:57:04
0 跟贴 0
不造一颗芯片的Arm如何统治了世界？

DeepTech深科技 2026-01-05 16:58:33
81 跟贴 81
人人眼中的学渣，竟是数学天才，获奖无数

飞鸟潜影 2026-03-26 11:05:26
1 跟贴 1
战争!大佬建议搞垮英伟达DLSS5:玩家开发者团结起来

游民星空 2026-03-26 18:12:11
1 跟贴 1
让LLM不再话痨，快手HiPO框架来了

机器之心Pro 2025-11-03 15:10:48
0 跟贴 0
81倍市盈率的ARM豪赌AI芯片：华尔街已将"完美执行"定价入内，容错空间几乎为零

华尔街见闻官方 2026-03-26 21:11:29
0 跟贴 0
黄仁勋全世界穿皮衣，唯独在中国换上了大花袄

雷科技 2026-01-27 17:19:30
17 跟贴 17
一天蒸发6200亿！谷歌算法黑科技击溃存储股，华尔街痛批市场“不懂技术”

每日经济新闻 2026-03-26 19:00:13
0 跟贴 0
名校小升初必考的经济问题，小升初数学易错题，奥数老师陈延忠

陈老师讲小学奥数 2026-03-26 13:11:21
3 跟贴 3
四年级数学，全班全军覆没

郎老师趣味数学课堂 2026-03-24 10:37:44
0 跟贴 0
小学数学求阴影部分面积

天天数理学习分享 2026-03-25 16:37:11
4 跟贴 4
1806新升三年级：做这样的题目写出算式是关键，读懂算式是重点

我服子佩 2026-03-25 11:45:37
1 跟贴 1
男孩国外大车遇到趣事，简单的数学被司机搞复杂，很不可思议！

松鼠的搞笑日记 2026-03-22 10:57:26
15 跟贴 15
三年级数学附加题两个水桶取水

天天数理学习分享 2026-03-23 17:14:24
4 跟贴 4

朝鲜为何突然禁播部分中国影视作品

朝鲜为何突然禁播部分中国影视作品

东方不败然多多

2026-03-26 05:21:44

张雪峰去世仅1天，办公室内景曝光，写真照被指像遗照，摆设奇怪

张雪峰去世仅1天，办公室内景曝光，写真照被指像遗照，摆设奇怪

180视角

2026-03-26 08:43:01

正脸曝光！强闯我使馆的村田晃大3月15日刚晋升，所持刀具刃长约18厘米

正脸曝光！强闯我使馆的村田晃大3月15日刚晋升，所持刀具刃长约18厘米

中国网

2026-03-26 14:01:45

森林狼逆火箭：申京努力了，然而杜兰特啊

森林狼逆火箭：申京努力了，然而杜兰特啊

张佳玮写字的地方

2026-03-26 13:03:18

一口气刷完全集，Netflix新剧又杀疯了

一口气刷完全集，Netflix新剧又杀疯了

来看美剧

2026-03-26 19:45:54

长护险制度全面推开！国家医保局：参保人无论来自农村还是城市，从同一个资金池报销费用

长护险制度全面推开！国家医保局：参保人无论来自农村还是城市，从同一个资金池报销费用

红星新闻

2026-03-26 11:28:05

伊朗两名高级将领殒命，巴盖里家族再添亡魂，强硬派折损惨重

伊朗两名高级将领殒命，巴盖里家族再添亡魂，强硬派折损惨重

老马拉车莫少装

2026-03-26 00:02:39

伊朗伊斯兰革命卫队责令一艘擅自通过霍尔木兹海峡船只返航

伊朗伊斯兰革命卫队责令一艘擅自通过霍尔木兹海峡船只返航

财联社

2026-03-25 02:02:18

航天少帅谭瑞松被判死缓不执行死刑和终身监禁

航天少帅谭瑞松被判死缓不执行死刑和终身监禁

小鹿姐姐情感说

2026-03-26 02:23:54

李幼平同志逝世

澎湃新闻

2026-03-26 18:05:03

中国最丑18大建筑：南京卫生巾、昆山螃蟹，不忍直视！

中国最丑18大建筑：南京卫生巾、昆山螃蟹，不忍直视！

秘密即将揭晓

2026-03-25 16:56:26

追悼会前，张雪峰婚姻状况被扒，现任身份不一般，恐影响遗产分配

追悼会前，张雪峰婚姻状况被扒，现任身份不一般，恐影响遗产分配

喜欢历史的阿繁

2026-03-26 14:40:54

家长违停孩子开门杀撞人后逃逸？交警回应

家长违停孩子开门杀撞人后逃逸？交警回应

中国新闻周刊

2026-03-26 14:46:51

伊朗重要人事任命，释放强烈信号！

伊朗重要人事任命，释放强烈信号！

斐君观点

2026-03-25 21:08:16

很多被奉为经典的古文，很难说有多少教育意义

很多被奉为经典的古文，很难说有多少教育意义

小院之观

2026-03-24 08:30:13

BBC采访爆出大瓜!特朗普开出停战价码:海湾国家需支付2.5万亿美元

BBC采访爆出大瓜!特朗普开出停战价码:海湾国家需支付2.5万亿美元

星辰大海路上的种花家

2026-03-25 13:08:50

沙特实战封神！中国“天盾”21发全中，15亿美制系统竟惨遭反杀

沙特实战封神！中国“天盾”21发全中，15亿美制系统竟惨遭反杀

素衣读史

2026-03-25 21:26:46

约基奇23+21+19创纪录！掘金险胜独行侠穆雷53+9三分赛季新高

约基奇23+21+19创纪录！掘金险胜独行侠穆雷53+9三分赛季新高

醉卧浮生

2026-03-26 12:35:12

小伙领证5小时后失踪，新婚妻子继承全部遗产，真相让人不寒而栗

小伙领证5小时后失踪，新婚妻子继承全部遗产，真相让人不寒而栗

碎碎纪实

2026-03-26 11:07:33

内贾德逝世：铁匠儿子，反美“斗士”，“平民总统”，开破车，住旧房

内贾德逝世：铁匠儿子，反美“斗士”，“平民总统”，开破车，住旧房

新浪财经

2026-03-02 23:37:11

AI产业主平台领航智能+时代

14821文章数 66721关注度

往期回顾全部

科技要闻

Meta高管狂分百亿期权，700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程外交部回应

头条要闻

美国总统特朗普公开宣布访华行程外交部回应

体育要闻

申京努力了，然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声！称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普？一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

游戏

旅游

健康

数码

教育要闻

江苏省教育厅公布全省中小学生竞赛活动名单

开冲！PS会员4月离库名单公布：独立神作进入倒计时

旅游要闻

别再人挤人，泰州的这条老街，传承1200年！

转头就晕的耳石症，能开车上班吗？

数码要闻

iQOO Z11x发布：LCD党的护眼神机 1499元起

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版