网易首页 > 网易号 > 正文 申请入驻

「DeepSeek二代」来袭!数学暴击o3,英伟达开源LLM登顶

0
分享至

  新智元报道

  编辑:KingHZ

  【新智元导读】基于Qwen2.5架构,采用DeepSeek-R1-0528生成数据,英伟达推出的OpenReasoning-Nemotron模型,以超强推理能力突破数学、科学、代码任务,在多个基准测试中创下新纪录!数学上,更是超越了o3!

  开源模型王座再次易主?

  昨天,英伟达开源了OpenReasoning-Nemotron:

  在多个基准测试中,同规模模型无敌,取得了SOTA得分

  专为数学、科学、代码定制

  提供四种参数规模:1.5B、7B、14B和32B,可在本地100%运行。

  不过,这些模型还是「国产血统」:

  架构基于Qwen2.5 ,SFT训练使用的是DeepSeek-R1-0528生成的数据。

  OpenReasoning-Nemotron是目前最强的蒸馏的推理模型。

  以后,推理模型也有了强基线模型。

  一张图总结要点:

  数学基准,超越o3

  这次在参数高达671B的满血DeepSeek-R1-0528蒸馏,在5M的数学、代码和科学推理轨迹上训练。

  这次的模型不仅仅进行token预测,还实现了真正的推理能力。

  核心贡献者、英伟达研究科学家Igor Gitman介绍了这次的亮点。

  与之前OpenMath/Code/Science发布时的提示集相同,这次只是更新了用于生成答案的R1模型,但改进幅度巨大!

  而作为「教师」模型,新的R1模型表现出色!

  而且这次没有进行任何在线强化学习,只进行了有监督微调(SFT)。

  未来应该可以通过进一步优化这些模型或使用更少的 token 获得相似性能。

  这些模型支持「重型」推理模式,可以「结合多个智能体的工作」。

  为此,他们这次使用了。

  使用GenSelect@64,在多个数学基准测试中超越了OpenAI o3(高算力版)。

  还有另一个令人惊讶的结果:这些模型只是针对数学问题训练了GenSelect算法,但它竟然也泛化到了代码任务上!

  32B模型的LCB得分从70.2(pass@1)提升到75.3(GenSelect@16)。

  需要注意的是,这里没有使用强化学习(RL),但仍然观察到从数学到代码的强大泛化能力!

  意外的现象

  首先澄清一点,这是一次「研究性质」模型发布,主要目标是验证生成的新数据的价值,并探索仅通过监督微调(SFT)能将性能推到何种程度。

  这次仅针对数学、代码和科学推理任务训练了模型,没有进行指令微调或强化学习人类反馈(RLHF)。

  虽然这些模型在解决推理任务时表现优异,但未经进一步训练,它们可能无法胜任多轮对话或作为通用助手。

  在一系列具有挑战性的推理基准测试中,模型表现出色。

  7B、14B和32B模型在各自规模类别下的创下了多项最先进纪录。

  现在,在开发这些模型时,还发现了两点有趣的事情。

  (1)参数规模影响巨大。

  1.5B模型,实际上并没有特别出色。例如,OpenMath-Nemotron-1.5B(我们之前的数学模型发布)在 AIME25 上得分为 49.5,而这个新模型得分为 45.6。

  但是,7B(或更大的模型)进步就非常显著。OpenMath-7B 模型的得分为 61.2,而 OpenReasoning-7B 的得分则达到了 78.2!

  因此,1.5B 模型的表现稍微下滑了,但 7B 模型在使用相同数据进行训练后提高了近 20%。

  研究人员猜测可能是因为在处理较长上下文生成时,1.5B模型可能不太一致。

  之前的数据集仅包含16K输出token,但这次扩展到了32K,而1.5B模型无法保持推理的一致性。

  (2)模型学会了两种不同的行为。

  在之前的 OpenMath 发布中,英伟达研究团队也使用了TIR数据来帮助模型学习使用Python。

  由于没有时间用新的R1重新生成这些数据,他们决定将一些旧的 TIR 数据混入当前的训练集中,看看会发生什么。

  他们原本期望:在训练过程中,模型仍然能够学习如何使用 Python,同时保留来自新 CoT 样本的更好推理。

  然而,事实并非如此——如果你使用TIR模式来评估OpenReasoning模型,你会发现它们与OpenMath模型基本相同,这比带有CoT的新模型要差得多。

  从某种角度来看,模型学会了两种不同的行为:一种是使用工具,但推理较差;另一种是不使用工具,但推理很强,两者之间没有有效的过渡。非常有趣的是,是否可以通过在TIR模式下应用在线强化学习(RL)来解决这个问题?

  本地笔记可跑

  如果笔记本电脑上运行,详细信息如下:

  模型链接:https://huggingface.co/nvidia/OpenReasoning-Nemotron-32B

  体验链接:https://huggingface.co/spaces/Tonic/Nvidia-OpenReasoning

  可以使用LM Studio免费运行它们:

  下载适用于macOS、Windows或Linux的LM Studio

  在搜索标签页,输入「openreasoning」

  安装你想要的版本

  如果使用ARM处理器,建议使用Bartowski的7B版本。

  只要骁龙 X Elite + 32GB RAM,就可以加载量化后的14B模型,并在CPU上运行。

  

  参考资料:

  https://x.com/NVIDIAAIDev/status/1946281437935567011

  https://huggingface.co/blog/nvidia/openreasoning-nemotron

  https://x.com/josephpollack/status/1946486918696313257

  https://x.com/igtmn/status/1946585046552658358

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
朝鲜为何突然禁播部分中国影视作品

朝鲜为何突然禁播部分中国影视作品

东方不败然多多
2026-03-26 05:21:44
张雪峰去世仅1天,办公室内景曝光,写真照被指像遗照,摆设奇怪

张雪峰去世仅1天,办公室内景曝光,写真照被指像遗照,摆设奇怪

180视角
2026-03-26 08:43:01
正脸曝光!强闯我使馆的村田晃大3月15日刚晋升,所持刀具刃长约18厘米

正脸曝光!强闯我使馆的村田晃大3月15日刚晋升,所持刀具刃长约18厘米

中国网
2026-03-26 14:01:45
森林狼逆火箭:申京努力了,然而杜兰特啊

森林狼逆火箭:申京努力了,然而杜兰特啊

张佳玮写字的地方
2026-03-26 13:03:18
一口气刷完全集,Netflix新剧又杀疯了

一口气刷完全集,Netflix新剧又杀疯了

来看美剧
2026-03-26 19:45:54
长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

红星新闻
2026-03-26 11:28:05
伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

老马拉车莫少装
2026-03-26 00:02:39
伊朗伊斯兰革命卫队责令一艘擅自通过霍尔木兹海峡船只返航

伊朗伊斯兰革命卫队责令一艘擅自通过霍尔木兹海峡船只返航

财联社
2026-03-25 02:02:18
航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

小鹿姐姐情感说
2026-03-26 02:23:54
李幼平同志逝世

李幼平同志逝世

澎湃新闻
2026-03-26 18:05:03
中国最丑18大建筑:南京卫生巾、昆山螃蟹,不忍直视!

中国最丑18大建筑:南京卫生巾、昆山螃蟹,不忍直视!

秘密即将揭晓
2026-03-25 16:56:26
追悼会前,张雪峰婚姻状况被扒,现任身份不一般,恐影响遗产分配

追悼会前,张雪峰婚姻状况被扒,现任身份不一般,恐影响遗产分配

喜欢历史的阿繁
2026-03-26 14:40:54
家长违停孩子开门杀撞人后逃逸?交警回应

家长违停孩子开门杀撞人后逃逸?交警回应

中国新闻周刊
2026-03-26 14:46:51
伊朗重要人事任命,释放强烈信号!

伊朗重要人事任命,释放强烈信号!

斐君观点
2026-03-25 21:08:16
很多被奉为经典的古文,很难说有多少教育意义

很多被奉为经典的古文,很难说有多少教育意义

小院之观
2026-03-24 08:30:13
BBC采访爆出大瓜!特朗普开出停战价码:海湾国家需支付2.5万亿美元

BBC采访爆出大瓜!特朗普开出停战价码:海湾国家需支付2.5万亿美元

星辰大海路上的种花家
2026-03-25 13:08:50
沙特实战封神!中国“天盾”21发全中,15亿美制系统竟惨遭反杀

沙特实战封神!中国“天盾”21发全中,15亿美制系统竟惨遭反杀

素衣读史
2026-03-25 21:26:46
约基奇23+21+19创纪录!掘金险胜独行侠 穆雷53+9三分赛季新高

约基奇23+21+19创纪录!掘金险胜独行侠 穆雷53+9三分赛季新高

醉卧浮生
2026-03-26 12:35:12
小伙领证5小时后失踪,新婚妻子继承全部遗产,真相让人不寒而栗

小伙领证5小时后失踪,新婚妻子继承全部遗产,真相让人不寒而栗

碎碎纪实
2026-03-26 11:07:33
内贾德逝世:铁匠儿子,反美“斗士”,“平民总统”,开破车,住旧房

内贾德逝世:铁匠儿子,反美“斗士”,“平民总统”,开破车,住旧房

新浪财经
2026-03-02 23:37:11
2026-03-26 22:23:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
游戏
旅游
健康
数码

教育要闻

江苏省教育厅公布全省中小学生竞赛活动名单

开冲!PS会员4月离库名单公布:独立神作进入倒计时

旅游要闻

别再人挤人,泰州的这条老街,传承1200年!

转头就晕的耳石症,能开车上班吗?

数码要闻

iQOO Z11x发布:LCD党的护眼神机 1499元起

无障碍浏览 进入关怀版