网易首页 > 网易号 > 正文 申请入驻

「DeepSeek二代」来袭!数学暴击o3,英伟达开源LLM登顶

0
分享至

  新智元报道

  编辑:KingHZ

  【新智元导读】基于Qwen2.5架构,采用DeepSeek-R1-0528生成数据,英伟达推出的OpenReasoning-Nemotron模型,以超强推理能力突破数学、科学、代码任务,在多个基准测试中创下新纪录!数学上,更是超越了o3!

  开源模型王座再次易主?

  昨天,英伟达开源了OpenReasoning-Nemotron:

  在多个基准测试中,同规模模型无敌,取得了SOTA得分

  专为数学、科学、代码定制

  提供四种参数规模:1.5B、7B、14B和32B,可在本地100%运行。

  不过,这些模型还是「国产血统」:

  架构基于Qwen2.5 ,SFT训练使用的是DeepSeek-R1-0528生成的数据。

  OpenReasoning-Nemotron是目前最强的蒸馏的推理模型。

  以后,推理模型也有了强基线模型。

  一张图总结要点:

  数学基准,超越o3

  这次在参数高达671B的满血DeepSeek-R1-0528蒸馏,在5M的数学、代码和科学推理轨迹上训练。

  这次的模型不仅仅进行token预测,还实现了真正的推理能力。

  核心贡献者、英伟达研究科学家Igor Gitman介绍了这次的亮点。

  与之前OpenMath/Code/Science发布时的提示集相同,这次只是更新了用于生成答案的R1模型,但改进幅度巨大!

  而作为「教师」模型,新的R1模型表现出色!

  而且这次没有进行任何在线强化学习,只进行了有监督微调(SFT)。

  未来应该可以通过进一步优化这些模型或使用更少的 token 获得相似性能。

  这些模型支持「重型」推理模式,可以「结合多个智能体的工作」。

  为此,他们这次使用了。

  使用GenSelect@64,在多个数学基准测试中超越了OpenAI o3(高算力版)。

  还有另一个令人惊讶的结果:这些模型只是针对数学问题训练了GenSelect算法,但它竟然也泛化到了代码任务上!

  32B模型的LCB得分从70.2(pass@1)提升到75.3(GenSelect@16)。

  需要注意的是,这里没有使用强化学习(RL),但仍然观察到从数学到代码的强大泛化能力!

  意外的现象

  首先澄清一点,这是一次「研究性质」模型发布,主要目标是验证生成的新数据的价值,并探索仅通过监督微调(SFT)能将性能推到何种程度。

  这次仅针对数学、代码和科学推理任务训练了模型,没有进行指令微调或强化学习人类反馈(RLHF)。

  虽然这些模型在解决推理任务时表现优异,但未经进一步训练,它们可能无法胜任多轮对话或作为通用助手。

  在一系列具有挑战性的推理基准测试中,模型表现出色。

  7B、14B和32B模型在各自规模类别下的创下了多项最先进纪录。

  现在,在开发这些模型时,还发现了两点有趣的事情。

  (1)参数规模影响巨大。

  1.5B模型,实际上并没有特别出色。例如,OpenMath-Nemotron-1.5B(我们之前的数学模型发布)在 AIME25 上得分为 49.5,而这个新模型得分为 45.6。

  但是,7B(或更大的模型)进步就非常显著。OpenMath-7B 模型的得分为 61.2,而 OpenReasoning-7B 的得分则达到了 78.2!

  因此,1.5B 模型的表现稍微下滑了,但 7B 模型在使用相同数据进行训练后提高了近 20%。

  研究人员猜测可能是因为在处理较长上下文生成时,1.5B模型可能不太一致。

  之前的数据集仅包含16K输出token,但这次扩展到了32K,而1.5B模型无法保持推理的一致性。

  (2)模型学会了两种不同的行为。

  在之前的 OpenMath 发布中,英伟达研究团队也使用了TIR数据来帮助模型学习使用Python。

  由于没有时间用新的R1重新生成这些数据,他们决定将一些旧的 TIR 数据混入当前的训练集中,看看会发生什么。

  他们原本期望:在训练过程中,模型仍然能够学习如何使用 Python,同时保留来自新 CoT 样本的更好推理。

  然而,事实并非如此——如果你使用TIR模式来评估OpenReasoning模型,你会发现它们与OpenMath模型基本相同,这比带有CoT的新模型要差得多。

  从某种角度来看,模型学会了两种不同的行为:一种是使用工具,但推理较差;另一种是不使用工具,但推理很强,两者之间没有有效的过渡。非常有趣的是,是否可以通过在TIR模式下应用在线强化学习(RL)来解决这个问题?

  本地笔记可跑

  如果笔记本电脑上运行,详细信息如下:

  模型链接:https://huggingface.co/nvidia/OpenReasoning-Nemotron-32B

  体验链接:https://huggingface.co/spaces/Tonic/Nvidia-OpenReasoning

  可以使用LM Studio免费运行它们:

  下载适用于macOS、Windows或Linux的LM Studio

  在搜索标签页,输入「openreasoning」

  安装你想要的版本

  如果使用ARM处理器,建议使用Bartowski的7B版本。

  只要骁龙 X Elite + 32GB RAM,就可以加载量化后的14B模型,并在CPU上运行。

  

  参考资料:

  https://x.com/NVIDIAAIDev/status/1946281437935567011

  https://huggingface.co/blog/nvidia/openreasoning-nemotron

  https://x.com/josephpollack/status/1946486918696313257

  https://x.com/igtmn/status/1946585046552658358

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
尴尬!语文11.5分、数学9.5分的成绩发布,家长回复“老师辛苦”

尴尬!语文11.5分、数学9.5分的成绩发布,家长回复“老师辛苦”

火山诗话
2026-01-30 07:37:39
捡漏二手物品简直太香了!网友分享一个比一个羡慕,冒青烟了

捡漏二手物品简直太香了!网友分享一个比一个羡慕,冒青烟了

夜深爱杂谈
2026-01-30 18:07:30
陪玩陪睡仅冰山一角, 女星睡衣诱惑, 人体盛宴, 网红得脏病 离谱

陪玩陪睡仅冰山一角, 女星睡衣诱惑, 人体盛宴, 网红得脏病 离谱

小熊侃史
2026-01-30 12:44:27
天津解放后罗荣桓来44军,一见到邓华就批评:没一点体统,为何?

天津解放后罗荣桓来44军,一见到邓华就批评:没一点体统,为何?

历史甄有趣
2026-02-01 18:50:04
140亿卖身美国!中国养大的AI白眼狼,被商务部一招摁死!

140亿卖身美国!中国养大的AI白眼狼,被商务部一招摁死!

快乐彼岸
2026-01-24 17:57:59
莱巴金娜夺冠打脸WTA:有多少人打着为你好的名义行不义之举?

莱巴金娜夺冠打脸WTA:有多少人打着为你好的名义行不义之举?

网球之家
2026-02-01 10:49:14
56岁教授吃叶酸+维生素B12和B6,3年后复查,身体情况了?

56岁教授吃叶酸+维生素B12和B6,3年后复查,身体情况了?

岐黄传人孙大夫
2026-02-01 13:45:03
一男子血糖从14.9降到4.8,医生解释:他的7个习惯值得我们学习

一男子血糖从14.9降到4.8,医生解释:他的7个习惯值得我们学习

荆医生科普
2026-02-01 18:57:32
亚马尔19岁前五大联赛打入23球,追平姆巴佩保持的本世纪纪录

亚马尔19岁前五大联赛打入23球,追平姆巴佩保持的本世纪纪录

懂球帝
2026-02-01 04:33:13
2026款宝马5系配置曝光!网友:奥迪A6L和奔驰E级有压力了

2026款宝马5系配置曝光!网友:奥迪A6L和奔驰E级有压力了

汽车网评
2026-01-31 21:07:57
李湘暴雷,被英国相关部门调查,如果洗钱罪名坐实,下场会很惨

李湘暴雷,被英国相关部门调查,如果洗钱罪名坐实,下场会很惨

大双
2026-01-27 09:43:03
大事不妙!骑士国王公牛3方交易达成,湖人梦碎,两位意中人没了

大事不妙!骑士国王公牛3方交易达成,湖人梦碎,两位意中人没了

弄月公子
2026-02-01 18:03:26
深夜突发,7个可控核聚变业绩暴降,9股亏损,只有6股大幅增长

深夜突发,7个可控核聚变业绩暴降,9股亏损,只有6股大幅增长

鹏哥投研
2026-02-01 11:12:20
爆雷的私处“高潮针”,掏空2亿少妇!

爆雷的私处“高潮针”,掏空2亿少妇!

广告创意
2025-08-21 17:30:28
岳父做客女婿家,提起埋在家乡一烈士名字,女婿道:那是我爷爷!

岳父做客女婿家,提起埋在家乡一烈士名字,女婿道:那是我爷爷!

兴趣知识
2026-02-01 08:57:04
人过七十,还有这五种“欲望”,恭喜你,还很年轻!

人过七十,还有这五种“欲望”,恭喜你,还很年轻!

萧狡科普解说
2026-01-31 17:23:41
终结质疑!艾顿28+13统治内线,正负值+30打爆奇才

终结质疑!艾顿28+13统治内线,正负值+30打爆奇才

大眼瞄世界
2026-01-31 23:22:09
老挝放弃中国提案,效仿韩国抄袭三峡大坝技术,大坝溃决后中国持何态度?

老挝放弃中国提案,效仿韩国抄袭三峡大坝技术,大坝溃决后中国持何态度?

史海孤雁
2026-01-30 16:20:15
美国也没想到,转为中国籍仅6年,谷爱凌竟已成美国头号劲敌

美国也没想到,转为中国籍仅6年,谷爱凌竟已成美国头号劲敌

削桐作琴
2026-01-29 12:23:48
2月4日立春,今年立春不一般,5个生肖要躲春,别忘:吃3样忌3事

2月4日立春,今年立春不一般,5个生肖要躲春,别忘:吃3样忌3事

小茉莉美食记
2026-01-30 07:27:46
2026-02-01 19:51:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14457文章数 66558关注度
往期回顾 全部

科技要闻

腾讯元宝宣布:10亿现金红包,今日开抢

头条要闻

2.5吨白银建造的地标被拍卖 其中1.75吨银折算1204万

头条要闻

2.5吨白银建造的地标被拍卖 其中1.75吨银折算1204万

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

家居
游戏
旅游
教育
军事航空

家居要闻

蓝调空舍 自由与个性

细节直逼《GTA6》!《三男一狗》超大mod重塑洛圣都

旅游要闻

一起来 上冰雪〡解锁雪中露营新体验

教育要闻

批评高中语文,不教逻辑,压根没批到点上

军事要闻

伊朗民众:伊朗不会屈服于美国霸权

无障碍浏览 进入关怀版