网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

直逼DeepSeek-R1-32B，碾压李飞飞s1！UC伯克利等开源全新SOTA推理模型

2025-02-13 16:14:33　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：编辑部 HNYZ

【新智元导读】近日，斯坦福、UC伯克利等多机构联手发布了开源推理新SOTA——OpenThinker-32B，性能直逼DeepSeek-R1-32B。其成功秘诀在于数据规模化、严格验证和模型扩展。

32B推理模型，仅用1/8数据，与同尺寸DeepSeek-R1打成平手！

就在刚刚，来自斯坦福、UC伯克利、华盛顿大学等机构联手发布了一款SOTA级推理模型——OpenThinker-32B，并同时开源了高达114k的训练数据。

项目主页：https://www.open-thoughts.ai/blog/scale

Hugging Face：https://huggingface.co/open-thoughts/OpenThinker-32B

数据集：https://huggingface.co/datasets/open-thoughts/OpenThoughts-114k

团队发现：采用经DeepSeek-R1验证标注（基于R1蒸馏）的大规模优质数据集，便可训练出SOTA的推理模型。

具体方法，就是通过数据规模化、推理过程验证以及模型规模扩展。

由此得到的OpenThinker-32B，在数学、代码和科学等多个基准测试中，OpenThinker-32B性能直接碾压了李飞飞团队s1和s1.1模型，直逼R1-Distill-32B。

值得一提的是，相比于使用了800k数据（包含600k个推理样本）的R1-Distill，OpenThinker-32B仅用了114k数据，就能拿下几乎同等的优异成绩。

结果均通过开源评估框架Evalchemy计算得出

除此之外，OpenThinker-32还把模型权重、数据集、数据生成代码、训练代码上，全部都给公开了！

数据策展

研究人员使用了与之前训练OpenThinker-7B模型相同的OpenThoughts-114k数据集来训练OpenThinker-32B。

他们利用DeepSeek-R1模型，收集了精心挑选的17.3万个问题的推理过程和解答尝试。然后将这些原始数据作为OpenThoughts-Unverfied-173k数据集公开发布。

整个流程的最后一步是，如果推理过程未能通过验证，就过滤掉相应的数据样本。

下图可视化地展示了整个过程。

研究团队首先输入源数据或问题提示，这些内容可以来自不同的领域和平台，如BAAI/TACO、DeepMind、Python提交等，涉及代码、谜题、科学和数学等多个方面。

接着这些多元的输入会进入核心的处理模块——DeepSeek-R1，在这里对数据进行分析与处理。这些问题会被分成三个方面，分别是：科学类问题、数学与谜题和代码。

有些结果不需要验证，可能是简单的分析或直接输出。对于一些需要深入验证的内容，利用大语言模型（LLM）采用与GT（Ground Truth）对比的方式进行评判。如果是代码，执行代码并进行单元测试，确保代码的正确性和有效性。

最后能将不同方向的结果结合起来，生成开放的思考和更为综合的解决方案。

研究团队更新了最终的OpenThoughts-114k数据集，加入了一个名为「metadata」的配置，其中包含了一些用于数据集构建的额外列：

problem
ground_truth_solution
test_cases (code only)
starter_code (code only)
DeepSeek_reasoning
DeepSeek_solution
domain
source

这些额外的元数据将使得这个数据集更容易用于新的场景，例如数据过滤、领域切换、验证检查以及更改推理过程的模板。

这些额外的元数据将得使该数据集使用起来更加容易，仅需一行代码就能完成例如过滤、更换领域、检查验证和更改推理跟踪模板等。

load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="train")

研究团队表示，他们期待看到社区利用这些问题和标准答案，在OpenThinker模型上进行强化学习（RL）的研究。DeepScaleR已经证明，规模较小时，这种方法效果特别好。

验证

为了得到最终的OpenThoughts-114k数据集，研究团队对答案进行了验证，并剔除了不正确的回答。

如下表所示，保留那些未通过验证的推理过程可能会损害性能，尽管未经验证的模型与其他32B推理模型相比仍然表现良好。

验证的作用在于，在扩大训练提示集的多样性和规模的同时，保持R1注释的质量。另一方面，未经验证的数据可以更容易地扩展，因此也值得进一步探索。

对于代码问题，我们通过对照已有的测试用例来验证解答尝试，从而完成推理过程的验证。

受到代码执行过程中所面临挑战的启发，我们在Curator中实现了一个代码执行框架，使用户能够大规模、安全地执行代码，并对照预期输出进行验证。

对于数学问题，研究团队使用一个LLM（大语言模型）评判器来进行验证，它会同时接收标准答案和DeepSeek-R1的解答尝试。

结果发现，在数据生成过程中，使用LLM评判器而不是更严格的解析引擎（Math-Verify）进行验证，可以获得更高的有效数据率，并能训练出性能更好的下游模型。

训练

研究团队使用LLaMa-Factory对Qwen2.5-32B-Instruct在OpenThoughts-114k数据集上进行了三轮微调，上下文长度为16k。完整训练配置可在GitHub中找到。

OpenThinker-32B在AWS SageMaker集群上使用四个8xH100 P5节点训练了90小时，累计使用了2,880个H100小时。

同时，OpenThinker-32B-Unverified在Leonardo超级计算机上使用96个4xA100节点（每个GPU64GB）训练了30小时，累计使用了11,520个A100小时。

评估

研究团队使用开源评估库Evalchemy（炼金术）对所有模型进行评估。

对于AIME24和AIME25，他们通过平均五次运行的结果来计算准确率。评估配置使用0.7的温度参数，将模型响应限制在32,768个token以内，不添加任何额外的系统或用户提示词，也不使用任何特殊的解码策略（如预算强制）。

当启动OpenThoughts项目时，他们设定了一个目标，即创建一个性能可以达到DeepSeek-R1-Distill-Qwen-32B的开放数据模型。

现在这个差距已经几乎消除。

最后，研究团队为社区在过去几周在构建开放数据推理模型方面取得的快速进展感到振奋，并期待基于彼此的洞见继续向前发展。

OpenThinker-32B的开源，证明了数据、验证和模型规模的协同作用是提升推理能力的关键。

这一成果不仅推动了开源推理模型的发展，也为整个AI社区提供了宝贵的资源和启示。

参考资料：

https://x.com/NeginRaoof_/status/1889739171826377008

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

李飞飞再谈世界模型：AGI是营销术语，空间智能才是AI缺失的能力

DeepTech深科技 2025-11-17 18:19:46
3 跟贴 3
李飞飞一年前究竟说了啥？怎么又火了

量子位 2025-09-11 14:27:04
2 跟贴 2

李飞飞发起机器人家务挑战赛，老黄第一时间批钱赞助

量子位 2025-10-13 09:30:54
0 跟贴 0

从语言到三维世界，李飞飞揭露AI的真正挑战

机器之心Pro 2025-09-12 17:33:47
0 跟贴 0
机器人学家务，李飞飞都觉得难，她举了个例子

机器之心Pro 2025-11-17 18:29:35
0 跟贴 0

无需外部数据！AI自问自答实现推理能力进化

量子位 2025-08-08 15:51:21
0 跟贴 0

啊？微博7800美元训的大模型，数学能力超了DeepSeek-R1

量子位 2025-11-18 13:58:03
1 跟贴 1
18岁创业者开源史上最大工厂视觉数据集，押注机器人从人类学习

DeepTech深科技 2025-11-18 19:34:41
0 跟贴 0

AI时代，重做ERP

钛媒体APP 2025-10-13 10:30:10
8 跟贴 8
OpenAI稀疏模型突破大模型黑箱困境，首次看清内部推理全过程

DeepTech深科技 2025-11-18 13:58:33
0 跟贴 0
刚刚，马斯克Grok 4.1低调发布！通用能力碾压其他一切模型

机器之心Pro 2025-11-18 10:10:20
16 跟贴 16
让大模型学会「心灵感应」：基于思维沟通的多智能体合作范式来了

机器之心Pro 2025-11-18 10:12:54
0 跟贴 0
李飞飞：我们可以创造出无限的多重宇宙

新智元 2025-09-19 11:25:12
0 跟贴 0
Agent RL与智能体进化关键一步：TaskCraft实现复杂任务自动生成

机器之心Pro 2025-07-04 13:05:41
0 跟贴 0
谷歌Gemini 3.0 Pro模型卡发布，多模态能力大幅领先竞争对手

华尔街见闻官方 2025-11-19 00:02:49
0 跟贴 0
EMNLP2025 | 通研院揭秘MoE可解释性，提升Context忠实性！

机器之心Pro 2025-11-18 15:00:07
0 跟贴 0
这个IF=43.4的医学期刊，对这样的AI相关论文更感兴趣！

医咖会 2025-11-18 20:13:55
0 跟贴 0
科股早知道：6G技术试验取得重大突破，中国完成第一阶段300项关键技术储备

钛媒体APP 2025-11-17 08:32:46
0 跟贴 0
机器学习临床预测模型构建的一般流程

医咖会 2025-08-11 19:56:31
0 跟贴 0
马云戴工牌现身蚂蚁园区！两天连抛AI大招，真要下场指挥AI大战？

雷科技 2025-11-18 23:07:50
3 跟贴 3
机器人涌向产线：杭州这家公司如何用空间智能构建新工厂

智东西 2025-11-18 21:25:35
0 跟贴 0
模型不用微调，靠上下文就能自我进化？

机器之心Pro 2025-10-11 20:20:59
0 跟贴 0
蚂蚁重磅发布基于代码生成的全模态AI助手灵光APP

智东西 2025-11-18 17:55:44
3 跟贴 3
物流业deepseek时刻，中国无人车火爆全球

华商韬略 2025-06-17 10:58:23
0 跟贴 0
数学天才以一人之力，对抗千军万马

谷谷追剧人 2025-11-16 11:37:00
61 跟贴 61
高中数学专题基本不等式的应用技巧，需选择合适机会进行1的替换

唐老师小课堂 2025-11-18 13:18:28
0 跟贴 0
就是个模型，有啥大惊小怪的

沙雕动画 2025-11-15 15:50:41
0 跟贴 0
数学王子高斯，一位给数学定标准的男人

五娃看剧 2025-11-17 09:17:07
1 跟贴 1
河北男子云南收购冰糖橙，说好的全黄结果大半都是绿的，男子称摘下来果收走避免果农损失，但多余空筐钱要退

中安在线 2025-11-18 15:22:16
811 跟贴 811
741一年级 ⭕️+4=口+7，⭕️和口谁大，大几

我服子佩 2025-11-14 12:47:00
0 跟贴 0
脑筋急转弯，什么桶不会装水？什么锁不用钥匙开门？

三知公考 2025-11-14 19:49:28
1 跟贴 1
高端数学靠的是天赋，努力没用

奶桃影视君 2025-11-16 08:04:12
1 跟贴 1
777二年级孩子：三道算式求4个图形？不会啊，爸爸讲完如此简单

我服子佩 2025-11-17 10:20:55
1 跟贴 1
788一年级数学下册第二单元测试卷精讲――免费听（可打印）

我服子佩 2025-11-18 10:31:51
3 跟贴 3
三年级数学竞赛题，难倒了不少孩子

公考客栈店小二 2025-11-17 13:43:00
0 跟贴 0
六年级奥数：我一个本科生，竟然不会做

郎老师趣味数学课堂 2025-11-17 07:49:55
7 跟贴 7
高中没毕业直接读博，17岁少女推翻40年数学猜想后的下一步

量子位 2025-08-08 15:39:19
45 跟贴 45
中部空军视频：枪已上膛剑已出鞘我们时刻准备打胜仗

北京青年报 2025-11-17 21:40:29
57440 跟贴 57440
把5～13填入下面九宫格中，使每条直线上三个数的和相等

公考客栈店小二 2025-11-15 13:30:00
0 跟贴 0
有人吭哧瘪肚一节课做不出来，学霸却分分钟搞定

郎老师趣味数学课堂 2025-11-16 20:09:28
1 跟贴 1

宁波医院院长被死亡女婴家属围堵，现场回应耐人寻味！舆论两边倒

宁波医院院长被死亡女婴家属围堵，现场回应耐人寻味！舆论两边倒

爱写的樱桃

2025-11-18 19:17:04

莫言称：向日本投掷两颗原子弹，是不可饶恕的罪恶！

莫言称：向日本投掷两颗原子弹，是不可饶恕的罪恶！

雪中风车

2025-11-18 14:27:01

戏子误国！国家出手后，人民日报点名的这3位明星永无出头之日

戏子误国！国家出手后，人民日报点名的这3位明星永无出头之日

不八卦掌门人

2025-07-25 21:56:46

多地发文！立即解散约车群、拼车群，否则追究群主法律责任！

多地发文！立即解散约车群、拼车群，否则追究群主法律责任！

网约车焦点

2025-11-17 12:00:54

杀疯了！51分+44分！中国未来第一攻击后卫

杀疯了！51分+44分！中国未来第一攻击后卫

篮球实战宝典

2025-11-17 22:59:38

郭士强看人真准！CBA得分王就这水平？4战18投1中，三分球11投0中

郭士强看人真准！CBA得分王就这水平？4战18投1中，三分球11投0中

萌兰聊个球

2025-11-18 15:15:42

不会吧，连救市之作也要下架了？

不会吧，连救市之作也要下架了？

LOGO研究所

2025-11-18 09:34:14

蔡崇信的“第一把火”——“阿里版顺丰”，静悄悄地撤退了

蔡崇信的“第一把火”——“阿里版顺丰”，静悄悄地撤退了

新商业派

2025-11-17 11:21:45

受贿数额特别巨大，蛇年首“虎”被公诉！曾任市委书记、副省长

受贿数额特别巨大，蛇年首“虎”被公诉！曾任市委书记、副省长

上观新闻

2025-11-18 10:58:07

时隔5年，中央再度召开这一重要会议

时隔5年，中央再度召开这一重要会议

政知新媒体

2025-11-18 21:56:05

阿里开始严查午休

蚂蚁大喇叭

2025-11-17 09:56:58

祖雄兵越扒越有：男方有前科，曾琦医德很好，偷拍者身份炸裂

祖雄兵越扒越有：男方有前科，曾琦医德很好，偷拍者身份炸裂

翰飞观事

2025-11-10 19:47:08

女子要求货拉拉司机卸货，被拒绝后竟威胁其拉回去，结局大快人心

女子要求货拉拉司机卸货，被拒绝后竟威胁其拉回去，结局大快人心

不写散文诗

2025-11-18 18:13:37

9个月烧光35亿！海澜之家被“除名”了

9个月烧光35亿！海澜之家被“除名”了

深蓝财经

2025-11-18 19:49:43

古二再曝终极录音大瓜，王家卫和秦雯当着古二的面，讨论抢他作品

古二再曝终极录音大瓜，王家卫和秦雯当着古二的面，讨论抢他作品

张发林

2025-11-18 23:19:07

赵少康迷途知返，邀请多位大佬挺郑丽文，卢秀燕仍要一条路走到黑

赵少康迷途知返，邀请多位大佬挺郑丽文，卢秀燕仍要一条路走到黑

博览历史

2025-11-18 23:28:08

62岁刘德华晒三餐：三十年如一日地吃几乎同样的食物！

62岁刘德华晒三餐：三十年如一日地吃几乎同样的食物！

诗意世界

2025-11-16 18:03:56

明天11月19号：农村信用社存款利率大改！存一万元，一年领多少？

明天11月19号：农村信用社存款利率大改！存一万元，一年领多少？

李博世财经

2025-11-18 10:33:22

王楚钦拍子没断，没兼混双，输樊振东：先进打法，不敌自身厚度

王楚钦拍子没断，没兼混双，输樊振东：先进打法，不敌自身厚度

冥王星与一只碗

2025-11-19 00:50:29

83年，下岗职工花700块买下上海废旧水塔住，22年后拆迁时愣了

83年，下岗职工花700块买下上海废旧水塔住，22年后拆迁时愣了

温情邮局

2025-11-11 10:58:54

AI产业主平台领航智能+时代

13899文章数 66266关注度

往期回顾全部

科技要闻

谷歌CEO警告：若AI泡沫破裂，没公司能幸免

头条要闻

孟加拉国前总理哈西娜被判死刑中方回应

头条要闻

孟加拉国前总理哈西娜被判死刑中方回应

体育要闻

结束最后一次对决，陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

硬核配置旗舰气场岚图泰山售37.99万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房产

本地

时尚

健康

公开课

房产要闻

29.4亿！海南“地王”片区，要卖超级宅地！

本地新闻

这档古早综艺，怎么就成了年轻人的哆啦A梦?

秋天穿衣暂时没灵感？赶紧看看这27套穿搭，舒适自然又大方

警惕超声报告这六大"坑"

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版