网易首页 > 网易号 > 正文 申请入驻

直逼DeepSeek-R1-32B,碾压李飞飞s1!UC伯克利等开源全新SOTA推理模型

0
分享至

新智元报道

编辑:编辑部 HNYZ

【新智元导读】近日,斯坦福、UC伯克利等多机构联手发布了开源推理新SOTA——OpenThinker-32B,性能直逼DeepSeek-R1-32B。其成功秘诀在于数据规模化、严格验证和模型扩展。

32B推理模型,仅用1/8数据,与同尺寸DeepSeek-R1打成平手!

就在刚刚,来自斯坦福、UC伯克利、华盛顿大学等机构联手发布了一款SOTA级推理模型——OpenThinker-32B,并同时开源了高达114k的训练数据。

项目主页:https://www.open-thoughts.ai/blog/scale

Hugging Face:https://huggingface.co/open-thoughts/OpenThinker-32B

数据集:https://huggingface.co/datasets/open-thoughts/OpenThoughts-114k

团队发现:采用经DeepSeek-R1验证标注(基于R1蒸馏)的大规模优质数据集,便可训练出SOTA的推理模型。

具体方法,就是通过数据规模化、推理过程验证以及模型规模扩展。

由此得到的OpenThinker-32B,在数学、代码和科学等多个基准测试中,OpenThinker-32B性能直接碾压了李飞飞团队s1和s1.1模型,直逼R1-Distill-32B。

值得一提的是,相比于使用了800k数据(包含600k个推理样本)的R1-Distill,OpenThinker-32B仅用了114k数据,就能拿下几乎同等的优异成绩。

结果均通过开源评估框架Evalchemy计算得出

除此之外,OpenThinker-32还把模型权重、数据集、数据生成代码、训练代码上,全部都给公开了!

数据策展

研究人员使用了与之前训练OpenThinker-7B模型相同的OpenThoughts-114k数据集来训练OpenThinker-32B。

他们利用DeepSeek-R1模型,收集了精心挑选的17.3万个问题的推理过程和解答尝试。然后将这些原始数据作为OpenThoughts-Unverfied-173k数据集公开发布。

整个流程的最后一步是,如果推理过程未能通过验证,就过滤掉相应的数据样本。

下图可视化地展示了整个过程。

研究团队首先输入源数据或问题提示,这些内容可以来自不同的领域和平台,如BAAI/TACO、DeepMind、Python提交等,涉及代码、谜题、科学和数学等多个方面。

接着这些多元的输入会进入核心的处理模块——DeepSeek-R1,在这里对数据进行分析与处理。这些问题会被分成三个方面,分别是:科学类问题、数学与谜题和代码。

有些结果不需要验证,可能是简单的分析或直接输出。对于一些需要深入验证的内容,利用大语言模型(LLM)采用与GT(Ground Truth)对比的方式进行评判。如果是代码,执行代码并进行单元测试,确保代码的正确性和有效性。

最后能将不同方向的结果结合起来,生成开放的思考和更为综合的解决方案。

研究团队更新了最终的OpenThoughts-114k数据集,加入了一个名为 「metadata」的配置,其中包含了一些用于数据集构建的额外列:

  • problem

  • ground_truth_solution

  • test_cases (code only)

  • starter_code (code only)

  • DeepSeek_reasoning

  • DeepSeek_solution

  • domain

  • source

这些额外的元数据将使得这个数据集更容易用于新的场景,例如数据过滤、领域切换、验证检查以及更改推理过程的模板。

这些额外的元数据将得使该数据集使用起来更加容易,仅需一行代码就能完成例如过滤、更换领域、检查验证和更改推理跟踪模板等。

load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="train")

研究团队表示,他们期待看到社区利用这些问题和标准答案,在OpenThinker模型上进行强化学习(RL)的研究。DeepScaleR已经证明,规模较小时,这种方法效果特别好。

验证

为了得到最终的OpenThoughts-114k数据集,研究团队对答案进行了验证,并剔除了不正确的回答。

如下表所示,保留那些未通过验证的推理过程可能会损害性能,尽管未经验证的模型与其他32B推理模型相比仍然表现良好。

验证的作用在于,在扩大训练提示集的多样性和规模的同时,保持R1注释的质量。另一方面,未经验证的数据可以更容易地扩展,因此也值得进一步探索。

对于代码问题,我们通过对照已有的测试用例来验证解答尝试,从而完成推理过程的验证。

受到代码执行过程中所面临挑战的启发,我们在Curator中实现了一个代码执行框架,使用户能够大规模、安全地执行代码,并对照预期输出进行验证。

对于数学问题,研究团队使用一个LLM(大语言模型)评判器来进行验证,它会同时接收标准答案和DeepSeek-R1的解答尝试。

结果发现,在数据生成过程中,使用LLM评判器而不是更严格的解析引擎(Math-Verify)进行验证,可以获得更高的有效数据率,并能训练出性能更好的下游模型。

训练

研究团队使用LLaMa-Factory对Qwen2.5-32B-Instruct在OpenThoughts-114k数据集上进行了三轮微调,上下文长度为16k。完整训练配置可在GitHub中找到。

OpenThinker-32B在AWS SageMaker集群上使用四个8xH100 P5节点训练了90小时,累计使用了2,880个H100小时。

同时,OpenThinker-32B-Unverified在Leonardo超级计算机上使用96个4xA100节点(每个GPU64GB)训练了30小时,累计使用了11,520个A100小时。

评估

研究团队使用开源评估库Evalchemy(炼金术)对所有模型进行评估。

对于AIME24和AIME25,他们通过平均五次运行的结果来计算准确率。评估配置使用0.7的温度参数,将模型响应限制在32,768个token以内,不添加任何额外的系统或用户提示词,也不使用任何特殊的解码策略(如预算强制)。

当启动OpenThoughts项目时,他们设定了一个目标,即创建一个性能可以达到DeepSeek-R1-Distill-Qwen-32B的开放数据模型。

现在这个差距已经几乎消除。

最后,研究团队为社区在过去几周在构建开放数据推理模型方面取得的快速进展感到振奋,并期待基于彼此的洞见继续向前发展。

OpenThinker-32B的开源,证明了数据、验证和模型规模的协同作用是提升推理能力的关键。

这一成果不仅推动了开源推理模型的发展,也为整个AI社区提供了宝贵的资源和启示。

参考资料:

https://x.com/NeginRaoof_/status/1889739171826377008

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
hr每次都疼怎么办?

hr每次都疼怎么办?

性学研究僧
2025-11-18 23:18:30
A股:超4200股惨绿,股民开始躺平休息,市场正式进入鸡肋阶段

A股:超4200股惨绿,股民开始躺平休息,市场正式进入鸡肋阶段

云鹏叙事
2025-11-19 10:42:26
权臣张廷玉被抄家,搜出白银40万两,次日早朝乾隆:快快送还回去

权臣张廷玉被抄家,搜出白银40万两,次日早朝乾隆:快快送还回去

卡西莫多的故事
2025-11-14 10:21:28
有这5个特征,证明你的胰岛很健康,若满足3个,那就值得庆幸

有这5个特征,证明你的胰岛很健康,若满足3个,那就值得庆幸

普陀动物世界
2025-11-16 11:06:14
沙特王储就卡舒吉案遭追问 特朗普:别为难客人

沙特王储就卡舒吉案遭追问 特朗普:别为难客人

看看新闻Knews
2025-11-19 12:56:01
倒闭14万家!曾年赚22亿的奶茶之王,加盟商怒挂条幅:血本无归!

倒闭14万家!曾年赚22亿的奶茶之王,加盟商怒挂条幅:血本无归!

青眼财经
2025-11-13 23:02:27
经济形势有可能超乎我们的想象

经济形势有可能超乎我们的想象

经济学教授V
2025-11-16 18:05:56
不再沉默!郑丽文指桑骂槐,提醒高市:台湾没事,日本也就没事

不再沉默!郑丽文指桑骂槐,提醒高市:台湾没事,日本也就没事

时时有聊
2025-11-18 09:18:16
1.5万平!字节跳动海淀东升新租一栋楼

1.5万平!字节跳动海淀东升新租一栋楼

选址中国
2025-11-19 09:33:46
沈伯洋怕了?蓝营青年:他怕复制林智坚效应让民进党“一尸五命”

沈伯洋怕了?蓝营青年:他怕复制林智坚效应让民进党“一尸五命”

海峡导报社
2025-11-19 08:19:03
6-4!6-3!全运会网球男单决赛首人产生:20岁商竣程剑指金牌!

6-4!6-3!全运会网球男单决赛首人产生:20岁商竣程剑指金牌!

大秦壁虎白话体育
2025-11-19 11:53:55
U22中国0-0乌兹别克斯坦U22无缘冠军,汪士钦报复推人染红

U22中国0-0乌兹别克斯坦U22无缘冠军,汪士钦报复推人染红

懂球帝
2025-11-18 21:33:16
梅艳芳为何红颜薄命?白龙王揭秘:她本有长寿之相,错在关键一步

梅艳芳为何红颜薄命?白龙王揭秘:她本有长寿之相,错在关键一步

萧竹轻语
2025-11-14 17:10:43
80岁老太感染上艾滋,女儿查看监控后瞠目结舌,连捅男保姆43刀

80岁老太感染上艾滋,女儿查看监控后瞠目结舌,连捅男保姆43刀

民间精选故事汇
2025-05-12 08:01:12
最年轻的美女董事长上任了!

最年轻的美女董事长上任了!

微微热评
2025-11-08 13:47:08
“穷人就不配娱乐吗?”女生因王者“贵族7”,被取消贫困生资格

“穷人就不配娱乐吗?”女生因王者“贵族7”,被取消贫困生资格

妍妍教育日记
2025-11-17 18:51:08
53岁藤原纪香近照曝光,长相不如方媛,但身材更饱满圆润一些

53岁藤原纪香近照曝光,长相不如方媛,但身材更饱满圆润一些

阿废冷眼观察所
2025-11-19 03:53:42
快扔掉!戴一天,辐射量相当于拍117次胸片

快扔掉!戴一天,辐射量相当于拍117次胸片

上海约饭局
2025-10-31 15:32:01
玛哈心里始终惦记诗妮娜,灵光寺现贵妃徽章,家人也都被安排妥当

玛哈心里始终惦记诗妮娜,灵光寺现贵妃徽章,家人也都被安排妥当

老塕是个手艺人
2025-11-19 12:19:56
无缘亚洲杯正赛,中国香港主帅:原本为童话般结局做好了准备

无缘亚洲杯正赛,中国香港主帅:原本为童话般结局做好了准备

懂球帝
2025-11-19 08:23:09
2025-11-19 13:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13904文章数 66272关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

小伙花20万娶到"下嫁"新娘 发现"厅官"岳父是短剧演员

头条要闻

小伙花20万娶到"下嫁"新娘 发现"厅官"岳父是短剧演员

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

又反转!曝喻恩泰出轨美女律师

财经要闻

黄金税改两周,水贝低价神话终结?

汽车要闻

脱胎换骨的优秀底盘Get 新款享界S9动态驾驶体验

态度原创

房产
健康
数码
手机
军事航空

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

警惕超声报告这六大"坑"

数码要闻

"满电Buff"续满!航嘉校园行xPConline即将上线对外经济贸易大学

手机要闻

iPhone 17系列首发自研N1芯片:Wi-Fi速度超越上代iPhone 16

军事要闻

量大管饱 中国军网在海外发布备战视频

无障碍浏览 进入关怀版