网易首页 > 网易号 > 正文 申请入驻

450美元训练一个「o1-preview」?UC伯克利开源32B推理模型Sky-T1

0
分享至

机器之心报道

编辑:蛋酱

450 美元的价格,乍一听起来不算「小数目」。但如果,这是一个 32B 推理模型的全部训练成本呢?

是的,当时间来到 2025 年,推理模型正变得越来越容易开发,且成本迅速降低到我们此前无法想象的程度。

近日,加州大学伯克利分校天空计算实验室的研究团队 NovaSky 发布了 Sky-T1-32B-Preview。有趣的是,团队表示:「Sky-T1-32B-Preview 的训练成本不到 450 美元,这表明可以经济、高效地复制高级推理能力。」

  • 项目主页:https://novasky-ai.github.io/posts/sky-t1/
  • 开源地址:https://huggingface.co/NovaSky-AI/Sky-T1-32B-Preview

据官方信息,这款推理模型在多个关键基准测试中与 OpenAI o1 的早期版本相媲美。

重点是,Sky-T1 似乎是第一个真正开源的推理模型,因为团队发布了训练数据集以及必要的训练代码,任何人都可以从头开始复制。

大家惊呼:「数据、代码和模型权重,多么惊人的贡献。」

不久前,训练一个具有同等性能的模型的价格往往高达数百万美元。合成训练数据或由其他模型生成的训练数据,让成本实现了大幅降低。

此前,一家 AI 公司 Writer 发布的 Palmyra X 004 几乎完全基于合成数据进行训练,开发成本仅为 70 万美元。

想象一下,以后我们可以在 Nvidia Project Digits AI 超级计算机上运行此程序,该超级计算机售价 3000 美元(对于超级计算机来说很便宜),可以运行多达 2000 亿个参数的模型。而不久的将来,不到 1 万亿个参数的模型将由个人在本地运行。

2025 年的大模型技术演进正在加速,这感受确实很强烈。

模型概述

擅长推理的 o1 和 Gemini 2.0 flash thinking 等模型通过产生长长的内部思维链,解决了复杂的任务,并取得了其他方面的进步。然而,技术细节和模型权重却无法获取,这对学术界和开源社区的参与构成了障碍。

为此,在数学领域出现了一些训练开放权重推理模型的显著成果,如 Still-2 和 Journey。与此同时,加州大学伯克利分校的 NovaSky 团队一直在探索各种技术,以发展基础模型和指令调整模型的推理能力。

在 Sky-T1-32B-Preview 这项工作中,团队不仅在数学方面取得了有竞争力的推理性能,而且在同一模型的编码方面也取得了有竞争力的推理性能。

为确保这项工作能「惠及更广泛的社区」,团队开源了所有细节(如数据、代码、模型权重),使社区能够轻松复制和改进:

  • 基础设施:在单一存储库中构建数据、训练和评估模型;
  • 数据:用于训练 Sky-T1-32B-Preview 的 17K 数据;
  • 技术细节:技术报告及 wandb 日志;
  • 模型权重:32B 模型权重。

技术细节

数据整理过程

为了生成训练数据,团队使用了 QwQ-32B-Preview,这是一个开源模型,其推理能力与 o1-preview 相当。团队对数据混合进行了整理,以涵盖需要推理的不同领域,并采用拒绝采样程序来提高数据质量。

然后,团队受到 Still-2 的启发,用 GPT-4o-mini 将 QwQ trace 重写为结构规整的版本,以提高数据质量并简化解析。

他们发现,解析的简便性对推理模型尤其有利。它们被训练成以特定格式做出响应,而结果往往难以解析。例如,在 APPs 数据集上,如果不重新格式化,团队只能假设代码是写在最后一个代码块中的,而 QwQ 只能达到约 25% 的准确率。但是,有时代码可能写在中间,经过重新格式化后,准确率会提高到 90% 以上。

拒绝采样。根据数据集提供的解决方案,如果 QwQ 样本不正确,团队就会将其丢弃。对于数学问题,团队会与 ground truth 解决方案进行精确匹配。对于编码问题,团队执行数据集中提供的单元测试。团队的最终数据包含来自 APPs 和 TACO 的 5k 编码数据,以及来自 AIME、MATH 和 NuminaMATH 数据集的 Olympiads 子集的 10k 数学数据。此外,团队还保留了来自 STILL-2 的 1k 科学和谜题数据。

训练

团队使用训练数据来微调 Qwen2.5-32B-Instruct,这是一个不具备推理能力的开源模型。该模型采用 3 个 epoch、学习率 1e-5 和 96 的批大小进行训练。使用 DeepSpeed Zero-3 offload(根据 Lambda Cloud 的定价约为 450 美元),在 8 个 H100 上用 19 个小时完成模型训练。团队使用了 Llama-Factory 进行训练。

评估结果

Sky-T1 在 MATH500(「竞赛级」数学挑战)上的表现优于 o1 的早期预览版本,还在一组来自 LiveCodeBench(一种编码评估)的难题上击败了 o1 的预览版本。然而,Sky-T1 不如 GPQA-Diamond 上的 o1 预览版,后者包含博士毕业生应该了解的物理、生物和化学相关问题。

不过,OpenAI 的 o1 GA 版本比 o1 的预览版更强大,并且 OpenAI 预计将在未来几周发布性能更佳的推理模型 o3。

值得重视的新发现

模型大小很重要。团队最初尝试在较小的模型(7B 和 14B)上进行训练,但观察到的改进不大。例如,在 APPs 数据集上训练 Qwen2.5-14B-Coder-Instruct 在 LiveCodeBench 上的性能略有提高,从 42.6% 提高到 46.3%。然而,在手动检查较小模型(小于 32B 的模型)的输出时,团队发现它们经常生成重复内容,从而限制了它们的有效性。

数据混合很重要。团队最初使用 Numina 数据集(由 STILL-2 提供)中的 3-4K 个数学问题训练 32B 模型,AIME24 的准确率从 16.7% 显著提高到 43.3%。然而,将 APPs 数据集生成的编程数据纳入训练过程时,AIME24 的准确率下降到 36.7%。可能意味着,这种下降是由于数学和编程任务所需的推理方法不同。

编程推理通常涉及额外的逻辑步骤,如模拟测试输入或内部执行生成的代码,而数学问题的推理往往更为直接和结构化。为了解决这些差异,团队使用 NuminaMath 数据集中具有挑战性的数学问题和 TACO 数据集中复杂的编程任务来丰富训练数据。这种均衡的数据混合使模型在两个领域都表现出色,在 AIME24 上恢复了 43.3% 的准确率,同时也提高了其编程能力。

与此同时,也有研究者表示了怀疑:

对此大家怎么看?欢迎在评论区讨论。

参考链接:https://www.reddit.com/r/LocalLLaMA/comments/1hys13h/new_model_from_httpsnovaskyaigithubio/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
NBA重磅互换!雷霆灰熊交易方案曝光,本届顶级新秀将被锁定

NBA重磅互换!雷霆灰熊交易方案曝光,本届顶级新秀将被锁定

法老不说教
2026-06-02 00:32:27
广东11岁男童深山走失13天被找回!细节披露:警民搜救时发现无花果有人为采摘食用痕迹,生还希望大,“我们都憋着一股劲,一定要找到他”

广东11岁男童深山走失13天被找回!细节披露:警民搜救时发现无花果有人为采摘食用痕迹,生还希望大,“我们都憋着一股劲,一定要找到他”

番禺台
2026-06-02 00:08:22
社保催人交钱了

社保催人交钱了

越女事务所
2026-06-01 21:41:18
杰伦·威廉姆斯:如果我没受伤,我们能击败马刺

杰伦·威廉姆斯:如果我没受伤,我们能击败马刺

体坛周报
2026-06-01 10:14:41
电子眼抓拍有规律!记住7点,2026开车全年不扣分不被罚真的不难

电子眼抓拍有规律!记住7点,2026开车全年不扣分不被罚真的不难

沙雕小琳琳
2026-05-31 14:51:29
王传福的“欺骗战略”,国内销量暴跌38%,却让竞争对手坐立不安

王传福的“欺骗战略”,国内销量暴跌38%,却让竞争对手坐立不安

云鹏叙事
2026-06-01 15:26:32
新加坡街头,一场静悄悄的人口换血正在发生

新加坡街头,一场静悄悄的人口换血正在发生

浪子的烟火人间
2026-06-01 00:05:03
网友称山姆鹌鹑蛋两个装很尴尬,特别是分享男同事的时候

网友称山姆鹌鹑蛋两个装很尴尬,特别是分享男同事的时候

映射生活的身影
2026-06-01 22:00:15
阿莫西林是消炎药?医生:不是!真正的消炎药只有这4种,别认错

阿莫西林是消炎药?医生:不是!真正的消炎药只有这4种,别认错

医者荣耀
2026-05-29 12:05:10
上海一同学聚会吃了43万6,请客的人先行离开,剩下的人当场翻脸

上海一同学聚会吃了43万6,请客的人先行离开,剩下的人当场翻脸

萧竹轻语
2025-06-11 17:21:59
一个家最好的风水,从来不是优秀的孩子,而是被善待的妈妈

一个家最好的风水,从来不是优秀的孩子,而是被善待的妈妈

青苹果sht
2026-05-30 05:15:46
重磅!中国科学院院士周成虎官宣被查

重磅!中国科学院院士周成虎官宣被查

李昕言温度空间
2026-06-01 20:33:54
降价2万!上汽大众官宣:全新SUV,价格下调

降价2万!上汽大众官宣:全新SUV,价格下调

科技堡垒
2026-05-31 09:34:47
工体三万人合唱秒变订婚宴!邓超带头喊百年好合,忠粉泪洒圆梦夜

工体三万人合唱秒变订婚宴!邓超带头喊百年好合,忠粉泪洒圆梦夜

寒士之言本尊
2026-06-01 14:29:43
黄仁勋公开放话,华为韬定律要比台积电落后10年,结果成国际笑话

黄仁勋公开放话,华为韬定律要比台积电落后10年,结果成国际笑话

胖福的小木屋
2026-05-31 13:26:25
绝了,浓眉哥绝了!曝又想离队!湖人4换1交易方案曝光

绝了,浓眉哥绝了!曝又想离队!湖人4换1交易方案曝光

篮球实战宝典
2026-06-01 23:14:18
辱骂国人的俄乌网被暂时禁言,但真正的问题还未解决

辱骂国人的俄乌网被暂时禁言,但真正的问题还未解决

作家加野
2026-06-01 13:57:57
一夫一妻制将消亡?新型婚恋模式曝光,无数家庭沉默了

一夫一妻制将消亡?新型婚恋模式曝光,无数家庭沉默了

生活魔术专家
2026-06-01 12:08:13
从58万到169万!一网友哭诉自己被高收入绑架,丢掉了生活的意义

从58万到169万!一网友哭诉自己被高收入绑架,丢掉了生活的意义

火山詩话
2026-05-31 10:57:09
再次交火后,美军发现伊朗18座地下导弹基地,已被推土机修复

再次交火后,美军发现伊朗18座地下导弹基地,已被推土机修复

兵国大事
2026-06-01 22:02:55
2026-06-02 04:47:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13139文章数 142658关注度
往期回顾 全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计!

头条要闻

伊朗计划彻底封锁霍尔木兹海峡 特朗普回应

头条要闻

伊朗计划彻底封锁霍尔木兹海峡 特朗普回应

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

奇瑞集团5月销量24.8万辆 同比增长20.5% 出口18.2万辆再创新高

态度原创

旅游
教育
时尚
艺术
数码

旅游要闻

世界旅游城市联合会“会员之家”在京揭牌

教育要闻

我给她钱 换来的不是感激 而是她的谩骂

夏天裤子不用多买,阔腿裤一整个夏天都能穿,日常出行好打理

艺术要闻

吴镇写竹,清清爽爽

数码要闻

惠普推OmniDesk迷你主机:配英特尔新U支持AI加速

无障碍浏览 进入关怀版