网易首页 > 网易号 > 正文 申请入驻

200B参数击败满血DeepSeek-R1,豆包推理模型Seed-Thinking-v1.5

0
分享至

机器之心报道

编辑:Panda、+0

字节跳动豆包团队今天发布了自家新推理模型Seed-Thinking-v1.5的技术报告。从报告中可以看到,这是一个拥有 200B 总参数的 MoE 模型,每次工作时会激活其中 20B 参数。其表现非常惊艳,在各个领域的基准上都超过了拥有 671B 总参数的 DeepSeek-R1。有人猜测,这就是字节豆包目前正在使用的深度思考模型。

字节近期官宣的「2025 火山引擎 Force Link AI 创新巡展」活动推文中提到,4 月 17 日首发站杭州站时,豆包全新模型将重磅亮相,这会是 Seed-Thinking-v1.5 的正式发布吗?

  • 报告标题:Seed-Thinking-v1.5: Advancing Superb Reasoning Models with Reinforcement Learning
  • 项目地址:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5
  • 报告地址:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/blob/main/seed-thinking-v1.5.pdf

Seed-Thinking-v1.5 是一款通过深度思考提升推理能力的模型,在多个权威基准测试中展现出卓越性能。在具体评测中,该模型在 AIME 2024 测试中获得 86.7 分,Codeforces 评测达到 55.0 分,GPQA 测试达到 77.3 分,充分证明了其在 STEM(科学、技术、工程和数学)领域以及编程方面的出色推理能力。

除推理任务外,该方法在不同领域都表现出显著的泛化能力。例如,在非推理任务中,其胜率比 DeepSeek R1 高出 8%,这表明了其更广泛的应用潜力。

从技术架构看,Seed-Thinking-v1.5 采用了混合专家模型(Mixture-of-Experts,MoE)设计,总参数量为 200B,实际激活参数仅为 20B,相比同等性能的其他最先进推理模型,规模相对紧凑高效。

为全面评估模型的泛化推理能力,团队开发了 BeyondAIME 和 Codeforces 两个内部基准测试,这些测试工具将向公众开放,以促进相关领域的未来研究与发展。

先来看看其具体表现。

在数学推理方面,在 AIME 2024 基准上,Seed-Thinking-v1.5 取得了 86.7 的高分,与高计算量的 o3-mini-high 差不多。

由于 AIME 2024 已经不足以彰显前沿模型的差异,豆包团队还使用了另一个更具挑战性的评估基准 BeyondAIME,其中所有问题都是人类专家新整理编写的。结果可以看到,虽然 Seed-Thinking-v1.5 的成绩超过了 R1 和 o1,但相比于 o3 和 Gemini 2.5 pro 还有所差距。

在竞赛编程方面,在 Codeforces 基准上,该团队没有采用之前的依赖 Elo 分数的评估策略,而是采用了基于最新的 12 场 Codeforces 竞赛的具体评估方案。

具体来说,他们报告的是 pass@1 和 pass@8 指标,其中 pass@k 表示模型能否在 k 次尝试内解决问题,即从 k 次生成的提交中选择最佳结果。之所以选择报告 pass@8,是因为能提供更稳定的结果,并且更接近实际用户提交模式。

结果来看,Seed-Thinking-v1.5 在这两个指标上均超过 DeepSeek-R1,不过与 o3 的差距仍旧比较明显。该团队表示未来将公开发布这个评估集。

在科学问题上,Seed-Thinking-v1.5 在 GPQA 基准上得分为 77.3,接近 o3 的表现。该团队表示,这一提升主要归功于数学训练带来的泛化能力的提升,而非增加了特定领域的科学数据。

豆包也测试了 Seed-Thinking-v1.5 在非推理任务上的表现。这里他们使用的测试集尽力复现了真实的用户需求。通过人类对 Seed-Thinking-v1.5 与 DeepSeek-R1 输出结果的比较评估,结果发现,Seed-Thinking-v1.5 获得的用户积极反馈总体高出 8.0%,凸显了其在复杂用户场景处理能力方面的能力。

下面我们就来简单看看豆包是如何创造出 Seed-Thinking-v1.5 的。

开发高质量推理模型有三大关键:数据、强化学习算法和基础设施。为了打造出 Seed-Thinking-v1.5,该团队在这三个方面都进行了创新。

数据

推理模型主要依赖思维链(CoT)数据,这种数据展示逐步推理过程。该团队的初步研究表明,过多非思维链数据会削弱模型探索能力。

研究团队在强化学习训练中整合了 STEM 问题、代码任务、逻辑推理和非推理数据。其中逻辑推理数据提升了 ARC-AGI 测试表现。而数学数据则展现除了优秀的泛化能力。

另外,他们还构建了一个新的高级数学基准BeyondAIME,其中包含 100 道题,每道题的难度等于或高于 AIME 中最难的题目。与 AIME 类似,所有答案都保证为整数(不受特定数值范围的限制),这能简化并稳定评估过程。

强化学习算法

推理模型的强化学习训练常出现不稳定性,尤其对未经监督微调的模型。为解决这一问题,研究团队提出了 VAPO 和 DAPO 框架,分别针对基于价值和无价值的强化学习范式。两种方法均能提供稳健的训练轨迹,有效优化推理模型。参阅机器之心报道《超越 DeepSeek GRPO 的关键 RL 算法,字节、清华 AIR 开源 DAPO》。

奖励建模

奖励建模是强化学习的关键,它确定了策略的目标。良好的奖励机制能在训练时提供准确的信号。团队针对可验证和不可验证的问题使用不同的奖励建模方法。

1、可验证问题

通过适当的原则和思维轨迹,团队利用 LLMs 来判断各种场景下的可验证问题。这种方法提供了超越基于规则的奖励系统局限性的更普遍解决方案。

团队设计了两个递进式的奖励建模方案:Seed-VerifierSeed-Thinking-Verifier

  • Seed-Verifier基于一套由人类制定的原则,利用大语言模型的能力评估由问题、参考答案和模型生成答案组成的三元组。如果参考答案与模型生成的答案本质上等价,它返回「YES」;否则返回「NO」。这里的等价不要求逐字匹配,而是基于计算规则和数学原理进行深层评估,确保奖励信号准确反映模型回答的本质正确性。
  • Seed-Thinking-Verifier的灵感来自人类的判断过程,通过细致思考和深入分析得出结论。为此,团队训练了一个能够提供详细推理路径的验证器,将其视为可验证任务,与其他数学推理任务一起优化。该验证器能够分析参考答案与模型生成答案之间的异同,提供精确的判断结果。

Seed-Thinking-Verifier 显著缓解了 Seed-Verifier 存在的三个主要问题:

  • 奖励欺骗(Reward Hacking):非思考型模型可能利用漏洞获取奖励,而不真正理解问题。Seed-Thinking-Verifier 的详细推理过程使这种欺骗变得更加困难。
  • 预测的不确定性:在参考答案与模型生成答案本质相同但格式不同的情况下,Seed-Verifier 可能有时返回「YES」,有时返回「NO」。Seed-Thinking-Verifier 通过深入分析答案背后的推理过程,提供一致的结果。
  • 边界情况处理失败:Seed-Verifier 在处理某些边界情况时表现不佳。Seed-Thinking-Verifier 提供详细推理的能力使其能够更好地应对这些复杂场景。

表 1 展示了上述两种验证器的性能。结果表明,Seed-Verifier 在处理某些特殊情况时效果欠佳,而 Seed-Thinking-Verifier 展现出提供准确判断的卓越能力。尽管后者的思维过程消耗了大量 GPU 资源,但其产生的精确且稳健的奖励结果对于赋予策略强大的推理能力至关重要。

2、不可验证问题

研究团队为不可验证问题训练了一个强化学习奖励模型,使用与 Doubao 1.5 Pro 相同的人类偏好数据,主要覆盖创意写作和摘要生成。

团队采用了成对生成式奖励模型,通过直接比较两个回答的优劣并将「是 / 否」概率作为奖励分数。这种方法让模型专注于回答间的实质差异,避免关注无关细节。

实验表明,此方法提高了强化学习的稳定性,尤其在混合训练场景中减少了不同奖励模型间的冲突,主要是因为它能降低异常分数的生成,避免与验证器产生显著的分数分布差异。

基础设施

大语言模型强化学习系统需要强大基础设施支持。团队开发的流式推演架构通过优先级样本池异步处理轨迹生成,使迭代速度提升 3 倍。系统还支持自动故障恢复的混合精度训练,确保大规模强化学习运行的稳定性。

框架

Seed-Thinking-v1.5 采用的训练框架是基于 HybridFlow 编程抽象构建的。整个训练工作负载运行在 Ray 集群之上。数据加载器和强化学习算法在单进程 Ray Actor(单控制器)中实现。模型训练和响应生成(rollout)在 Ray Worker Group 中实现。

流式 Rollout 系统

其 SRS 架构引入了流式 Rollout,可将模型演化与运行时执行解耦,并通过参数 α 动态调整在策略和离策略的样本比例:

  • 将完成率(α ∈ [0, 1])定义为使用最新模型版本以在策略方式生成的样本比例。
  • 将剩余的未完成片段(1- α)分配给来自版本化模型快照的离策略 rollout,并通过在独立资源上异步延续部分生成来实现无缝集成。

此外,该团队还在环境交互阶段实现了动态精度调度,通过后训练量化和误差补偿范围缩放来部署 FP8 策略网络。

为了解决 MoE 系统中 token 不平衡的问题,他们实现了一个三层并行架构,结合了用于分层计算的 TP(张量并行化)、具有动态专家分配的 EP(专家并行)和用于上下文分块的 SP(序列并行)。这样一来,其 kernel auto-tuner 就能根据实时负载监控动态选择最佳 CUDA 核配置。

训练系统

为了高效地大规模训练 Seed-Thinking-v1.5 模型,该团队设计了一个混合分布式训练框架,该框架集成了先进的并行策略、动态工作负载平衡和内存优化。下面详细介绍一下其中的核心技术创新:

  • 并行机制:该团队 TP(张量并行)/EP(专家并行)/CP(上下文并行)与完全分片数据并行(FSDP)相结合,用于训练 Seed-Thinking-v1.5。具体而言,他们将 TP/CP 应用于注意力层,将 EP 应用于 MoE 层。
  • 序列长度平衡:有效序列长度可能在不同的 DP 等级上不平衡,从而导致计算负载不平衡和训练效率低下。为了应对这一挑战,他们利用 KARP 算法重新排列了一个 mini-batch 内的输入序列,使它们在 mini-batch 之间保持平衡。
  • 内存优化:他们采用逐层重新计算、激活卸载和优化器卸载来支持更大 micro-batch 的训练,以覆盖 FSDP 造成的通信开销。
  • 自动并行:为了实现最佳系统性能,他们开发了一个自动微调系统,称为 AutoTuner。具体来说,AutoTuner 可按照基于配置文件的解决方案对内存使用情况进行建模。然后,它会估算各种配置的性能和内存使用情况,以获得最佳配置。
  • 检查点:为了以最小的开销从不同的分布式配置恢复检查点,该团队使用了 ByteCheckpoint。这能让用户弹性地训练任务以提高集群效率。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
超百亿资金灰飞烟灭!加密货币集体“跳水”,比特币较历史高点已“腰斩”

超百亿资金灰飞烟灭!加密货币集体“跳水”,比特币较历史高点已“腰斩”

北京商报
2026-06-03 21:10:13
奚梦瑶婚礼戴婆婆的澳白珍珠项链,赌王送四太的传家宝,寓意十足

奚梦瑶婚礼戴婆婆的澳白珍珠项链,赌王送四太的传家宝,寓意十足

露珠聊影视
2026-06-03 20:17:59
单局21-8成无用功!翁泓阳1-2不敌印度00后,国羽4大主力折损一半

单局21-8成无用功!翁泓阳1-2不敌印度00后,国羽4大主力折损一半

钉钉陌上花开
2026-06-03 19:10:31
跟儿女相处:讲道理是下策,闭嘴是中策,上策你绝对想不到

跟儿女相处:讲道理是下策,闭嘴是中策,上策你绝对想不到

热心市民小黄
2026-06-03 13:30:41
夫妻性生活别急着进入!学会这招“延迟满足”,爽感增倍

夫妻性生活别急着进入!学会这招“延迟满足”,爽感增倍

精彩分享快乐
2026-05-13 12:05:07
首个退群北约的国家来了:已走程序,退意已决!

首个退群北约的国家来了:已走程序,退意已决!

福建睿平
2026-04-27 11:46:08
华为手机618开启清仓模式,从3699元跌至1699元,100W+卫星消息

华为手机618开启清仓模式,从3699元跌至1699元,100W+卫星消息

科技阿维
2026-06-03 21:36:13
F1车手周冠宇代言!凯迪拉克CT5推出限时初心价:19.99万起

F1车手周冠宇代言!凯迪拉克CT5推出限时初心价:19.99万起

快科技
2026-06-02 13:19:13
姐弟恋:从缠绵相拥,走到敷衍摆烂

姐弟恋:从缠绵相拥,走到敷衍摆烂

飛娱日记
2026-04-28 07:19:17
“奶粉第一股”将迎国资入主,盘中一度涨停

“奶粉第一股”将迎国资入主,盘中一度涨停

第一财经资讯
2026-06-03 11:29:58
未来十年最具竞争力城市20强,京沪苏杭第一方阵,合肥、福州逆袭

未来十年最具竞争力城市20强,京沪苏杭第一方阵,合肥、福州逆袭

金卡读城
2026-06-03 21:38:20
每体:曼联愿意为拉什福德做出让步,但巴萨目前优先中锋引援

每体:曼联愿意为拉什福德做出让步,但巴萨目前优先中锋引援

懂球帝
2026-06-03 21:15:10
上海队芦苇被质疑打假球,面对广厦输掉第四场,难道为了门票吗?

上海队芦苇被质疑打假球,面对广厦输掉第四场,难道为了门票吗?

阿信点评
2026-06-03 19:55:59
“今天买到明天生产的面包”!广州一面包店被投诉超前标注,商家称是标签机故障所致

“今天买到明天生产的面包”!广州一面包店被投诉超前标注,商家称是标签机故障所致

极目新闻
2026-06-03 20:15:36
主打油电混动,换装大屏幕,2027款广汽丰田赛那SIENNA还是这么上头!

主打油电混动,换装大屏幕,2027款广汽丰田赛那SIENNA还是这么上头!

车矩阵更懂车
2026-06-03 23:35:42
中方劝告失效,李在明我行我素,向世界宣告,韩国加快引进核潜艇

中方劝告失效,李在明我行我素,向世界宣告,韩国加快引进核潜艇

铁锤简科
2026-05-30 12:42:24
订单爆了!深圳有商家直言:“已排到今年10月份”!

订单爆了!深圳有商家直言:“已排到今年10月份”!

深圳晚报
2026-06-03 12:22:33
紧急!英国政坛“地震”,外长来华求助,中国:先拿出自己的诚意

紧急!英国政坛“地震”,外长来华求助,中国:先拿出自己的诚意

生活魔术专家
2026-06-03 17:22:21
6月5号开始运势超旺!从此大鹏展翅,借势发大财的3个生肖

6月5号开始运势超旺!从此大鹏展翅,借势发大财的3个生肖

毅谈生肖
2026-06-03 11:24:51
本周官宣!利物浦与43岁西班牙名帅签约2年 上任后6300万首签曝光

本周官宣!利物浦与43岁西班牙名帅签约2年 上任后6300万首签曝光

我爱英超
2026-06-03 06:51:58
2026-06-04 00:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13159文章数 142660关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

教育
艺术
健康
家居
数码

教育要闻

高考减少45万人|“带入考场即构成作弊”!高考安检新变化,多地提醒

艺术要闻

二十年前割麦的场景

违规干细胞抗衰美容,为何肆无忌惮

家居要闻

江畔轻奢 观云大宅

数码要闻

IDC预测2026年PC出货量下滑11.3% MacBook Neo逆势增长

无障碍浏览 进入关怀版