网易首页 > 网易号 > 正文 申请入驻

字节新推理模型逆袭DeepSeek,200B战胜671B,豆包史诗级加强?

0
分享至

  • 梦晨 发自 凹非寺
    量子位 | 公众号 QbitAI

字节最新深度思考模型,在数学、代码等多项推理任务中超过DeepSeek-R1了?而且参数规模更小。

同样是MoE架构,字节新模型Seed-Thinking-v1.5有200B总参数和20B激活参数。

对比DeepSeek-R1的671B总参数和37B激活参数,可以算得上轻量级了。

目前,完整的技术报告已公开发布,其中揭示了诸多秘诀。

字节Seed团队聚焦大规模强化学习,并从三个角度提升了推理表现:数据、RL算法和RL基础设施。

可验证与不可验证问题

从数据开始说起,字节团队把RL训练数据分为两个部分,具有明确答案的可验证问题和没有明确答案的不可验证问题,采用不同的奖励建模方法。

这其中,模型的推理能力主要来自可验证问题,并可以推广到不可验证问题。

可验证问题包括问题与答案配对的STEM问题、附带单元测试的代码问题,以及适合自动验证的逻辑推理问题(24点、迷宫、数独等)。

不可验证问题主要包括根据人类偏好评估的非推理任务,如创意写作、翻译、知识QA、角色扮演等。

对于不可验证问题,字节团队丢弃了样本分数方差低、难度低的数据。此类数据可能过于简单或已在数据集中大量表示。离线实验表明,过度优化此类样本会导致模型的探索空间过早崩溃并降低性能。

此外,团队还打造了全新数学推理评测集BeyondAIME。

当前的推理模型通常使用AIME作为评估数学推理能力的首选基准,但该基准每年只发布30个问题,有限的规模可能会导致高方差的评估结果,难以有效区分最先进的推理模型。

字节与数学专家合作,根据既定的比赛形式开发原创问题。通过结构修改和情景重新配置来系统地调整现有的比赛问题,确保不会发生直接重复。此外还确保答案不是容易猜的数值(例如问题陈述中明确提到的数字),以减少模型在没有适当推理的情况下猜出正确答案的机会。

RL算法

强化学习虽然强大,但训练起来也很不稳定,经常崩溃。

字节在技术报告中提到”有时,两次运行之间的分数差异可能高达10分”。

针对这个问题,团队提出了VAPO和DAPO两个RL框架,分别从基于价值和无价值的RL范式出发来稳定训练。

VAPO和DAPO两篇论文都已单独发布。

此外,在Seed-Thining-v1.5中,还借鉴了之前学术界工作中的很多关键技术:

  • 价值预训练(Value-Pretraining),保证价值网络和策略网络一致
  • 解耦的GAE(Decoupled-GAE),让两个网络更独立高效
  • 长度自适应GAE(Length-adaptive GAE),更好处理不同长度序列
  • 解耦PPO损失(Clip-Higher),为低概率token的增长创造,了更多空间鼓励模型探索新方案
  • Token级损失(Token-level Loss),平衡每个token对训练过程的影响。
  • 正例增强(Postive Example LM Loss),提高RL训练过程中正样本的利用效率,从而提高模型整体性能

RL基础设施

在Long-CoT生成过程中,字节团队观察到各种提示词之间的响应长度差异较大,在生成过程中出现大量GPU空闲时间。

为了缓解长尾响应生成的滞后问题,提出了SRS(流式Rollout系统),一种资源感知型调度框架,可战略性地部署独立的流式计算单元,将系统约束从内存绑定转换为计算绑定。

为了有效地大规模训练,团队还设计了一个混合分布式训练框架,集成高级并行策略、动态工作负载平衡和内存优化:

  • 并行机制:将TP (张量并行)/EP (专家并行)/CP (上下文并行)与全分片数据并行 (FSDP) 组合在一起,具体来说,将TP/CP 应用于注意力层,将EP应用于 MoE 层。
  • 序列长度平衡:DP等级之间的有效序列长度可能不平衡,导致计算工作量不平衡和训练效率低下。利用KARP算法在一个mini-batch内重新排列输入序列,使它们在micro-batch之间保持平衡。
  • 内存优化:采用逐层重新计算、激活卸载和优化器卸载来支持更大micro-batch的训练,以覆盖FSDP引起的通信开销。
  • 自动并行:为了实现最佳系统性能,开发了AutoTuner 自动调整系统,按照基于配置文件的解决方案 对内存使用情况进行建模。然后估计各种配置的性能和内存使用情况以获得最优配置。
  • 检查点:使用ByteCheckpoint支持从不同的分布式配置中以最小的开销恢复检查点,弹性训练以提高集群效率。

最终,在多项自动评估中,Seed-Thinking-v1.5在AIME 2024基准测试中取得86.7,与OpenAI的o3-mini-high模型的性能相当。但在最近的AIME 2025和BeyondAIME中,Seed-Thinking-v1.5仍然落后于o3级别的性能。

对于GPQA任务,Seed-Thinking-v1.5达到77.3%的准确率,接近o3-mini-high的性能。

在Codeforces等代码生成场景中,Seed-Thinking-v1.5的性能与Gemini 2.5 Pro 的性能相当,但仍落后于o3-mini-high。

Seed-Thinking-v1.5在SimpleQA上的表现不太理想。但团队认为,该基准测试预训练模型规模的相关性更强,而不是考验推理能力。

许多人看完这篇技术报告,都很感兴趣,不过找了一圈也没找到模型在哪发布。

从技术报告的口径来看,该模型与目前豆包中的Doubao-1.5 Pro并不是一回事。

但从作者名单看,这是由字节Seed团队负责人吴永辉带队,主要成员都参与的大项目。

那么是否将来会部署到豆包APP,可以期待一波了。

论文地址:
https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国华裔部长骆家辉:在任时经常打压华为,退休后回到中国捞金…

美国华裔部长骆家辉:在任时经常打压华为,退休后回到中国捞金…

福建平子
2026-03-22 08:14:35
陈思诚给天下男人上了一课:48岁可以花心可以贪心,但千万要收心

陈思诚给天下男人上了一课:48岁可以花心可以贪心,但千万要收心

小椰的奶奶
2026-03-22 16:38:49
与恩师同居3年被骗,连续5次上春晚,斯琴格日乐57岁至今单身

与恩师同居3年被骗,连续5次上春晚,斯琴格日乐57岁至今单身

春风咏歌
2026-03-21 20:35:19
博主:04国少队长何小珂将征战苏超;上赛季中超结束成自由身

博主:04国少队长何小珂将征战苏超;上赛季中超结束成自由身

懂球帝
2026-03-22 23:16:21
难以置信!一福建男子称,感谢失业后妻子和他离婚,帮他减轻压力

难以置信!一福建男子称,感谢失业后妻子和他离婚,帮他减轻压力

火山詩话
2026-03-20 09:50:39
中欧第三波争端开始!欧盟建新群反华,名单公开,全是中方伙伴国

中欧第三波争端开始!欧盟建新群反华,名单公开,全是中方伙伴国

兴史兴谈
2026-03-22 07:24:49
钟振振去世,享年76岁

钟振振去世,享年76岁

极目新闻
2026-03-22 19:00:23
何润东凭《逐玉》翻红:这才叫将军,别再尬演花拳绣腿

何润东凭《逐玉》翻红:这才叫将军,别再尬演花拳绣腿

TVB的四小花
2026-03-23 04:54:48
全球首家AI妓院来了

全球首家AI妓院来了

蓝钻故事
2026-03-22 00:02:32
40年后才揭开谜底对越真相:越南真正的溃败始于许世友的3道军令

40年后才揭开谜底对越真相:越南真正的溃败始于许世友的3道军令

鉴史录
2026-03-22 10:01:56
WTI原油期货跌幅扩大至1%,报97.067美元/桶

WTI原油期货跌幅扩大至1%,报97.067美元/桶

每日经济新闻
2026-03-23 06:34:06
法国航母出大糗了!马克龙想去中东摆谱,结果反倒栽了个大跟头

法国航母出大糗了!马克龙想去中东摆谱,结果反倒栽了个大跟头

快看张同学
2026-03-21 12:08:24
雷军认错:“两车以60km/h对撞相当于一辆车以120km/h撞墙”是口误!网友:正建议于北辰代言YU7呢

雷军认错:“两车以60km/h对撞相当于一辆车以120km/h撞墙”是口误!网友:正建议于北辰代言YU7呢

大白聊IT
2026-03-21 21:13:57
1991年苏联解体,叛逃少将马尔果夫申请回国,我国做出了什么决定

1991年苏联解体,叛逃少将马尔果夫申请回国,我国做出了什么决定

唠叨说历史
2026-03-18 15:22:11
美国已被夺舍,我们是下一个?

美国已被夺舍,我们是下一个?

美第奇效应
2026-03-21 01:50:29
“最快女护士”张水华丽水马拉松夺冠!此前获评国际健将

“最快女护士”张水华丽水马拉松夺冠!此前获评国际健将

极目新闻
2026-03-22 10:13:23
美为打通霍尔木兹海峡“不择手段” 伊朗或“鱼死网破”

美为打通霍尔木兹海峡“不择手段” 伊朗或“鱼死网破”

大象新闻
2026-03-22 19:53:04
旅行者号撞上"空气墙"?宇宙可能就是一场精心设计的大型模拟游戏

旅行者号撞上"空气墙"?宇宙可能就是一场精心设计的大型模拟游戏

李将平老师
2026-03-22 16:46:15
超远的三分绝杀!!!球居然弹进去又弹出来了....离谱

超远的三分绝杀!!!球居然弹进去又弹出来了....离谱

柚子说球
2026-03-22 21:04:23
又是直红,巴尔韦德皇马生涯2次染红都是对阵马竞

又是直红,巴尔韦德皇马生涯2次染红都是对阵马竞

懂球帝
2026-03-23 05:49:19
2026-03-23 08:07:00
量子位 incentive-icons
量子位
追踪人工智能动态
12323文章数 176418关注度
往期回顾 全部

科技要闻

嫌台积电太慢 马斯克要把芯片产能飙升50倍

头条要闻

伊朗采用新型战术和升级系统 地面部队处于战备"巅峰"

头条要闻

伊朗采用新型战术和升级系统 地面部队处于战备"巅峰"

体育要闻

46岁生日快乐!巴萨全队穿10号致敬小罗

娱乐要闻

47岁“国际章”身材走样?让嘲笑她的人闭嘴

财经要闻

睡梦中欠债1.2万?这只“虾”杀疯了

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

房产
手机
旅游
教育
军事航空

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

手机要闻

OPPO K15 Pro真机外观曝光,内置风扇设计

旅游要闻

太仆寺街 皇家马政官署变身京城名人街巷

教育要闻

南京学校最新通知:晚9点,立即启动作业“熔断机制”!

军事要闻

伊朗回应美方威胁:将在战场上坚决对抗

无障碍浏览 进入关怀版