网易首页 > 网易号 > 正文 申请入驻

字节新推理模型逆袭DeepSeek,200B战胜671B,豆包史诗级加强?

0
分享至

  • 梦晨 发自 凹非寺
    量子位 | 公众号 QbitAI

字节最新深度思考模型,在数学、代码等多项推理任务中超过DeepSeek-R1了?而且参数规模更小。

同样是MoE架构,字节新模型Seed-Thinking-v1.5有200B总参数和20B激活参数。

对比DeepSeek-R1的671B总参数和37B激活参数,可以算得上轻量级了。

目前,完整的技术报告已公开发布,其中揭示了诸多秘诀。

字节Seed团队聚焦大规模强化学习,并从三个角度提升了推理表现:数据、RL算法和RL基础设施。

可验证与不可验证问题

从数据开始说起,字节团队把RL训练数据分为两个部分,具有明确答案的可验证问题和没有明确答案的不可验证问题,采用不同的奖励建模方法。

这其中,模型的推理能力主要来自可验证问题,并可以推广到不可验证问题。

可验证问题包括问题与答案配对的STEM问题、附带单元测试的代码问题,以及适合自动验证的逻辑推理问题(24点、迷宫、数独等)。

不可验证问题主要包括根据人类偏好评估的非推理任务,如创意写作、翻译、知识QA、角色扮演等。

对于不可验证问题,字节团队丢弃了样本分数方差低、难度低的数据。此类数据可能过于简单或已在数据集中大量表示。离线实验表明,过度优化此类样本会导致模型的探索空间过早崩溃并降低性能。

此外,团队还打造了全新数学推理评测集BeyondAIME。

当前的推理模型通常使用AIME作为评估数学推理能力的首选基准,但该基准每年只发布30个问题,有限的规模可能会导致高方差的评估结果,难以有效区分最先进的推理模型。

字节与数学专家合作,根据既定的比赛形式开发原创问题。通过结构修改和情景重新配置来系统地调整现有的比赛问题,确保不会发生直接重复。此外还确保答案不是容易猜的数值(例如问题陈述中明确提到的数字),以减少模型在没有适当推理的情况下猜出正确答案的机会。

RL算法

强化学习虽然强大,但训练起来也很不稳定,经常崩溃。

字节在技术报告中提到”有时,两次运行之间的分数差异可能高达10分”。

针对这个问题,团队提出了VAPO和DAPO两个RL框架,分别从基于价值和无价值的RL范式出发来稳定训练。

VAPO和DAPO两篇论文都已单独发布。

此外,在Seed-Thining-v1.5中,还借鉴了之前学术界工作中的很多关键技术:

  • 价值预训练(Value-Pretraining),保证价值网络和策略网络一致
  • 解耦的GAE(Decoupled-GAE),让两个网络更独立高效
  • 长度自适应GAE(Length-adaptive GAE),更好处理不同长度序列
  • 解耦PPO损失(Clip-Higher),为低概率token的增长创造,了更多空间鼓励模型探索新方案
  • Token级损失(Token-level Loss),平衡每个token对训练过程的影响。
  • 正例增强(Postive Example LM Loss),提高RL训练过程中正样本的利用效率,从而提高模型整体性能

RL基础设施

在Long-CoT生成过程中,字节团队观察到各种提示词之间的响应长度差异较大,在生成过程中出现大量GPU空闲时间。

为了缓解长尾响应生成的滞后问题,提出了SRS(流式Rollout系统),一种资源感知型调度框架,可战略性地部署独立的流式计算单元,将系统约束从内存绑定转换为计算绑定。

为了有效地大规模训练,团队还设计了一个混合分布式训练框架,集成高级并行策略、动态工作负载平衡和内存优化:

  • 并行机制:将TP (张量并行)/EP (专家并行)/CP (上下文并行)与全分片数据并行 (FSDP) 组合在一起,具体来说,将TP/CP 应用于注意力层,将EP应用于 MoE 层。
  • 序列长度平衡:DP等级之间的有效序列长度可能不平衡,导致计算工作量不平衡和训练效率低下。利用KARP算法在一个mini-batch内重新排列输入序列,使它们在micro-batch之间保持平衡。
  • 内存优化:采用逐层重新计算、激活卸载和优化器卸载来支持更大micro-batch的训练,以覆盖FSDP引起的通信开销。
  • 自动并行:为了实现最佳系统性能,开发了AutoTuner 自动调整系统,按照基于配置文件的解决方案 对内存使用情况进行建模。然后估计各种配置的性能和内存使用情况以获得最优配置。
  • 检查点:使用ByteCheckpoint支持从不同的分布式配置中以最小的开销恢复检查点,弹性训练以提高集群效率。

最终,在多项自动评估中,Seed-Thinking-v1.5在AIME 2024基准测试中取得86.7,与OpenAI的o3-mini-high模型的性能相当。但在最近的AIME 2025和BeyondAIME中,Seed-Thinking-v1.5仍然落后于o3级别的性能。

对于GPQA任务,Seed-Thinking-v1.5达到77.3%的准确率,接近o3-mini-high的性能。

在Codeforces等代码生成场景中,Seed-Thinking-v1.5的性能与Gemini 2.5 Pro 的性能相当,但仍落后于o3-mini-high。

Seed-Thinking-v1.5在SimpleQA上的表现不太理想。但团队认为,该基准测试预训练模型规模的相关性更强,而不是考验推理能力。

许多人看完这篇技术报告,都很感兴趣,不过找了一圈也没找到模型在哪发布。

从技术报告的口径来看,该模型与目前豆包中的Doubao-1.5 Pro并不是一回事。

但从作者名单看,这是由字节Seed团队负责人吴永辉带队,主要成员都参与的大项目。

那么是否将来会部署到豆包APP,可以期待一波了。

论文地址:
https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大闹美联航大妈后续:以为回国就没事?三重处罚直接砸脸上

大闹美联航大妈后续:以为回国就没事?三重处罚直接砸脸上

云景侃记
2026-07-02 09:24:22
保送四强?这支阿根廷从头到脚写着卫冕二字!梅西或打破卫冕魔咒

保送四强?这支阿根廷从头到脚写着卫冕二字!梅西或打破卫冕魔咒

打小我就醜
2026-07-02 08:13:22
“妹爷”应宝林去世!最后露面瘦脱相,爱喝白酒,女搭档上月离世

“妹爷”应宝林去世!最后露面瘦脱相,爱喝白酒,女搭档上月离世

胡一舸南游y
2026-07-01 15:48:54
走面风波升级,“一言不发”的冯小刚,终于不再顾及所谓的体面!

走面风波升级,“一言不发”的冯小刚,终于不再顾及所谓的体面!

手工制作阿歼
2026-07-02 08:51:45
高铁“变味”了?如今的高铁,为什么越来越多的人不想坐了呢?

高铁“变味”了?如今的高铁,为什么越来越多的人不想坐了呢?

混沌录
2026-07-01 19:03:21
世界杯刚出线!佛得角转头就把公务车全换成了比亚迪

世界杯刚出线!佛得角转头就把公务车全换成了比亚迪

快科技
2026-07-01 19:20:05
广西武宣县警方:重型半挂牵引车与小型普通客车碰撞,致4死2伤

广西武宣县警方:重型半挂牵引车与小型普通客车碰撞,致4死2伤

澎湃新闻
2026-07-02 05:26:05
楼上泼我家3年脏水,他儿考飞行员,我带15份录音证明送航司纪检

楼上泼我家3年脏水,他儿考飞行员,我带15份录音证明送航司纪检

千秋文化
2026-06-27 19:40:09
NASA局长艾萨克曼:若美国队夺得世界杯,就把足球送上月球

NASA局长艾萨克曼:若美国队夺得世界杯,就把足球送上月球

IT之家
2026-07-01 14:35:14
巴西最贵、世界第六,维尼修斯跻身世界杯球员身价榜

巴西最贵、世界第六,维尼修斯跻身世界杯球员身价榜

補懂事的孩紙
2026-07-02 10:49:35
浓眉转发嘲讽佩林卡评论:浓眉被捅刀了!跪求中锋多年佩总一动不动

浓眉转发嘲讽佩林卡评论:浓眉被捅刀了!跪求中锋多年佩总一动不动

818体育
2026-07-02 11:42:54
1换5交易达成!总决赛MVP啊,就这么卖掉了?

1换5交易达成!总决赛MVP啊,就这么卖掉了?

德译洋洋
2026-07-02 11:39:51
CCTV5直播:中国男篮主场胜日本,杨瀚森遭重点盯防

CCTV5直播:中国男篮主场胜日本,杨瀚森遭重点盯防

十三哥侃大山
2026-07-02 00:27:09
性压抑已经恐怖如斯了?

性压抑已经恐怖如斯了?

黯泉
2026-07-01 10:07:17
7-2,死亡小组全军覆没,1夺冠热门倒下,冠军将在3支胜利队产生

7-2,死亡小组全军覆没,1夺冠热门倒下,冠军将在3支胜利队产生

我就是一个说球的
2026-07-01 15:49:26
场均15+4+5+3+2!杜兰特迎来强力帮手,硬刚马刺雷霆有戏了

场均15+4+5+3+2!杜兰特迎来强力帮手,硬刚马刺雷霆有戏了

篮球大视野
2026-07-01 23:09:24
不是洪明浦!美加墨世界杯“最差”主教练出炉,国足也曾被他坑过

不是洪明浦!美加墨世界杯“最差”主教练出炉,国足也曾被他坑过

篮球圈里的那些事
2026-07-01 19:30:10
1-0绝杀!世界杯又一黑马诞生:全场狂欢庆祝,改写96年新历史

1-0绝杀!世界杯又一黑马诞生:全场狂欢庆祝,改写96年新历史

宝哥精彩赛事
2026-07-01 19:58:24
险胜日本不到24小时,名帅安切洛蒂作出重要决定,为巴西冲冠铺路

险胜日本不到24小时,名帅安切洛蒂作出重要决定,为巴西冲冠铺路

王大发不懂球
2026-07-02 06:06:13
海淀15%学生拿走了80%的清北名额?教育分层比你想象的更残酷

海淀15%学生拿走了80%的清北名额?教育分层比你想象的更残酷

朗威谈星座
2026-07-02 08:23:56
2026-07-02 12:23:00
量子位 incentive-icons
量子位
追踪人工智能动态
12882文章数 176508关注度
往期回顾 全部

科技要闻

可灵AI上市前夜,快手想给它融30亿美元

头条要闻

父亲带9岁女儿在清华门口合影 17年后二人复刻了照片

头条要闻

父亲带9岁女儿在清华门口合影 17年后二人复刻了照片

体育要闻

世界杯硬核球迷,把自己变成了雕像

娱乐要闻

霍震霆回应霍启山娜然结婚传闻

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

比亚迪26款海鸥,不到7万配激光雷达,官方还包赔?

态度原创

健康
教育
亲子
艺术
公开课

年糕汤圆别油炸,水煮清蒸更健康

教育要闻

“没钱就别生我”,这都什么心理

亲子要闻

《泸州谣》儿童版,把泸州的童谣唱给你听,回忆起来了

艺术要闻

光辉历程 时代丹青——庆祝中国共产党成立105周年美展 油画选

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版