网易首页 > 网易号 > 正文 申请入驻

字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀

0
分享至

机器之心报道

编辑:杜伟

最近,DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展(length scaling),通过强化学习(比如 PPO、GPRO)训练模型生成很长的推理链(CoT),并在奥数等高难度推理任务上取得了显著的效果提升。

受此启发,研究人员开始探索预训练阶段的长度扩展,已有方法包括在序列中插入文本、插入潜在向量(如 Coconut)、复用中间层隐藏状态(如 CoTFormer)以及将中间隐藏状态映射为概念(如 COCOMix)。不过,这些方法普遍存在问题,比如需要更大的 KV 缓存导致推理慢 / 占内存多。

本文中,来自 ByteDance Seed 团队的研究者提出了更简单的方法:直接重复输入 tokens(1/2/3/4 次),不做中间层处理。他们观察到了训练损失和模型性能随重复倍数扩展的趋势,如下图 1a 和 1b 所示。但是,直接重复 tokens 也带来了新问题,包括 KV 缓存规模线性增加,内存压力大;预填充时间超线性增加;解码延迟变长。这些都是实现预训练长度扩展需要重点解决的挑战。

  • 论文标题:Efficient Pretraining Length Scaling
  • arXiv 地址:https://arxiv.org/pdf/2504.14992

研究者提出了一种推理友好的新颖长度扩展方法,核心是 PHD-Transformer(Parallel Hidden Decoding Transformer),它保持了与原始 transformer 相同的 KV 缓存大小,同时实现有效的长度扩展。PHD-Transformer 通过创新的 KV 缓存管理策略实现了这些能力。

具体来讲,研究者将第一个 token 表示原始 token,将重复的 token 表示为解码 token。同时仅保留从原始 token 生成的 KV 缓存来用于长距离依赖建模,并在隐藏解码 token 用于下一个 token 预测之后丢弃它们的 KV 缓存。因此,PHD-Transformer 提供了与原始 transformer 相同的 KV 缓存,同时相较于简单的 token 重复实现了显著的推理加速(如图 1d 所示)。

研究者还注意到,在 PHD-SWA 中,隐藏解码 token 的 KV 缓存表现出了顺序依赖关系,这导致预填充时间呈线性增长。为了解决这个问题,研究者提出了逐块滑动窗口注意力 —— PHD-CSWA,从而限制了每个块内的顺序依赖关系。

因此,得益于只有最后一个块的预填充时间呈线性增长,PHD-CSWA 显著缩短了预填充时间(如图 1c 所示)。

方法概览

研究者在推理过程中实现了与原始 Transformer 相同的 KV 缓存大小和内存访问模式。虽然需要 K 次 FLOP,但这些计算可以并行处理,从而在内存受限的推理场景中最大限度地降低延迟开销。该架构的核心优势在于原始 token 和隐藏解码 token 之间的解耦。在预填充期间,只有原始 token 需要计算。

这种设计确保预填充时间与原始 Transformer 相同,并且无论扩展因子 K 如何变化,预填充时间都保持不变。而对于损失计算,研究者仅使用 token 的最终副本进行下一个 token 的预测。总之,使用 token 的第一个副本进行 KV 缓存生成,使用 token 的最后一个副本进行下一个 token 的预测。

内核设计

PHD-SWA 和 PHD-CSWA

与简单的 token 重复相比,PHD-Transformer 在保持原始 KV 缓存大小的同时实现了长度扩展。然而通过经验观察到,为隐藏解码 token 保留一些 KV 缓存可以带来显著的性能提升。因此,为了在保持效率的同时获得这些优势,研究者引入了 PHD-SWA,将滑动窗口注意力限制在 W 个先前的隐藏解码 token 上。

虽然 PHD-SWA 滑动窗口方法提升了模型性能,但由于隐藏解码 token 的 KV 缓存中存在顺序依赖关系,它会产生 K 倍的预填充开销。为了解决这个问题,研究者引入了 PHD-CSWA,它可以在独立的块内处理注意力。

如下图 4 所示,PHD-CSWA 将滑动窗口注意力限制在单个块内运行。这种架构创新将额外的预填充开销减少到最终块内的 K 次重复,而不是整个序列重复,这使得额外的计算成本几乎可以忽略不计,同时保留了局部注意力模式的优势。

实验结果

在实验中,研究者使用 OLMo2 作为代码库,并在 ARC、HellaSwag、PIQA、Winogrande、MMLU 和 CommonsenseQA 等公开基准测试集上进行了评估。

训练细节:研究者使用 1.2B 参数规模的模型,它是一个 16 层的密集模型。每个 token 的隐藏层维数设置为 2048,FFN 层的隐藏层大小设置为 16384。同时使用组查询注意力 (Group-Query Attention,GQA),它包含 32 个查询头和 8 个键 / 值头,每个头的隐藏层维数设置为 64。研究者使用 500B 个 token 训练该模型。

对于本文提出的 PHD 系列设置,研究者预训练了以下两种 PHD-CSWA 变体:

  • PHD-CSWA-2-16-32,其中训练 token 重复两次。保留一个包含 16 个 token 的局部窗口,并将块大小设置为 32 个 token。
  • PHD-CSWA-3-16-32,其中训练 token 重复三次。局部窗口大小和块大小与 PHD-CSWA-2-16-32 的设置相同。

PHD-CSWA 在各个基准测试中均实现了持续的性能提升。下图 5 中展示了训练曲线,下表 1 中展示了主要结果。本文提出的 PHD-CSWA-2-16-32 在这些基准测试中平均实现了 1.5% 的准确率提升,训练损失降低了 0.025;而 PHD-CSWA-3-16-32 在这些基准测试中平均实现了 2.0% 的准确率提升,训练损失降低了 0.034。

研究者还分析了 PHD 和 PHD-SWA 的扩展性能,以分析扩展解码计算的性能。 训练细节:使用相同的 550M 模型配置,将窗口大小 W 设置为 16,并在 {2, 3, 5} 范围内改变扩展因子 K。对于局部窗口大小,研究者在所有实验中都将窗口大小设置为 16。

PHD-SWA 的性能在增加扩展因子时有效扩展。如下图 8 所示,使用固定窗口大小时,损失曲线和下游性能会随着 token 重复次数而有效扩展。通过将扩展因子设置为 5,可以实现接近 0.06 的损失降低,同时显著提升下游性能。

下表 2 中的定量结果表明,当扩展至 K = 5 时,所有基准测试的平均准确率提高了 1.8%,这证实了本文的方法在更激进的扩展方面仍然有效。

更多实验结果请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰二婚妻子颜值高,正面照片流出,遗产继承恐陷纷争

张雪峰二婚妻子颜值高,正面照片流出,遗产继承恐陷纷争

老猫观点
2026-03-26 07:35:34
200亿美元收益!NBA推进两大计划 每队老板至少分到6.5亿美元

200亿美元收益!NBA推进两大计划 每队老板至少分到6.5亿美元

罗说NBA
2026-03-26 06:21:27
卡塔尔向伊朗交60亿美元保护费? 伊朗打击升级: 瞄准以色列往死里打

卡塔尔向伊朗交60亿美元保护费? 伊朗打击升级: 瞄准以色列往死里打

起喜电影
2026-03-26 13:20:15
中年男人最大的悲哀是什么?网友:说到底就是自己能力差呗

中年男人最大的悲哀是什么?网友:说到底就是自己能力差呗

带你感受人间冷暖
2026-03-23 00:02:19
陈明仁起义开价:保留兵团司令,林彪看完只说了4个字

陈明仁起义开价:保留兵团司令,林彪看完只说了4个字

史海孤雁
2026-03-24 17:26:17
50岁何润东做梦也没想到,因张凌赫一个造型,让他的口碑一夜暴涨

50岁何润东做梦也没想到,因张凌赫一个造型,让他的口碑一夜暴涨

八卦南风
2026-03-24 15:15:25
“上海实体交通卡,为啥退不了?”73岁老伯来沪遭遇引发质疑,记者调查:确实难

“上海实体交通卡,为啥退不了?”73岁老伯来沪遭遇引发质疑,记者调查:确实难

新民晚报
2026-03-25 18:45:33
美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

沧海旅行家
2026-03-26 13:11:41
估价32万!这4种年份的1元硬币,可要留好了!

估价32万!这4种年份的1元硬币,可要留好了!

富哥爱收藏
2026-03-26 13:51:45
爆料广东队教练组大调整,杜锋面临下课,替代者现身,球迷支持

爆料广东队教练组大调整,杜锋面临下课,替代者现身,球迷支持

宗介说体育
2026-03-25 10:31:37
稀土案告破:截获220吨,够造90架F-35核心材料

稀土案告破:截获220吨,够造90架F-35核心材料

策略述
2026-03-26 13:45:33
62年胡宗南病逝,死前高举左手惊叫数声,其子:他常恨自己没早死

62年胡宗南病逝,死前高举左手惊叫数声,其子:他常恨自己没早死

云霄纪史观
2026-03-26 11:47:26
女同主播出轨大哥 被"正宫"直播对质!真实长相曝光

女同主播出轨大哥 被"正宫"直播对质!真实长相曝光

游民星空
2026-03-25 20:08:13
如今三大战场同时开打,中国一个举动,却是让西方悟了一个道理

如今三大战场同时开打,中国一个举动,却是让西方悟了一个道理

近史谈
2026-03-25 20:26:28
海关总署署长孙梅君到广东调研

海关总署署长孙梅君到广东调研

证券时报
2026-03-26 13:26:01
49年上海解放第三天,李克农密电陈毅:不惜全部代价,找着李静安

49年上海解放第三天,李克农密电陈毅:不惜全部代价,找着李静安

让时间说真话
2024-03-26 15:23:22
张雪峰去世,“跑完步就不行了”:苏州独墅湖医院外的生死4小时

张雪峰去世,“跑完步就不行了”:苏州独墅湖医院外的生死4小时

哲学船
2026-03-25 00:44:19
个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

中国能源网
2026-03-25 13:53:05
留意!局部暴雨+短时大风,3月27日起广东降水将趋于频密

留意!局部暴雨+短时大风,3月27日起广东降水将趋于频密

新浪财经
2026-03-26 03:04:38
五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

福建平子
2026-03-25 10:14:49
2026-03-26 14:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12604文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
本地
房产
亲子
军事航空

家居要闻

傍海而居 静观蝴蝶海

本地新闻

春日吃花第三站——广东

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版