清华刘知远团队论文：最小化结构改动，短文本到长文本丝滑升级

分享至

InfLLM-V2：通过最小结构扰动，实现大模型从短上下文到长上下文的平滑升级。

作者丨郑佳美

编辑丨岑峰

在大语言模型快速迈向更强推理能力与更复杂应用场景的过程中，“上下文长度”已经从一个模型配置参数，演变为制约系统能力上限的关键瓶颈。

一方面，长文档理解、跨轮对话记忆、复杂规划与长链式推理等任务，对模型提出了远超传统 4k 或 8k 序列长度的需求；另一方面，主流 Transformer 架构中基于全注意力机制的计算模式，在序列长度增长时不可避免地带来平方级的时间与显存开销，使得“支持更长上下文”在现实工程中迅速转化为难以承受的成本问题。

围绕这一矛盾，稀疏注意力几乎成为学术界与工业界的共识方向，但随之而来的，并不是问题的彻底解决，而是一系列新的结构性张力。

过去数年中，大量工作尝试通过引入新的注意力结构、路由机制或可训练稀疏模块来缓解计算压力。这些方法在理论复杂度或特定评测上往往表现出色，但在真实模型训练与部署流程中，却逐渐暴露出一个被长期低估的问题：当前大语言模型几乎无一例外遵循“短序列预训练、长序列微调”的训练范式，而一些修改模型架构的稀疏注意力方案例如NSA，在结构、参数或输出形式上与标准 dense attention 存在显著不对齐。

正是在这一背景下，清华大学刘知远团队提出了《InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation》。与以往强调“引入新结构”或“增加可训练模块”的路径不同，这项研究将关注点前移至一个更基础的问题：稀疏注意力是否必须以改变模型结构为代价，才能获得长上下文效率？

为此研究团队提出了一种 dense–sparse 可切换的注意力框架，试图在以原有 dense attention 参数作为起始点，保持输出形式不变，做到长短文本可同时训练，且能高效地实现从短上下文到长上下文的平滑过渡。

值得一提的是，这项工作并未将重点放在单一指标的提升上，而是系统性地从性能保持、训练稳定性以及端到端推理效率三个层面，对这一设计思路进行了验证，从而为长上下文大语言模型的研究与工程实践提供了一条不同于以往的技术路线。

论文地址：https://arxiv.org/pdf/2509.24663

01
一次「是否真可用」的实验回答

整体来看，研究的实验设计并非简单地验证“InfLLM-V2 是否有效”，而是围绕三个逐层递进的核心问题展开：第一，在长上下文任务中，该方法的性能是否能够逼近甚至匹配全注意力机制；第二，在“短序列预训练 → 长序列微调”的真实训练范式下，该方法是否会破坏模型原有能力；第三，在完整推理流程中，稀疏注意力带来的计算加速是否能够转化为端到端的实际收益。

围绕第一个问题，研究团队重点评测了多种长输入理解任务。在 32k 长度的 RULER 基准上，InfLLM-V2（Sparse）在绝大多数子任务中的表现几乎与 Full Attention 重合，而训练后稀疏方法（如 InfLLM、MInference）在部分任务上出现明显性能断崖，可训练稀疏注意力方法 NSA 在短序列到长序列迁移的设定下也显著落后。

这一结果表明，InfLLM-V2 的稀疏策略并未破坏跨块的长距离依赖建模能力，而其他方法要么在 block 选择阶段失效，要么对原有注意力分布造成了显著扰动。

在更贴近真实应用场景的 LongBench 基准上，这一趋势表现得更加明显。由于 LongBench 覆盖问答、摘要、推理以及多语言等多种真实任务，其整体难度高于合成数据集，但 InfLLM-V2（Sparse）的整体得分依然达到甚至略微超过 Full Attention。

相比之下，NSA 的性能明显低于全注意力，而仅依赖长度外推的 SHORT+YaRN 方法则出现了大幅性能退化。研究人员进一步观察到，InfLLM-V2 的 dense / sparse 可切换机制在部分任务中反而降低了注意力噪声，从而使模型输出更加稳定。

在 LongPPL 这一用于衡量长序列语言建模能力的困惑度评测中，InfLLM-V2 的表现与 Full Attention 基本一致，而 NSA 的困惑度显著更高。这一结果说明，NSA 在短到长迁移训练后并未真正学会建模长程语言分布，其较低的训练 loss 并未转化为有效的长序列建模能力。

围绕第二个问题，研究团队还系统评估了长链式推理任务，包括 MATH-500、AIME 以及 LiveCodeBench。这类任务的共同特点在于输出序列较长，且中间推理步骤高度依赖早期上下文信息。

实验结果显示，InfLLM-V2（Sparse）在这些任务上的表现与 Full Attention 几乎持平，而 NSA 在所有相关任务中均出现了明显的性能下降。这直接表明，InfLLM-V2 所采用的稀疏注意力机制不会破坏链式思维推理过程中所需的“思维连续性”。

此外，研究人员还验证了一个在工程实践中尤为关键但常被忽视的问题：在完成长上下文微调之后，模型是否仍能够胜任常规短序列任务。在 MMLU、CEval、HumanEval 等评测中，InfLLM-V2 切回 dense 模式后依然保持了与 Full Attention 相当的性能，而 NSA 则出现了明显退化。这一结果从工程角度表明，InfLLM-V2 不会在适配长上下文能力的过程中破坏模型原有的通用能力。

最后，针对第三个问题，研究团队不仅评估了 attention kernel 层面的理论加速效果，还在完整推理流程中测量了 prefilling（TTFT）和 decoding（TPOT）的端到端效率。

在可见 token 数为 6k（|I|=96）的设置下，InfLLM-V2 实现了约 2.1× 的 prefilling 加速和 2.3× 的 decoding 加速，而且这一结果是在前馈网络（FFN）部分完全未进行优化的前提下获得的，进一步说明该稀疏注意力设计在真实推理场景中具有切实可落地的加速价值。

02
从结构选择到系统优化

结果之外，这项研究的实验实际上回答了一个更根本的问题：为什么 InfLLM-V2 的实验结果并非“偶然跑出来的”，而是其设计逻辑在完整训练流程中被系统性验证的必然结果。

研究团队首先指出，现实世界中几乎所有大语言模型都遵循“短序列预训练、长序列微调”的通行范式，因此，任何稀疏注意力方案如果在这一过程中大幅改变参数结构、调整 attention 的输出形式，都会直接损伤模型在短序列阶段已经学到的表示能力。

基于这一现实约束，研究人员明确设定了 InfLLM-V2 的核心实验前提：在从 dense attention 过渡到 sparse attention 的过程中，必须保证已有 dense attention 的表达能力不被破坏。

在具体训练流程上，研究团队首先采用完全标准的 Transformer 架构对模型进行短序列预训练，模型规模为 8B 参数，使用 GQA 结构，序列长度为 4k。这一阶段未引入任何 InfLLM-V2 相关的稀疏机制，确保模型能力完全建立在传统全注意力的基础之上。

随后，在进入长上下文训练阶段时，模型内部仅发生了三项关键变化：当序列长度超过预设阈值时，attention mask 由稠密形式切换为稀疏形式；Key 与 Value 的投影参数被完整复用，不引入新的参数分支；attention 的输出形式始终保持为 single-output 结构，不使用 gating，也不存在多路 attention 输出的聚合。

正是这种“最小结构扰动”的切换方式，使 InfLLM-V2 能够在适配长上下文的同时，最大限度保留原有模型能力，这也构成了其与 NSA 等可训练稀疏注意力方法的本质差异。

相关实验进一步验证了一个具有反直觉意味的结论：可训练的稀疏 attention 并不必然更适合短到长的迁移训练。研究人员的分析表明，NSA 在该设定下的性能问题并非源自稀疏机制本身，而是由于其引入了三套 Key–Value 投影、多路 attention 输出以及基于 gating 的结果聚合结构。

这些额外模块在短序列阶段不仅带来冗余计算开销，还会显著改变注意力分布形态，从而对模型已学到的表示造成干扰。在实验结果中，这一问题具体表现为训练 loss 曲线出现明显震荡、长序列困惑度（LongPPL）显著升高，以及长链式推理任务性能的系统性下降。

在工程实现层面，研究团队还通过进一步的消融分析定位了 InfLLM-V2 的主要性能瓶颈，发现其集中在 block selection 阶段，尤其是 compression attention 的计算以及 attention score 的显式物化过程。针对这一问题，研究人员在实验中引入了 head-group fusion 和 LSE Approximation 等优化策略。

实验结果表明，这些改进在几乎不影响模型性能的前提下，可以将 block selection 的计算时间降低约 20–30%，从而为后续端到端推理加速实验中观察到的显著性能提升奠定了关键基础。

03
可「热升级」的长上下文方案

从研究意义的角度来看，这项研究对“长上下文大语言模型”这一方向给出了具有方法论价值的启示。

研究团队明确指出，稀疏注意力机制未来的发展重点并不在于设计全新的注意力结构，而在于如何在不破坏既有 dense attention 结构的前提下实现高效的稀疏化，这一观点在一定程度上改变了此前以“结构创新”为主导的研究范式。

在工程实践层面，InfLLM-V2 所具备的一系列特性恰好契合真实工业部署的核心需求，包括无需调整模型参数规模、无需维护多套模型版本、不会牺牲短序列任务性能，且不依赖重新进行大规模预训练。这意味着，一个已经部署或训练完成的现有大语言模型，可以在最小代价下被“热升级”为具备长上下文处理能力的模型。

在此基础上，研究人员也为后续工作隐含地划定了若干重要约束：首先，应避免引入额外的 attention 分支，以免破坏原有结构的一致性；其次，不应采用与 dense attention 输出形式不兼容的设计，否则将导致短到长迁移过程中的能力损失；最后，稀疏注意力的设计必须充分考虑底层计算实现与 kernel 特性，而不仅停留在概念层面的结构优雅性。

正是由于该研究将训练范式、模型结构设计以及 CUDA 级实现细节进行了统一考量，并系统性地解释了以往稀疏注意力方法在真实训练与推理流程中失败的原因，才使其不仅停留在方法层面的提出，而能够进一步支撑实际模型的训练与落地应用，这也是研究团队能够基于该框架直接产出 MiniCPM-4.1 等模型的重要原因。

04
InfLLM-V2 主要作者

赵威霖，他是清华大学计算机科学与技术系自然语言处理实验室（THUNLP）的博士研究生，研究方向聚焦于高效大语言模型。

他的研究主要围绕模型推理与训练加速展开，关注点并非单纯引入新的模型结构，而是如何在不破坏标准 Transformer 表达能力与既有模型性能的前提下，实现对各类场景的有效适配与工程级加速。

除学术研究外，他还长期参与 OpenBMB、MiniCPM 等开源项目，在高性能 attention kernel、推理优化与系统实现方面承担关键工程工作，其研究成果发表于 ICLR、ACL、EMNLP 等国际主流会议。

参考链接：https://weilin-zhao.com

刘知远，他是清华大学计算机科学与技术系教授、博士生导师，兼任中国中文信息学会理事、社会媒体处理专委会副主任等学术职务。

刘知远分别于 2006 年、 2011 年于清华大学计算机科学与技术系获得学士、博士学位，并在清华大学开展博士后研究，后留校任教。其主要研究方向包括大模型技术、自然语言处理、知识图谱与语义计算以及社会计算等核心领域。

刘知远在国际主流学术会议和期刊（如Nature Machine Intelligence、ACL、EMNLP、IJCAI 和 AAAI）上发表了 200 余篇论文，其 Google Scholar 引用量超过7万次，反映出广泛的学术影响力。

他在多项国家级科研项目中担任负责人或主要参与者，曾获教育部自然科学一等奖、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖、世界互联网领先科技成果奖、北京市青年教学名师奖等多项科研奖励，并入选包括国家青年人才计划、Elsevier 中国高被引学者、《麻省理工科技评论》中国区“35 岁以下科技创新 35 人榜单”及中国科协青年人才托举工程等人才项目。

参考地址：https://nlp.csai.tsinghua.edu.cn/~lzy/zh.html

韩旭，他是清华大学计算机科学与技术系助理研究员，也是大模型开源社区 OpenBMB 的核心发起人与长期负责人之一。

韩旭长期从事大模型技术、自然语言处理、知识工程等方面的研究，部分研究也涉及并行计算、异构系统优化等方向，在国际顶级学术会议及期刊发表论文数十篇，Google Scholar 他引 1.6 万余次，曾获教育部自然科学一等奖、世界互联网大会领先科技奖，并入选中国计算机学会（CCF）优博激励计划、清华优秀博士后、《麻省理工科技评论》中国区“35 岁以下科技创新 35 人榜单”、及博士后创新人才支持计划。

参考链接：https://www.cs.tsinghua.edu.cn/info/1114/6422.htm

肖朝军，他是清华大学计算机系博士后，主要研究方向为高效大模型架构，在Nature Machine Intelligence、ICML、NeurIPS、ICLR、ACL等国际顶级会议及期刊发表论文多篇，曾获钱伟长中文信息处理科学技术奖一等奖，博士后创新人才支持计划，清华大学水木学者，清华大学优秀博士论文等荣誉。

参考链接：https://xcjthu.github.io/

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.