众所周知,当下以自注意力机制与自回归生式为核心的大模型在多个领域比如学术、生产、工业等领域变得愈发不可替代。在近期一项研究中,美国迈阿密大学本科校友、美国加州大学尔湾分校博士生乔烨和所在团队从一个大模型非常日常的痛点出发:即模型需要越来越会“读长文”,但是,模型对于上下文长度的支持通常是在预训练时就定下的,在不做训练/微调的情况下无法轻易改变。
![]()
图 | 乔烨(来源:乔烨)
如何在不针对模型本身权重做任何修改的情况下延长上下文窗口呢?旋转位置编码(RoPE,Rotary Position Embedding)给了一定的可能性。旋转位置编码是一种能将相对位置信息依赖集成到自注意力机制中、并且能够提升模型架构性能的位置编码方式。而目前很火的 LLaMA、GLM 模型就是采用该位置编码方式。和相对位置编码相比,RoPE 具有更好的外推性,是当前大模型相对位置编码中应用最广的方式之一。
现有研究已经证实:利用旋转位置编码可以有效增大模型上下文窗口。AI 社区常用的做法是使用 RoPE 的位置插值/外推(比如线性、NTK-aware、YaRN 等)把上下文窗口拉长,这样一来无需进行再训练就能读取更长的输入;另一方面,真正落地时又不得不做后训练量化(PTQ,Post-Training Quantization)来压内存和提吞吐。但是,这两条路一旦叠加就会经常发生“冲突”。
研究团队在实验里看到,很多量化模型在使用位置插值之后,准确率开始显著下滑,尤其在超出原训练窗口时更加明显,这些效应会彼此增强,并表现在注意力 logit 噪声会“随位置而变”等方面。简而言之,他们所要解决的是“RoPE 长上下文插值”和“后训练量化”叠加后的系统性退化问题,以便让量化后的长上下文模型在不改算子、不再训练的条件下也能保持性能稳定。
通过开展这一研究,研究团队提供了业内第一份关于“旋转编码插值 + 模型量化”的系统分析与诊断,并提出了两个性能指标。
第一个性能指标是插值压力(Interpolation Pressure):它指的是当某一段频带的相位最敏感,轻微缩放就会引发较大偏移,高频带的压力普遍更大。
第二个性能指标是尾部膨胀系数(Tail-Inflation Ratios):它能用来衡量从短上下文到长上下文时,预激活与旋转后坐标轴上的“尾部/幅度”如何增长的问题。
研究中,他们还明确了四个彼此耦合的机制,它们分别是:长上下文混叠机制、动态范围膨胀机制、轴对齐量化与 RoPE 旋转角度的各向异性机制以及离群值在长序列下的转移与放大机制,这些机制会共同导致“位置相关”的 logit 误差。
基于这一判断,研究团队提出了一种仅修改权重、按频带分组、能对(W_Q, W_K)做出带限缩放的轻量方法——“Q-ROAR”。它仅仅使用很小的长文开发集,只需沿着安全边界在对数网格里搜索每个频带的缩放系数,即可选择对称缩放(W_Q 乘 g,W_K 乘 g⁻¹)来维持 logit 尺度稳定。整个过程无需再训练、也无需改内核,同时也不产生推理开销,对于量化器和后端都不会带来任何影响。
在应用前景上:
其一,可用于企业检索&RAG/合规审阅。具体来说,可用于长文档汇编、跨合同/报告等经常需要大于 32K 上下文的内容的合规核查。Q-ROAR 对于 YaRN 等插值法来说好比是一个“补丁”,故能让量化模型稳住长上下文性能,从而在同样的显存之中装下更大的上下文或更多的并发推理。
其二,可用于代码与知识库助手。具体来说,可用于超长仓库、跨多文件代码的补全与定位。研究团队在 Proof-pile、GovReport 等长序列上看到,当尺度拉到 32K、64K 甚至 131K 时,Q-ROAR 相比常见量化基线能够降低 7%–21% 的困惑度,这意味着在“读得更远”的同时不至于发散。
其三,可用于边缘/多租户部署。很多服务把激活保留在 FP16/BF16,只做权重量化或 KV 缓存量化。而 Q-ROAR 无需触碰和激活内核,与现有系统栈天然兼容,非常适合在 GPU/加速卡资源吃紧或边缘计算环境里部署。
未来:
一方面,研究团队将聚焦于轻量级激活侧校准。虽然当前方法完全“不碰”激活,但在某些强场景比如 KV 量化和极长上下文的情况下,还需探索在很小的在线/离线情况下进行校正,以便配合 ρ_W、ρ_A 指标做限量干预。
另一方面,研究团队将基于更大规模与更多基座模型开展研究。目前,他们已在 LLaMA-2-7B 和 Vicuna-7B 上做了验证,后续他们希望在更多家族与更长窗口上进行“打穿”,同时进行开源实现与一键化脚本,以便让 AI 社区进行复用。
最后,研究团队将尝试研发更好的旋转编码差值外推方法。目前工作主要基于 YaRN 和 Dynamic NTK 差值外推方法,然而研究团队认为这些方法并未达到最佳境界,因此下一步他们可能会考虑使用量化模型来研发更加合适的差值外推方法。
参考资料:
https://arxiv.org/pdf/2509.14391
运营/排版:何晨龙
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.