网易首页 > 网易号 > 正文 申请入驻

研究人员提出无损修复方案,困惑度降低7%-21%

0
分享至

众所周知,当下以自注意力机制与自回归生式为核心的大模型在多个领域比如学术、生产、工业等领域变得愈发不可替代。在近期一项研究中,美国迈阿密大学本科校友、美国加州大学尔湾分校博士生乔烨和所在团队从一个大模型非常日常的痛点出发:即模型需要越来越会“读长文”,但是,模型对于上下文长度的支持通常是在预训练时就定下的,在不做训练/微调的情况下无法轻易改变。

如何在不针对模型本身权重做任何修改的情况下延长上下文窗口呢?旋转位置编码(RoPE,Rotary Position Embedding)给了一定的可能性。旋转位置编码是一种能将相对位置信息依赖集成到自注意力机制中、并且能够提升模型架构性能的位置编码方式。而目前很火的 LLaMA、GLM 模型就是采用该位置编码方式。和相对位置编码相比,RoPE 具有更好的外推性,是当前大模型相对位置编码中应用最广的方式之一。

现有研究已经证实:利用旋转位置编码可以有效增大模型上下文窗口。AI 社区常用的做法是使用 RoPE 的位置插值/外推(比如线性、NTK-aware、YaRN 等)把上下文窗口拉长,这样一来无需进行再训练就能读取更长的输入;另一方面,真正落地时又不得不做后训练量化(PTQ,Post-Training Quantization)来压内存和提吞吐。但是,这两条路一旦叠加就会经常发生“冲突”。

研究团队在实验里看到,很多量化模型在使用位置插值之后,准确率开始显著下滑,尤其在超出原训练窗口时更加明显,这些效应会彼此增强,并表现在注意力 logit 噪声会“随位置而变”等方面。简而言之,他们所要解决的是“RoPE 长上下文插值”和“后训练量化”叠加后的系统性退化问题,以便让量化后的长上下文模型在不改算子、不再训练的条件下也能保持性能稳定。

通过开展这一研究,研究团队提供了业内第一份关于“旋转编码插值 + 模型量化”的系统分析与诊断,并提出了两个性能指标。

第一个性能指标是插值压力(Interpolation Pressure):它指的是当某一段频带的相位最敏感,轻微缩放就会引发较大偏移,高频带的压力普遍更大。

第二个性能指标是尾部膨胀系数(Tail-Inflation Ratios):它能用来衡量从短上下文到长上下文时,预激活与旋转后坐标轴上的“尾部/幅度”如何增长的问题。

研究中,他们还明确了四个彼此耦合的机制,它们分别是:长上下文混叠机制、动态范围膨胀机制、轴对齐量化与 RoPE 旋转角度的各向异性机制以及离群值在长序列下的转移与放大机制,这些机制会共同导致“位置相关”的 logit 误差。

基于这一判断,研究团队提出了一种仅修改权重、按频带分组、能对(W_Q, W_K)做出带限缩放的轻量方法——“Q-ROAR”。它仅仅使用很小的长文开发集,只需沿着安全边界在对数网格里搜索每个频带的缩放系数,即可选择对称缩放(W_Q 乘 g,W_K 乘 g⁻¹)来维持 logit 尺度稳定。整个过程无需再训练、也无需改内核,同时也不产生推理开销,对于量化器和后端都不会带来任何影响。

在应用前景上:

其一,可用于企业检索&RAG/合规审阅。具体来说,可用于长文档汇编、跨合同/报告等经常需要大于 32K 上下文的内容的合规核查。Q-ROAR 对于 YaRN 等插值法来说好比是一个“补丁”,故能让量化模型稳住长上下文性能,从而在同样的显存之中装下更大的上下文或更多的并发推理。

其二,可用于代码与知识库助手。具体来说,可用于超长仓库、跨多文件代码的补全与定位。研究团队在 Proof-pile、GovReport 等长序列上看到,当尺度拉到 32K、64K 甚至 131K 时,Q-ROAR 相比常见量化基线能够降低 7%–21% 的困惑度,这意味着在“读得更远”的同时不至于发散。

其三,可用于边缘/多租户部署。很多服务把激活保留在 FP16/BF16,只做权重量化或 KV 缓存量化。而 Q-ROAR 无需触碰和激活内核,与现有系统栈天然兼容,非常适合在 GPU/加速卡资源吃紧或边缘计算环境里部署。

未来:

一方面,研究团队将聚焦于轻量级激活侧校准。虽然当前方法完全“不碰”激活,但在某些强场景比如 KV 量化和极长上下文的情况下,还需探索在很小的在线/离线情况下进行校正,以便配合 ρ_W、ρ_A 指标做限量干预。

另一方面,研究团队将基于更大规模与更多基座模型开展研究。目前,他们已在 LLaMA-2-7B 和 Vicuna-7B 上做了验证,后续他们希望在更多家族与更长窗口上进行“打穿”,同时进行开源实现与一键化脚本,以便让 AI 社区进行复用。

最后,研究团队将尝试研发更好的旋转编码差值外推方法。目前工作主要基于 YaRN 和 Dynamic NTK 差值外推方法,然而研究团队认为这些方法并未达到最佳境界,因此下一步他们可能会考虑使用量化模型来研发更加合适的差值外推方法。

参考资料:

https://arxiv.org/pdf/2509.14391

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
窦唯早期的这身打扮,至今看也很时尚,才华帅气集于一身

窦唯早期的这身打扮,至今看也很时尚,才华帅气集于一身

大江
2026-05-26 11:50:46
小S分享归宁宴上的大S, 大S穿旗袍戴水晶吊坠,拿相机笑容灿烂

小S分享归宁宴上的大S, 大S穿旗袍戴水晶吊坠,拿相机笑容灿烂

素素娱乐
2026-05-26 20:52:22
日本乒协敲定亚运会名单!诞生2个不可思议,张本智和出人意料

日本乒协敲定亚运会名单!诞生2个不可思议,张本智和出人意料

姩姩有娱
2026-05-26 16:16:22
心理学中有个词叫:拆屋效应(拿捏一个人,最有效的方式,不是谈条件,也不是画大饼,而是利用「拆屋效应」)

心理学中有个词叫:拆屋效应(拿捏一个人,最有效的方式,不是谈条件,也不是画大饼,而是利用「拆屋效应」)

经济观察网
2025-12-04 09:25:48
全球越来越热,地球反而要进入冰河时代?这个反直觉预言正被验证

全球越来越热,地球反而要进入冰河时代?这个反直觉预言正被验证

半解智士
2026-04-13 15:47:58
连战方面确认不和解后,多名蓝营大佬表态,王金平喊话马英九一事

连战方面确认不和解后,多名蓝营大佬表态,王金平喊话马英九一事

一口娱乐
2026-05-26 16:49:37
深夜揭秘,8个高盛重仓股逆势涨停,15个暴涨,集中在4个方向

深夜揭秘,8个高盛重仓股逆势涨停,15个暴涨,集中在4个方向

鹏哥投研
2026-05-26 07:37:23
罗马诺:利物浦已告知阿利松,计划让他再留队一年

罗马诺:利物浦已告知阿利松,计划让他再留队一年

懂球帝
2026-05-26 08:17:29
今年天气系统出现异常!明起较强降雨来袭,云南将全面进入雨季

今年天气系统出现异常!明起较强降雨来袭,云南将全面进入雨季

8099999街头巷尾
2026-05-26 21:02:18
海外,AI龙头暴跌40%!

海外,AI龙头暴跌40%!

君临财富
2026-05-26 17:51:55
CBA总决赛被忽视了?篮协提前筹划下赛季了:广厦上海都看懵了!

CBA总决赛被忽视了?篮协提前筹划下赛季了:广厦上海都看懵了!

篮球快餐车
2026-05-26 10:32:24
央视曝光!“销量第一”,全是自导自演!又一骗局被扯下遮羞布

央视曝光!“销量第一”,全是自导自演!又一骗局被扯下遮羞布

吃青菜长高
2026-05-25 17:54:38
为什么古代的死士肯为主人卖命,网友:换我我也无法拒绝

为什么古代的死士肯为主人卖命,网友:换我我也无法拒绝

夜深爱杂谈
2026-05-18 22:01:13
气泡破灭:埃弗顿让英超众队失望,西汉姆联降级

气泡破灭:埃弗顿让英超众队失望,西汉姆联降级

林间小温柔
2026-05-27 00:16:37
2万亿资产四川发展“换帅”,张希接任党委书记

2万亿资产四川发展“换帅”,张希接任党委书记

楼市全搜索
2026-05-26 21:00:06
艺术圈"裸女专业户":她的画让评论家吵了30年

艺术圈"裸女专业户":她的画让评论家吵了30年

追星雷达站
2026-05-24 00:46:58
招嫖乱象在求职市场杀疯了,BOSS月均打击涉黄违规账号上万个!

招嫖乱象在求职市场杀疯了,BOSS月均打击涉黄违规账号上万个!

黯泉
2026-05-25 16:43:00
9球21助攻当选英超最佳,B费遭红魔名宿怒喷,曼联力挺送顶薪续约

9球21助攻当选英超最佳,B费遭红魔名宿怒喷,曼联力挺送顶薪续约

夏侯看英超
2026-05-26 23:47:16
特斯拉 FSD 已推出市场买断价格排名,韩国最便宜、国内是第二贵!

特斯拉 FSD 已推出市场买断价格排名,韩国最便宜、国内是第二贵!

新浪财经
2026-05-24 19:51:37
50岁李小冉机场吃面,褪去滤镜才懂,普通人的衰老藏不住

50岁李小冉机场吃面,褪去滤镜才懂,普通人的衰老藏不住

庭小娱
2026-05-13 12:06:40
2026-05-27 00:35:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16752文章数 514979关注度
往期回顾 全部

科技要闻

中国AI要向外卷,而不只是做第二个OpenAI

头条要闻

留神峪逃生矿工在宿舍不肯离开:拿到被拖欠的工资再走

头条要闻

留神峪逃生矿工在宿舍不肯离开:拿到被拖欠的工资再走

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

艺术
家居
游戏
本地
公开课

艺术要闻

中国之美,美到极致!

家居要闻

生与命相依 旧公寓改造

索尼PS官宣炸裂折扣!PS PLUS会员67折 还有新福利

本地新闻

用云锦的方式,打开江苏南京

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版