网易首页 > 网易号 > 正文 申请入驻

研究人员提出无损修复方案,困惑度降低7%-21%

0
分享至

众所周知,当下以自注意力机制与自回归生式为核心的大模型在多个领域比如学术、生产、工业等领域变得愈发不可替代。在近期一项研究中,美国迈阿密大学本科校友、美国加州大学尔湾分校博士生乔烨和所在团队从一个大模型非常日常的痛点出发:即模型需要越来越会“读长文”,但是,模型对于上下文长度的支持通常是在预训练时就定下的,在不做训练/微调的情况下无法轻易改变。


图 | 乔烨(来源:乔烨)

如何在不针对模型本身权重做任何修改的情况下延长上下文窗口呢?旋转位置编码(RoPE,Rotary Position Embedding)给了一定的可能性。旋转位置编码是一种能将相对位置信息依赖集成到自注意力机制中、并且能够提升模型架构性能的位置编码方式。而目前很火的 LLaMA、GLM 模型就是采用该位置编码方式。和相对位置编码相比,RoPE 具有更好的外推性,是当前大模型相对位置编码中应用最广的方式之一。

现有研究已经证实:利用旋转位置编码可以有效增大模型上下文窗口。AI 社区常用的做法是使用 RoPE 的位置插值/外推(比如线性、NTK-aware、YaRN 等)把上下文窗口拉长,这样一来无需进行再训练就能读取更长的输入;另一方面,真正落地时又不得不做后训练量化(PTQ,Post-Training Quantization)来压内存和提吞吐。但是,这两条路一旦叠加就会经常发生“冲突”。

研究团队在实验里看到,很多量化模型在使用位置插值之后,准确率开始显著下滑,尤其在超出原训练窗口时更加明显,这些效应会彼此增强,并表现在注意力 logit 噪声会“随位置而变”等方面。简而言之,他们所要解决的是“RoPE 长上下文插值”和“后训练量化”叠加后的系统性退化问题,以便让量化后的长上下文模型在不改算子、不再训练的条件下也能保持性能稳定。

通过开展这一研究,研究团队提供了业内第一份关于“旋转编码插值 + 模型量化”的系统分析与诊断,并提出了两个性能指标。

第一个性能指标是插值压力(Interpolation Pressure):它指的是当某一段频带的相位最敏感,轻微缩放就会引发较大偏移,高频带的压力普遍更大。

第二个性能指标是尾部膨胀系数(Tail-Inflation Ratios):它能用来衡量从短上下文到长上下文时,预激活与旋转后坐标轴上的“尾部/幅度”如何增长的问题。

研究中,他们还明确了四个彼此耦合的机制,它们分别是:长上下文混叠机制、动态范围膨胀机制、轴对齐量化与 RoPE 旋转角度的各向异性机制以及离群值在长序列下的转移与放大机制,这些机制会共同导致“位置相关”的 logit 误差。

基于这一判断,研究团队提出了一种仅修改权重、按频带分组、能对(W_Q, W_K)做出带限缩放的轻量方法——“Q-ROAR”。它仅仅使用很小的长文开发集,只需沿着安全边界在对数网格里搜索每个频带的缩放系数,即可选择对称缩放(W_Q 乘 g,W_K 乘 g⁻¹)来维持 logit 尺度稳定。整个过程无需再训练、也无需改内核,同时也不产生推理开销,对于量化器和后端都不会带来任何影响。

在应用前景上:

其一,可用于企业检索&RAG/合规审阅。具体来说,可用于长文档汇编、跨合同/报告等经常需要大于 32K 上下文的内容的合规核查。Q-ROAR 对于 YaRN 等插值法来说好比是一个“补丁”,故能让量化模型稳住长上下文性能,从而在同样的显存之中装下更大的上下文或更多的并发推理。

其二,可用于代码与知识库助手。具体来说,可用于超长仓库、跨多文件代码的补全与定位。研究团队在 Proof-pile、GovReport 等长序列上看到,当尺度拉到 32K、64K 甚至 131K 时,Q-ROAR 相比常见量化基线能够降低 7%–21% 的困惑度,这意味着在“读得更远”的同时不至于发散。

其三,可用于边缘/多租户部署。很多服务把激活保留在 FP16/BF16,只做权重量化或 KV 缓存量化。而 Q-ROAR 无需触碰和激活内核,与现有系统栈天然兼容,非常适合在 GPU/加速卡资源吃紧或边缘计算环境里部署。

未来:

一方面,研究团队将聚焦于轻量级激活侧校准。虽然当前方法完全“不碰”激活,但在某些强场景比如 KV 量化和极长上下文的情况下,还需探索在很小的在线/离线情况下进行校正,以便配合 ρ_W、ρ_A 指标做限量干预。

另一方面,研究团队将基于更大规模与更多基座模型开展研究。目前,他们已在 LLaMA-2-7B 和 Vicuna-7B 上做了验证,后续他们希望在更多家族与更长窗口上进行“打穿”,同时进行开源实现与一键化脚本,以便让 AI 社区进行复用。

最后,研究团队将尝试研发更好的旋转编码差值外推方法。目前工作主要基于 YaRN 和 Dynamic NTK 差值外推方法,然而研究团队认为这些方法并未达到最佳境界,因此下一步他们可能会考虑使用量化模型来研发更加合适的差值外推方法。

参考资料:

https://arxiv.org/pdf/2509.14391

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
荷兰切断中国安世晶圆供应,德国也变脸了,180度转向令各方错愕

荷兰切断中国安世晶圆供应,德国也变脸了,180度转向令各方错愕

阿器谈史
2025-11-03 10:57:39
雷军又被质疑!小米空调10年包修承诺炸屏,网友拆穿套路

雷军又被质疑!小米空调10年包修承诺炸屏,网友拆穿套路

吃瓜局
2025-11-02 15:30:18
男孩每天偷走一个馒头,老板假装不知,25年后老板泪目了

男孩每天偷走一个馒头,老板假装不知,25年后老板泪目了

黄末情感夜话
2025-11-01 22:07:00
“京东汽车”终于来了!续航500公里,11月9日上市,剑指比亚迪海豚!

“京东汽车”终于来了!续航500公里,11月9日上市,剑指比亚迪海豚!

隔壁说车老王
2025-11-03 08:56:58
开打!联合国终于不再忍耐,维和部队对以色列开火,法军开第一枪

开打!联合国终于不再忍耐,维和部队对以色列开火,法军开第一枪

音乐时光的娱乐
2025-11-03 14:55:19
那年,我受命去调查于幼军

那年,我受命去调查于幼军

霹雳炮
2025-11-02 19:38:51
断供开始了!荷兰“援军”已到,安世中国需做最坏打算

断供开始了!荷兰“援军”已到,安世中国需做最坏打算

青风点评
2025-11-03 18:21:14
造纸厂储罐发现3具女尸,法医:三人为亲姐妹,生前骨盆均被破坏

造纸厂储罐发现3具女尸,法医:三人为亲姐妹,生前骨盆均被破坏

罪案洞察者
2025-10-28 15:33:21
74岁再闯商海!王石预判未来房地产三大走向:大概率又是对的

74岁再闯商海!王石预判未来房地产三大走向:大概率又是对的

白梦日记
2025-11-03 21:07:31
美国最不愿看到的事发生,英国媒体:中国开始测试DUV光刻机

美国最不愿看到的事发生,英国媒体:中国开始测试DUV光刻机

泠泠说史
2025-11-03 17:35:11
上海女子崩溃:支付宝被连续扣款8笔!多人中招,警惕这项服务!警方紧急提醒

上海女子崩溃:支付宝被连续扣款8笔!多人中招,警惕这项服务!警方紧急提醒

上观新闻
2025-11-03 17:29:06
张柏芝:伤我最深的不是陈冠希,而是那个让我3年怀孕5次的男人

张柏芝:伤我最深的不是陈冠希,而是那个让我3年怀孕5次的男人

晓徙历史
2025-02-13 16:55:12
她是我见过且认为在整个东亚最漂亮的女人

她是我见过且认为在整个东亚最漂亮的女人

小椰的奶奶
2025-11-03 14:38:30
特朗普:大型台企将生产线向美国转移

特朗普:大型台企将生产线向美国转移

参考消息
2025-11-03 17:36:11
已有学校停课!河南疾控最新提醒……

已有学校停课!河南疾控最新提醒……

大象新闻
2025-11-03 18:26:04
女子欲望强有2个情夫,因阻止情夫和其妻缠绵,2013年被情夫杀死

女子欲望强有2个情夫,因阻止情夫和其妻缠绵,2013年被情夫杀死

汉史趣闻
2025-11-02 16:20:42
专家解剖456名糖尿病死者,发现:原来患糖尿病的人,有7个共性

专家解剖456名糖尿病死者,发现:原来患糖尿病的人,有7个共性

新时代的两性情感
2025-10-09 13:59:10
钾是香蕉的21倍,建议中老年人,隔两天吃一次,腿脚有劲,精神好

钾是香蕉的21倍,建议中老年人,隔两天吃一次,腿脚有劲,精神好

秀厨娘
2025-10-31 19:48:46
老得慢的男性一般有5个共性,若占2个以上,身体年龄比实际小10岁

老得慢的男性一般有5个共性,若占2个以上,身体年龄比实际小10岁

王晓爱体彩
2025-11-03 14:35:10
“他们逼我说台湾是中国的,不然就不救我!”一石激起千层浪

“他们逼我说台湾是中国的,不然就不救我!”一石激起千层浪

壹知眠羊
2025-08-10 07:29:29
2025-11-03 21:47:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15815文章数 514260关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

郑丽文公开表态愿意访问大陆100次:要来解决2个问题

头条要闻

郑丽文公开表态愿意访问大陆100次:要来解决2个问题

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

男导演曝丑闻 蒋欣的含金量还在上升

财经要闻

最新省市GDP:谁在飙升,谁掉队了?

汽车要闻

环比增长28.7% 方程豹品牌10月销量31052辆

态度原创

游戏
手机
家居
亲子
艺术

卡普空《虚实万象》新图!小萝莉趴地涂鸦乐无穷

手机要闻

真我GT8 Pro阿斯顿马丁F1限量版外观公布:车队同款激情柠撞色+银翼徽标

家居要闻

岁月柔情 现代品质轻奢

亲子要闻

孩子内裤上有这样的东西, 宝妈不要急着洗!

艺术要闻

90后跨国夫妻,到浙江山居:花20万租20年,值了!

无障碍浏览 进入关怀版