网易首页 > 网易号 > 正文 申请入驻

研究人员提出无损修复方案,困惑度降低7%-21%

0
分享至

众所周知,当下以自注意力机制与自回归生式为核心的大模型在多个领域比如学术、生产、工业等领域变得愈发不可替代。在近期一项研究中,美国迈阿密大学本科校友、美国加州大学尔湾分校博士生乔烨和所在团队从一个大模型非常日常的痛点出发:即模型需要越来越会“读长文”,但是,模型对于上下文长度的支持通常是在预训练时就定下的,在不做训练/微调的情况下无法轻易改变。


图 | 乔烨(来源:乔烨)

如何在不针对模型本身权重做任何修改的情况下延长上下文窗口呢?旋转位置编码(RoPE,Rotary Position Embedding)给了一定的可能性。旋转位置编码是一种能将相对位置信息依赖集成到自注意力机制中、并且能够提升模型架构性能的位置编码方式。而目前很火的 LLaMA、GLM 模型就是采用该位置编码方式。和相对位置编码相比,RoPE 具有更好的外推性,是当前大模型相对位置编码中应用最广的方式之一。

现有研究已经证实:利用旋转位置编码可以有效增大模型上下文窗口。AI 社区常用的做法是使用 RoPE 的位置插值/外推(比如线性、NTK-aware、YaRN 等)把上下文窗口拉长,这样一来无需进行再训练就能读取更长的输入;另一方面,真正落地时又不得不做后训练量化(PTQ,Post-Training Quantization)来压内存和提吞吐。但是,这两条路一旦叠加就会经常发生“冲突”。

研究团队在实验里看到,很多量化模型在使用位置插值之后,准确率开始显著下滑,尤其在超出原训练窗口时更加明显,这些效应会彼此增强,并表现在注意力 logit 噪声会“随位置而变”等方面。简而言之,他们所要解决的是“RoPE 长上下文插值”和“后训练量化”叠加后的系统性退化问题,以便让量化后的长上下文模型在不改算子、不再训练的条件下也能保持性能稳定。

通过开展这一研究,研究团队提供了业内第一份关于“旋转编码插值 + 模型量化”的系统分析与诊断,并提出了两个性能指标。

第一个性能指标是插值压力(Interpolation Pressure):它指的是当某一段频带的相位最敏感,轻微缩放就会引发较大偏移,高频带的压力普遍更大。

第二个性能指标是尾部膨胀系数(Tail-Inflation Ratios):它能用来衡量从短上下文到长上下文时,预激活与旋转后坐标轴上的“尾部/幅度”如何增长的问题。

研究中,他们还明确了四个彼此耦合的机制,它们分别是:长上下文混叠机制、动态范围膨胀机制、轴对齐量化与 RoPE 旋转角度的各向异性机制以及离群值在长序列下的转移与放大机制,这些机制会共同导致“位置相关”的 logit 误差。

基于这一判断,研究团队提出了一种仅修改权重、按频带分组、能对(W_Q, W_K)做出带限缩放的轻量方法——“Q-ROAR”。它仅仅使用很小的长文开发集,只需沿着安全边界在对数网格里搜索每个频带的缩放系数,即可选择对称缩放(W_Q 乘 g,W_K 乘 g⁻¹)来维持 logit 尺度稳定。整个过程无需再训练、也无需改内核,同时也不产生推理开销,对于量化器和后端都不会带来任何影响。

在应用前景上:

其一,可用于企业检索&RAG/合规审阅。具体来说,可用于长文档汇编、跨合同/报告等经常需要大于 32K 上下文的内容的合规核查。Q-ROAR 对于 YaRN 等插值法来说好比是一个“补丁”,故能让量化模型稳住长上下文性能,从而在同样的显存之中装下更大的上下文或更多的并发推理。

其二,可用于代码与知识库助手。具体来说,可用于超长仓库、跨多文件代码的补全与定位。研究团队在 Proof-pile、GovReport 等长序列上看到,当尺度拉到 32K、64K 甚至 131K 时,Q-ROAR 相比常见量化基线能够降低 7%–21% 的困惑度,这意味着在“读得更远”的同时不至于发散。

其三,可用于边缘/多租户部署。很多服务把激活保留在 FP16/BF16,只做权重量化或 KV 缓存量化。而 Q-ROAR 无需触碰和激活内核,与现有系统栈天然兼容,非常适合在 GPU/加速卡资源吃紧或边缘计算环境里部署。

未来:

一方面,研究团队将聚焦于轻量级激活侧校准。虽然当前方法完全“不碰”激活,但在某些强场景比如 KV 量化和极长上下文的情况下,还需探索在很小的在线/离线情况下进行校正,以便配合 ρ_W、ρ_A 指标做限量干预。

另一方面,研究团队将基于更大规模与更多基座模型开展研究。目前,他们已在 LLaMA-2-7B 和 Vicuna-7B 上做了验证,后续他们希望在更多家族与更长窗口上进行“打穿”,同时进行开源实现与一键化脚本,以便让 AI 社区进行复用。

最后,研究团队将尝试研发更好的旋转编码差值外推方法。目前工作主要基于 YaRN 和 Dynamic NTK 差值外推方法,然而研究团队认为这些方法并未达到最佳境界,因此下一步他们可能会考虑使用量化模型来研发更加合适的差值外推方法。

参考资料:

https://arxiv.org/pdf/2509.14391

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王岳伦带女出席活动,王诗龄1米7身高超何超莲,少女感穿搭获赞

王岳伦带女出席活动,王诗龄1米7身高超何超莲,少女感穿搭获赞

述家娱记
2025-11-02 22:35:31
历时4个月!国足选帅迎最终章:2人中间选1个 其中1人为本土教练

历时4个月!国足选帅迎最终章:2人中间选1个 其中1人为本土教练

风过乡
2025-11-02 11:15:31
马杜罗紧急求助普京:委内瑞拉需要导弹、雷达和飞机

马杜罗紧急求助普京:委内瑞拉需要导弹、雷达和飞机

上观新闻
2025-11-02 21:07:05
大同通报“2万套保障房10年未完工”整改进展:已完工2486套,其余正推进

大同通报“2万套保障房10年未完工”整改进展:已完工2486套,其余正推进

澎湃新闻
2025-11-02 21:58:26
“你都31岁了,还开10万的车,好意思出来相亲?”

“你都31岁了,还开10万的车,好意思出来相亲?”

吃瓜盟主
2025-11-01 23:02:24
小米粥再次被关注,研究发现:高血糖患者喝小米粥,或有8大改变

小米粥再次被关注,研究发现:高血糖患者喝小米粥,或有8大改变

周哥一影视
2025-11-01 09:05:09
直线猛拉!芯片,重大利好!

直线猛拉!芯片,重大利好!

数据宝
2025-10-31 20:20:32
溥仪的文化程度到底是有多高?专家:其实他真实学历让你望尘莫及

溥仪的文化程度到底是有多高?专家:其实他真实学历让你望尘莫及

阿鄖田间生活
2025-10-31 17:20:33
四岛不归还 斗争永不息 1975年3月26日《人民日报》

四岛不归还 斗争永不息 1975年3月26日《人民日报》

那些看得见的老照片
2025-07-18 07:00:03
云南,下!雪!啦!

云南,下!雪!啦!

鲁中晨报
2025-11-02 17:11:03
成都蓉城不想夺冠的背后:教练薪资节省1.6亿,徐正源断舍离

成都蓉城不想夺冠的背后:教练薪资节省1.6亿,徐正源断舍离

姜大叔侃球
2025-11-01 20:27:43
国军少将被中统特务逮捕,蒋介石无奈出面营救:他是我的女婿

国军少将被中统特务逮捕,蒋介石无奈出面营救:他是我的女婿

范瞼舍长
2025-11-03 00:33:00
中美刚休战,俄总理就要访华,普京知道:留给俄罗斯的时间不多了

中美刚休战,俄总理就要访华,普京知道:留给俄罗斯的时间不多了

标体
2025-11-01 16:12:01
“高中签率”新股,来了

“高中签率”新股,来了

每日经济新闻
2025-11-02 15:04:24
出卖1000多名同志,却活到74岁的蔡孝乾,为何至今没有被清算?

出卖1000多名同志,却活到74岁的蔡孝乾,为何至今没有被清算?

报君知史
2025-10-20 11:19:06
官宣离婚2年后,夺回女儿抚养权的章子怡,没给汪峰留一丝体面

官宣离婚2年后,夺回女儿抚养权的章子怡,没给汪峰留一丝体面

说历史的老牢
2025-10-28 15:02:45
王建国与爱奇艺副总裁小红结婚,后者为三档爆款节目总导演

王建国与爱奇艺副总裁小红结婚,后者为三档爆款节目总导演

草莓解说体育
2025-10-27 02:33:04
《澎湖海战》争议的不是历史

《澎湖海战》争议的不是历史

求实处
2025-11-01 21:15:02
我突然明白了,王艺迪虽然是个女孩子,球迷为啥叫她“迪哥”了?

我突然明白了,王艺迪虽然是个女孩子,球迷为啥叫她“迪哥”了?

鸿印百合
2025-11-02 09:08:34
四大银行 大额存单最新利率:2025年11月,本金20万比买国债强吗?

四大银行 大额存单最新利率:2025年11月,本金20万比买国债强吗?

双色球的方向舵
2025-11-02 09:05:48
2025-11-03 02:04:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15808文章数 514255关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

健康
时尚
艺术
旅游
本地

核磁VS肌骨超声,谁更胜一筹?

最近很火的发型,原来这么简单!

艺术要闻

陈丹青 无论画风与文风,都具有一种优雅而朴素,睿智而率真的气质

旅游要闻

这道金黄的绝美秋景里藏着古韵京华

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

无障碍浏览 进入关怀版