网易首页 > 网易号 > 正文 申请入驻

LSTM之父造出PoPE:终结RoPE泛化难题,实现Transformer极坐标进化

0
分享至



编辑|Panda

Transformer 架构中的注意力机制是根据内容(what)和序列中的位置(where)将键(key)与查询(query)进行匹配。

而在近期 LSTM 之父 Jürgen Schmidhuber 的 USI & SUPSI 瑞士 AI 实验室团队的一项新研究中,分析表明,当前流行的旋转位置嵌入(RoPE)方法中的 what 与 where 是纠缠在一起的。这种纠缠会损害模型性能,特别是当决策需要对这两个因素进行独立匹配时。

基于这一观察,他们提出了新的方案:极坐标位置嵌入(Polar Coordinate Position Embedding ),简称PoPE



该团队表示,PoPE 消除了内容与位置的混淆,使得其在需要仅通过位置或仅通过内容进行索引的诊断任务上表现远优于 RoPE。



  • 论文标题:Decoupling the "What" and "Where" With Polar Coordinate Positional Embeddings
  • 论文地址:https://arxiv.org/abs/2509.10534

该论文的一作为 Anand Gopalakrishnan,目前正在哈佛大学从事博士后研究,曾是 Jürgen Schmidhuber 的博士生。参与者中还有 OpenAI 的研究科学家 Róbert Csordás,以及科罗拉多大学计算机科学系教授 Michael C. Mozer(目前已加入谷歌 DeepMind)。

RoPE 的问题

在许多前沿模型中,为了将位置信息纳入进来,RoPE 是首选方法,包括 Llama 3、DeepSeek-v3、Gemma 3 和 Qwen3。它会为每个查询-键对生成注意力分数,该分数基于它们的匹配程度及其在输入序列中的相对位置。

为了更好地理解 RoPE,这里以特定层中的特定注意力头进行说明。该注意力头的作用是执行位置 t 的查询 q_t 与位置 s 的键 k_s 之间的匹配。键和查询是 d 维向量,被划分为 d/2 个二维分量。

这里用 q_tc 和 k_sc 分别表示查询和键的分量 c∈{1,...,d/2}。RoPE 首先在 2D 平面中将每个分量 c 旋转一个与位置成正比的角度。如果 R (Φ) 是执行角度 Φ 旋转的 2×2 矩阵,则旋转后的查询和键分别为 R (tθ_c) q_tc 和 R (sθ_c) k_sc,其中 θ_c 是分量特定的基波波长(base wavelength):。下图展示了查询(或键)分量的构成及其在二维空间中的旋转方式。





对应的键和查询分量通过点积匹配并求和以获得注意力分数:



将分量对齐的旋转仅取决于键和查询的相对位置,而不取决于它们的绝对位置。

如果将键和查询分量从笛卡尔坐标重新表示为极坐标:



由此,注意力分数可写为:



这清楚地表明,嵌入的每个双元素分量都被转换为单个幅值,并且通过 Φ_{q_tc} 和 Φ_{k_sc} 引入了对产生最大响应的相对位置(相位)的调整。因此,键和查询都混淆了关于特征存在与否的信息(what)和相对位置(where)。

该团队的假设是,通过解耦这两类不同的信息,特别是通过消除交互项 ,可以提高模型性能。

解决方案:PoPE

在 RoPE 中,该团队将键和查询的 d/2 个分量解释为复数。而在该团队提出的方法中,该团队利用了极坐标表示的另一种形式,称之为极坐标位置嵌入,即 PoPE。

在 PoPE 中,该团队将键和查询转换为相应的 d 元素复向量 和 。每个元素 c 的幅值是对原始实值键或查询对应元素的重新缩放:



其中 σ(x)=ln (1+e^x) 表示 softplus 激活函数,确保幅值非负。相位仅取决于位置:



PoPE 的注意力分数定义为:



与 RoPE 相比,PoPE:

  • 在单个元素而非元素对上进行索引,将频率数量从 d/2 增加到 d;
  • 消除了导致键和查询影响相位的交互项。

此外,还可以引入一个可学习但固定的偏置项 :



其中 δ_c 是为每个频率调整最佳相对偏移的可学习偏置。

该团队使用 Triton 实现了 PoPE。

通过修改内核,在不显式实例化复杂矩阵的情况下计算点积的实部。该团队的定制 Flash Attention 相比标准版仅需额外一次乘法。该团队表示,虽然目前的通用变体内存开销较大,但可以通过在内核内部执行旋转来优化。

那么,表现如何呢?

该团队将 PoPE 与 RoPE 在两个超参数完全相同的 Transformer 模型上进行比较。

间接索引(Indirect Indexing)

该任务要求在变长源字符串中识别目标字符,目标字符定义为距离指定源字符一定的相对偏移量。



RoPE 在此任务中表现挣扎,平均准确率仅为 11.16%。PoPE 则几乎完美地解决了任务,平均准确率达到 94.82%。这表明 RoPE 难以分离内容和位置信息,而 PoPE 通过解耦实现了高效学习。

音乐与基因组序列建模

在 JSB 和 MAESTRO 符号音乐数据集上,PoPE 均实现了比 RoPE 更低的负对数似然(NLL)。



在人类参考基因组数据集上,使用 PoPE 的模型 NLL(4.152)显著低于 RoPE 基线(4.217)。



语言建模

在 OpenWebText 数据集上,该团队测试了三种规模的模型(124M、253M、774M)。



结果来看 ,在所有规模下,PoPE 的困惑度均始终低于 RoPE。

而在 LAMBADA、CBT、HellaSwag 等六项下游任务的零样本评估中,PoPE 在所有模型规模下的平均准确率均高于 RoPE。



测试时长度外推

该团队在 1024 个 token 上训练模型,并在长达 10240 个 token 的序列上评估。



RoPE 的性能在长序列上显著下降。YaRN 在超过其微调长度后也会失效。

可以看到,PoPE 优势是在无需任何微调或插值的情况下,显示出强大的开箱即用外推能力,甚至优于专门的基线模型 YaRN。

PoPE 的稳定性也不错: RoPE 的外推性能随模型规模增加而恶化,而 PoPE 则保持大体稳定。

https://x.com/agopal42/status/2003900824909746344

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
OpenAI宣布关闭Sora视频应用,终止与迪士尼10亿美元合作

OpenAI宣布关闭Sora视频应用,终止与迪士尼10亿美元合作

澎湃新闻
2026-03-25 09:38:08
先被里瓦尔多全面逆袭,后遭齐达内强势碾压,全能战士时运不济

先被里瓦尔多全面逆袭,后遭齐达内强势碾压,全能战士时运不济

足篮大世界
2026-03-26 10:52:09
程潇不愧是“奶潇”

程潇不愧是“奶潇”

情感大头说说
2026-03-16 00:19:50
最高奖10万!虹口这波拆迁户,赚翻了!

最高奖10万!虹口这波拆迁户,赚翻了!

新浪财经
2026-03-26 13:07:51
德云社上海开业三天遭抵制,郭德纲押宝失误引担忧

德云社上海开业三天遭抵制,郭德纲押宝失误引担忧

史鹷的生活科普
2026-03-24 22:55:38
李连杰当面一句“我刚换了心脏”,谢苗脸唰一下白了,气都不敢喘

李连杰当面一句“我刚换了心脏”,谢苗脸唰一下白了,气都不敢喘

西楼知趣杂谈
2026-02-28 21:36:48
陈熠又输了,王艺迪女单夺冠直通伦敦?世乒赛国乒女队5人名单出炉!

陈熠又输了,王艺迪女单夺冠直通伦敦?世乒赛国乒女队5人名单出炉!

乒乓助手
2026-03-27 00:05:01
全球污染最严重30城市:印度上榜14座、巴基斯坦10座,那我国呢?

全球污染最严重30城市:印度上榜14座、巴基斯坦10座,那我国呢?

南生今世说
2026-03-26 10:37:09
“老师最烦这种现眼包家长”,宝妈运动会穿紧身裙,被嘲故作娇弱

“老师最烦这种现眼包家长”,宝妈运动会穿紧身裙,被嘲故作娇弱

妍妍教育日记
2026-03-17 20:29:16
京华城案一审宣判不只柯文哲,应晓薇被判15年半,沈庆京10年

京华城案一审宣判不只柯文哲,应晓薇被判15年半,沈庆京10年

海峡导报社
2026-03-26 15:29:03
AI冲击来得太快!加州大学系统面临史上最大挑战

AI冲击来得太快!加州大学系统面临史上最大挑战

留学咖啡馆
2026-03-25 08:33:07
身中29枪!台“百亿赌王”遛狗遇伏,在柬埔寨遭枪杀

身中29枪!台“百亿赌王”遛狗遇伏,在柬埔寨遭枪杀

元宝课堂
2026-03-25 20:40:59
2026新门澳今晚最新内幕特马精选一肖一码一特码资料三中三

2026新门澳今晚最新内幕特马精选一肖一码一特码资料三中三

寰域展览
2026-03-26 22:11:26
“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

火山詩话
2026-03-26 11:11:22
干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

泡泡网
2026-03-26 11:21:11
这才叫杀疯了!烂番茄100%动作神片,这不直接碾压《镖人》?

这才叫杀疯了!烂番茄100%动作神片,这不直接碾压《镖人》?

动物奇奇怪怪
2026-03-26 17:48:01
油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

复转这些年
2026-03-26 09:40:14
记者:利物浦把40万镑周薪给错了人,他们本应该留下阿诺德

记者:利物浦把40万镑周薪给错了人,他们本应该留下阿诺德

懂球帝
2026-03-26 15:47:08
马卡:马竞计划将阿尔瓦雷斯的年薪提高至1000万欧

马卡:马竞计划将阿尔瓦雷斯的年薪提高至1000万欧

懂球帝
2026-03-26 20:46:05
小小的但有硬派味,丰田酷路泽 FJ 正式发售,约 26.7 万元

小小的但有硬派味,丰田酷路泽 FJ 正式发售,约 26.7 万元

爱范儿
2026-03-26 15:27:20
2026-03-27 02:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
亲子
时尚
公开课
军事航空

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

亲子要闻

看看把孩子吓得哈哈哈

400万人爱过的女孩,被黄谣网暴180天后

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版