网易首页 > 网易号 > 正文 申请入驻

LSTM之父造出PoPE:终结RoPE泛化难题,实现Transformer极坐标进化

0
分享至

来源:市场资讯

(来源:机器之心Pro)


编辑|Panda

Transformer 架构中的注意力机制是根据内容(what)和序列中的位置(where)将键(key)与查询(query)进行匹配。

而在近期 LSTM 之父 Jürgen Schmidhuber 的 USI & SUPSI 瑞士 AI 实验室团队的一项新研究中,分析表明,当前流行的旋转位置嵌入(RoPE)方法中的 what 与 where 是纠缠在一起的。这种纠缠会损害模型性能,特别是当决策需要对这两个因素进行独立匹配时。

基于这一观察,他们提出了新的方案:极坐标位置嵌入(Polar Coordinate Position Embedding ),简称PoPE。


该团队表示,PoPE 消除了内容与位置的混淆,使得其在需要仅通过位置或仅通过内容进行索引的诊断任务上表现远优于 RoPE。


该论文的一作为 Anand Gopalakrishnan,目前正在哈佛大学从事博士后研究,曾是 Jürgen Schmidhuber 的博士生。参与者中还有 OpenAI 的研究科学家 Róbert Csordás,以及科罗拉多大学计算机科学系教授 Michael C. Mozer(目前已加入谷歌 DeepMind)。

RoPE 的问题

在许多前沿模型中,为了将位置信息纳入进来,RoPE 是首选方法,包括 Llama 3、DeepSeek-v3、Gemma 3 和 Qwen3。它会为每个查询-键对生成注意力分数,该分数基于它们的匹配程度及其在输入序列中的相对位置。

为了更好地理解 RoPE,这里以特定层中的特定注意力头进行说明。该注意力头的作用是执行位置 t 的查询 q_t 与位置 s 的键 k_s 之间的匹配。键和查询是 d 维向量,被划分为 d/2 个二维分量。

这里用 q_tc 和 k_sc 分别表示查询和键的分量 c∈{1,...,d/2}。RoPE 首先在 2D 平面中将每个分量 c 旋转一个与位置成正比的角度。如果 R (Φ) 是执行角度 Φ 旋转的 2×2 矩阵,则旋转后的查询和键分别为 R (tθ_c) q_tc 和 R (sθ_c) k_sc,其中 θ_c 是分量特定的基波波长(base wavelength):。下图展示了查询(或键)分量的构成及其在二维空间中的旋转方式。


对应的键和查询分量通过点积匹配并求和以获得注意力分数:


将分量对齐的旋转仅取决于键和查询的相对位置,而不取决于它们的绝对位置。

如果将键和查询分量从笛卡尔坐标重新表示为极坐标:


由此,注意力分数可写为:


这清楚地表明,嵌入的每个双元素分量都被转换为单个幅值,并且通过 Φ_{q_tc} 和 Φ_{k_sc} 引入了对产生最大响应的相对位置(相位)的调整。因此,键和查询都混淆了关于特征存在与否的信息(what)和相对位置(where)。

该团队的假设是,通过解耦这两类不同的信息,特别是通过消除交互项 ,可以提高模型性能。

解决方案:PoPE

在 RoPE 中,该团队将键和查询的 d/2 个分量解释为复数。而在该团队提出的方法中,该团队利用了极坐标表示的另一种形式,称之为极坐标位置嵌入,即 PoPE。

在 PoPE 中,该团队将键和查询转换为相应的 d 元素复向量 和 。每个元素 c 的幅值是对原始实值键或查询对应元素的重新缩放:


其中 σ(x)=ln (1+e^x) 表示 softplus 激活函数,确保幅值非负。相位仅取决于位置:


PoPE 的注意力分数定义为:


与 RoPE 相比,PoPE:

此外,还可以引入一个可学习但固定的偏置项 :


其中 δ_c 是为每个频率调整最佳相对偏移的可学习偏置。

该团队使用 Triton 实现了 PoPE。

通过修改内核,在不显式实例化复杂矩阵的情况下计算点积的实部。该团队的定制 Flash Attention 相比标准版仅需额外一次乘法。该团队表示,虽然目前的通用变体内存开销较大,但可以通过在内核内部执行旋转来优化。

那么,表现如何呢?

该团队将 PoPE 与 RoPE 在两个超参数完全相同的 Transformer 模型上进行比较。

间接索引(Indirect Indexing)

该任务要求在变长源字符串中识别目标字符,目标字符定义为距离指定源字符一定的相对偏移量。


RoPE 在此任务中表现挣扎,平均准确率仅为 11.16%。PoPE 则几乎完美地解决了任务,平均准确率达到 94.82%。这表明 RoPE 难以分离内容和位置信息,而 PoPE 通过解耦实现了高效学习。

音乐与基因组序列建模

在 JSB 和 MAESTRO 符号音乐数据集上,PoPE 均实现了比 RoPE 更低的负对数似然(NLL)。


在人类参考基因组数据集上,使用 PoPE 的模型 NLL(4.152)显著低于 RoPE 基线(4.217)。


语言建模

在 OpenWebText 数据集上,该团队测试了三种规模的模型(124M、253M、774M)。


结果来看 ,在所有规模下,PoPE 的困惑度均始终低于 RoPE。

而在 LAMBADA、CBT、HellaSwag 等六项下游任务的零样本评估中,PoPE 在所有模型规模下的平均准确率均高于 RoPE。


测试时长度外推

该团队在 1024 个 token 上训练模型,并在长达 10240 个 token 的序列上评估。


RoPE 的性能在长序列上显著下降。YaRN 在超过其微调长度后也会失效。

可以看到,PoPE 优势是在无需任何微调或插值的情况下,显示出强大的开箱即用外推能力,甚至优于专门的基线模型 YaRN。

PoPE 的稳定性也不错: RoPE 的外推性能随模型规模增加而恶化,而 PoPE 则保持大体稳定。

https://x.com/agopal42/status/2003900824909746344

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
原形毕露?中国女篮第一人全场最差,拖累球队连输两场倒数太尴尬

原形毕露?中国女篮第一人全场最差,拖累球队连输两场倒数太尴尬

宗介说体育
2026-01-08 12:52:51
美国官员称:主宰这个世界的是实力 武力与权力

美国官员称:主宰这个世界的是实力 武力与权力

看看新闻Knews
2026-01-08 11:01:03
挨冻的河北农村老人:每年好几千燃气费舍不得烧,合作医疗也得好几千

挨冻的河北农村老人:每年好几千燃气费舍不得烧,合作医疗也得好几千

小萝卜丝
2026-01-08 11:23:44
太顶了!明明什么都没露,却性感得要命!

太顶了!明明什么都没露,却性感得要命!

贵圈真乱
2025-12-20 12:02:06
中国养老负担将越来越重:从4.7个劳动力养一个老人到1.9个劳动力供养1个老人

中国养老负担将越来越重:从4.7个劳动力养一个老人到1.9个劳动力供养1个老人

西虹市闲话
2026-01-08 13:51:18
大溃败!中国网贷公司,在印度全军覆没

大溃败!中国网贷公司,在印度全军覆没

首席品牌评论
2026-01-07 18:20:00
美国被爆对委内瑞拉动手背后,暗藏一个更大图谋!

美国被爆对委内瑞拉动手背后,暗藏一个更大图谋!

环球时报国际
2026-01-08 20:56:04
42+35+33!33+32+30!NBA一生之敌诞生,最佳新秀要失去悬念了

42+35+33!33+32+30!NBA一生之敌诞生,最佳新秀要失去悬念了

世界体育圈
2026-01-08 10:20:39
当石油被抢后,西方普遍认为北京只能认栽,怎料中方一招逆转局面

当石油被抢后,西方普遍认为北京只能认栽,怎料中方一招逆转局面

小lu侃侃而谈
2026-01-02 19:54:47
电诈“教父”陈志遣返中国,美国扣押的12.7万枚比特币应移交中国

电诈“教父”陈志遣返中国,美国扣押的12.7万枚比特币应移交中国

星空区块链
2026-01-07 21:14:37
这一次,再多的名和利,也拯救不了副军级职位的阎维文

这一次,再多的名和利,也拯救不了副军级职位的阎维文

阿芒娱乐说
2026-01-02 11:41:22
他8次上春晚,作死被捕入狱,如今56岁无人问津,沦落到四处走穴

他8次上春晚,作死被捕入狱,如今56岁无人问津,沦落到四处走穴

小熊侃史
2026-01-06 11:17:00
特朗普:希望能访问委内瑞拉

特朗普:希望能访问委内瑞拉

环球时报国际
2026-01-09 00:14:49
字母哥放话永不申请交易:想在雄鹿打完生涯 除非他们不再想要我

字母哥放话永不申请交易:想在雄鹿打完生涯 除非他们不再想要我

罗说NBA
2026-01-08 22:56:51
网传某国产操作系统大厂老董开除核心工程师,理由竟是 “没穿西装”

网传某国产操作系统大厂老董开除核心工程师,理由竟是 “没穿西装”

可达鸭面面观
2026-01-08 19:48:13
格陵兰发达到什么水平?我去了才发现,差距真的太大

格陵兰发达到什么水平?我去了才发现,差距真的太大

娱乐八卦木木子
2026-01-07 15:14:07
3名男子举报上海移动 为创收逼迫员工上门断用户网络 上海移动客服人员:举报内容是不存在的

3名男子举报上海移动 为创收逼迫员工上门断用户网络 上海移动客服人员:举报内容是不存在的

闪电新闻
2026-01-08 15:01:28
万万没想到!美国对华最大的失算,是让中国90后、00后彻底清醒了

万万没想到!美国对华最大的失算,是让中国90后、00后彻底清醒了

远方风林
2026-01-07 11:40:08
一条新闻消失了

一条新闻消失了

深蓝财经
2026-01-07 14:22:05
农民日报关于河北农民取暖难的稿,为啥不见了?

农民日报关于河北农民取暖难的稿,为啥不见了?

笔杆论道
2026-01-08 07:02:14
2026-01-09 03:59:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1964918文章数 5194关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

采用俄罗斯的防空系统 委内瑞拉防空体系因何失效

头条要闻

采用俄罗斯的防空系统 委内瑞拉防空体系因何失效

体育要闻

世乒赛银牌得主,说自己梦里都是孙颖莎

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

房产
健康
教育
艺术
家居

房产要闻

豪宅抢疯、刚需捡漏……2025年,一张房票改写了广州市场格局

这些新疗法,让化疗不再那么痛苦

教育要闻

一觉醒来,全球传播学倒退100年(无限流)

艺术要闻

震撼!阿森西奥的人体绘画揭示情感的深渊!

家居要闻

理性主义 冷调自由居所

无障碍浏览 进入关怀版