网易首页 > 网易号 > 正文 申请入驻

Transformer的无限之路:位置编码视角下的长度外推综述

0
分享至



机器之心专栏

机器之心编辑部

在自然语言处理(Natural Language Processing,NLP)领域,Transformer 模型因其在序列建模中的卓越性能而受到广泛关注。然而,Transformer 及在其基础之上的大语言模型(Large Language Models,LLMs)都不具备有效长度外推(Length Extrapolation)的能力。这意味着,受限于其训练时预设的上下文长度限制,大模型无法有效处理超过该长度限制的序列。

文本续写和语言延展是人类语言的核心能力之一,与之相对的,长度外推是语言模型智能进化的重要方向,也是在大模型时代最为高效的将模型的能力迁移到长序列数据的重要方法,对该问题的研究兼具理论价值和应用价值。因此,大量的相关工作持续涌现,在不断扩展语言模型能力边界的同时,也呼唤一篇系统性的综述来对这一领域进行概览。

基于此,哈尔滨工业大学的研究者们从位置编码(Position Encoding, PE)的角度出发,全面地总结了 Transformer 模型在长度外推方面的研究进展,系统地回顾了各种旨在增强 Transformer 长度外推能力的方法,主要包括可外推的位置编码和基于这些位置编码的拓展方法。



论文链接:
https://arxiv.org/abs/2312.17044

可外推的位置编码

由于 Transformer 自身具有置换不变性(Permutation Invariance),无法直接捕获每个词在序列中的位置信息,因此使用位置编码将序列中元素顺序信息融入Transformer成为一种常见做法。根据位置编码表示的是序列中元素的绝对位置信息还是相对位置信息,业界将位置编码分为绝对位置编码(Absolute Position Encoding,APE)和相对位置编码(Relative Position Encoding,RPE),其主要区别如下图所示(左图表示 APE,右图表示 RPE)。



考虑到现有研究表明这一分类对模型的外推能力有重要影响,我们根据这一分类来对本节内容进行划分。

绝对位置编码

在原始的 Transformer 论文中,位置编码是通过正弦和余弦函数生成的,这些函数将位置映射到模型的表示空间中。Transformer 的作者猜想这种正弦位置编码可以有效外推,但是后来的研究成果否定了这一猜想。尽管如此,作为 Transformer 的第一个 PE,正弦 APE 对之后的 PE 产生了重大影响。

为了增强 Transformer 模型的外推能力,研究人员要么通过随机位移将位移不变性融入正弦 APE 中,要么生成随位置平滑变化的位置嵌入并期望模型能够学会推断这一变化函数。基于这些思想的方法展现出比正弦 APE 更强的外推能力,但仍无法达到 RPE 的水平。原因之一是,APE 将不同的位置映射到不同的位置嵌入,外推意味着模型必须推断出不曾见过的位置嵌入。然而,这对于模型来说是一项艰巨的任务。因为在广泛的预训练过程中重复出现的位置嵌入数量有限,特别是在 LLM 的情况下,模型极易对这些位置编码过拟合。

相对位置编码

由于 APE 在长度外推上的表现难以令人满意,而 RPE 天然地由于其位移不变性具备更好的外推能力,并且人们普遍认为上下文中单词的相对顺序更重要。近年来,RPE 已成为编码位置信息的主要方法。

早期的 RPE 来自于对正弦位置编码的简单修改,并常常结合裁剪或分箱策略来避免出现分布外的位置嵌入,这些策略被认为有利于外推。此外,由于 RPE 解耦了位置和位置表示之间的一对一对应关系,因此将偏差项直接添加到注意力公式中成为将位置信息集成到 Transformer 中的一种可行甚至更好的方法。这种方法要简单得多,并且自然地解开了值(value)向量和位置信息的纠缠。然而,尽管这些偏置方法具有很强的外推性,但它们无法表示 RoPE(Rotary Position Embedding,旋转位置编码)中那样复杂的距离函数。因此,尽管 RoPE 的外推性较差,但由于其优异的综合性能,成为近来 LLMs 最主流的的位置编码。论文中介绍的全部可外推 PE 如表 1 所示。



大模型时代的外推方法

为了增强 LLMs 的长度外推能力,研究者们基于现有的位置编码提出了多种方法,主要分为位置插值(Position Interpolation)和随机化位置编码(Randomized Position Encoding)两大类别。

位置插值方法

位置插值方法通过在推理时对位置编码进行缩放,使得原本超出模型训练长度的位置编码在插值后落入已训练位置区间。由于其卓越的外推性能和极低的开销,位置插值方法引起了研究界的广泛兴趣。此外,与其他外推方法不同,位置插值方法已经广泛出现在开源模型中,例如 Code Llama、Qwen-7B 和 Llama2。然而,目前的插值方法仅仅关注 RoPE,如何通过插值使采用其他 PE 的 LLM 具备更好的外推能力仍需探索。

随机化位置编码

简单来说,随机化 PE 只是通过在训练期间引入随机位置来将预训练的上下文窗口与较长的推理长度解耦,从而提高了较长上下文窗口中所有位置的曝光度。值得注意的是,随机化 PE 的思想与位置插值方法有很大不同,前者旨在使模型在训练过程中观察到所有可能的位置,而后者试图在推理过程中对位置进行插值,使它们落入既定的位置范围内。出于同样的原因,位置插值方法大多是即插即用的,而随机化 PE 通常需要进一步微调,这使得位置插值更具吸引力。然而,这两类方法并不互斥,因此可以结合它们来进一步增强模型的外推能力。

挑战与未来方向

评测与基准数据集:在早期研究中,对 Transformer 外推能力的评估来自各下游任务的性能评价指标,如机器翻译的 BLEU;随着 T5、GPT2 等语言模型逐渐统一自然语言处理任务,语言建模所使用的困惑度成为外推的评价指标。然而,最新的研究已经表明困惑度无法揭示下游任务的性能表现,因而亟需专用的基准数据集与评测指标来推动长度外推领域的进一步发展。

理论解释:目前的长度外推相关工作大都是实证性的,尽管有一些解释模型成功外推的初步尝试,但坚实的理论基础仍未建立,究竟有哪些因素影响且如何影响长度外推性能仍然是一个悬而未决的问题。

其他方法:正如本文所述,现有的长度外推工作大多集中在位置编码视角下,但不难理解,长度外推需要系统性设计。位置编码是其中一个关键的组成部分,但绝非唯一的组成部分,更广阔的视野将进一步为这一问题带来激励。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一个国家被踢出SWIFT系统的后果非常的严重!

一个国家被踢出SWIFT系统的后果非常的严重!

华夏司马北
2024-04-24 22:01:49
故事:我在阿富汗外派,掀开了一位穆斯林少女的面纱,她非我不嫁

故事:我在阿富汗外派,掀开了一位穆斯林少女的面纱,她非我不嫁

潮河讲堂
2024-04-24 17:09:26
砍36分9板5助!美媒发问:爱德华兹是联盟第一分卫吗?

砍36分9板5助!美媒发问:爱德华兹是联盟第一分卫吗?

直播吧
2024-04-27 13:40:24
双预警!大暴雨!强沙尘暴!10级雷暴大风!持续性强降雨来袭!国家防总:或出现较重汛情→

双预警!大暴雨!强沙尘暴!10级雷暴大风!持续性强降雨来袭!国家防总:或出现较重汛情→

鲁中晨报
2024-04-27 15:37:10
绝命冲锋!权威媒体罕见曝光:中国战机被美机锁定后以2敌4

绝命冲锋!权威媒体罕见曝光:中国战机被美机锁定后以2敌4

鹅毛的大雪
2024-04-26 15:34:37
港股,彻底疯狂!

港股,彻底疯狂!

资本百科
2024-04-27 00:13:03
65个国家都收到了“邀请函”,却唯独没有中国,中方正式表态

65个国家都收到了“邀请函”,却唯独没有中国,中方正式表态

慢聊的历史
2024-04-26 14:21:34
中老年男人还需要性生活吗?心理学家:不可或缺,性需求贯穿一生

中老年男人还需要性生活吗?心理学家:不可或缺,性需求贯穿一生

第一心理
2024-04-25 17:35:15
俄罗斯开始恐惧了,在电视台讨论ATACMS将打击哪些俄罗斯城市

俄罗斯开始恐惧了,在电视台讨论ATACMS将打击哪些俄罗斯城市

火星宏观
2024-04-26 15:49:38
清凉峰事件大结局:男驴友瘦了,体力好,女子老公发声耐人寻味!

清凉峰事件大结局:男驴友瘦了,体力好,女子老公发声耐人寻味!

古希腊掌管松饼的神
2024-04-27 17:53:41
莫斯科恐袭真相大白,这次都招了!幕后真凶揭晓,丑恶原形现形

莫斯科恐袭真相大白,这次都招了!幕后真凶揭晓,丑恶原形现形

娱乐洞察点点
2024-04-27 12:44:26
太会玩了!以收购为名狂拉11个涨停,接着宣布收购失败大割韭菜!

太会玩了!以收购为名狂拉11个涨停,接着宣布收购失败大割韭菜!

云姐闲聊
2024-04-27 08:42:52
步李铁后尘!王楠“富豪”老公被限制消费,法院判决书曝光,真难

步李铁后尘!王楠“富豪”老公被限制消费,法院判决书曝光,真难

阿芒娱乐说
2024-04-27 17:20:35
就在刚刚A股出大事了!股民们看完都惊掉下巴,A股将迎龙飞凤舞

就在刚刚A股出大事了!股民们看完都惊掉下巴,A股将迎龙飞凤舞

彩云的夕阳
2024-04-27 16:28:41
金靖回应不官宣结婚原因,大赞老公舒奕橙温柔,孩子代号首曝光

金靖回应不官宣结婚原因,大赞老公舒奕橙温柔,孩子代号首曝光

扒虾侃娱
2024-04-25 20:46:34
华为问界M9登顶!打败BBA,成50万以上豪车榜第1名

华为问界M9登顶!打败BBA,成50万以上豪车榜第1名

互联网.乱侃秀
2024-04-26 20:27:27
炸了!国务院释放重要信号

炸了!国务院释放重要信号

李大懒人爱音乐
2024-04-27 13:15:14
为抗议美国对加沙政策,美国务院发言人辞职

为抗议美国对加沙政策,美国务院发言人辞职

环球时报国际
2024-04-26 14:19:54
山姆奶油西瓜上热搜,8块一斤真的贵吗?

山姆奶油西瓜上热搜,8块一斤真的贵吗?

映射生活的身影
2024-04-26 16:25:32
下一站切尔西!穆里尼奥收三年合同,高层给出承诺,球迷笑了

下一站切尔西!穆里尼奥收三年合同,高层给出承诺,球迷笑了

祥谈体育
2024-04-27 15:57:14
2024-04-27 21:00:50
机器之心Pro
机器之心Pro
专业的人工智能媒体
8934文章数 141895关注度
往期回顾 全部

科技要闻

特斯拉这款车型刚上市几天,就上调价格

头条要闻

警车鸣笛进村指名道姓喊话一村民"涉嫌嫖娼" 当地回应

头条要闻

警车鸣笛进村指名道姓喊话一村民"涉嫌嫖娼" 当地回应

体育要闻

时代要落幕了?詹姆斯杜兰特陷0-3绝境

娱乐要闻

金靖回应不官宣恋情结婚的原因

财经要闻

北京房价回到2016年

汽车要闻

5月上市/智能化丰富 海狮 07EV正式到店

态度原创

亲子
艺术
本地
数码
公开课

亲子要闻

新生儿双肺布满颗粒,生命垂危,21名医生将他救活了

艺术要闻

画廊周北京迎来第八年, “漂留” 主题聚集 30 余家艺术机构与 40 场展览

本地新闻

蛋友碰碰会空降西安!5.1山海境等你!

数码要闻

苹果已停止升级 Mac 起步内存,库克更看重优化软硬件集成度

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版