网易首页 > 网易号 > 正文 申请入驻

麻省理工学院团队推出PaTH注意力机制提升大语言模型能力

0
分享至


大多数语言都依赖词汇位置和句子结构来传达含义。例如,"猫坐在盒子上"与"盒子在猫身上"的含义完全不同。在长篇文本中,如金融文档或小说,这些词汇的语法结构很可能会发生变化。

同样,一个人可能在代码中跟踪变量或遵循带有条件动作的指令。这些都是状态变化和序列推理的例子,我们期望最先进的人工智能系统能够在这些方面表现出色。然而,现有的Transformer前沿注意力机制——大语言模型中用于确定词汇重要性的主要架构——在这些能力方面存在理论和实证局限性。

注意力机制允许大语言模型回顾查询或文档的早期部分,并根据其训练确定哪些细节和词汇最重要。然而,这种机制本身并不理解词序。它同时"看到"所有输入词汇(也称为Token),并按照呈现的顺序处理它们,因此研究人员开发了编码位置信息的技术。这对于像语言这样高度结构化的领域至关重要。但主要的位置编码方法,称为旋转位置编码(RoPE),只考虑序列中Token之间的相对距离,与输入数据无关。这意味着,例如,相距四个位置的词汇,如上例中的"猫"和"盒子",都会接收到针对该相对距离的相同固定数学旋转。

现在,由麻省理工学院和MIT-IBM Watson人工智能实验室领导的研究产生了一种称为"PaTH注意力"的编码技术,使位置信息变得自适应和上下文感知,而不像RoPE那样静态。

该论文的资深作者、电气工程与计算机科学系副教授、计算机科学与人工智能实验室成员、MIT-IBM Watson人工智能实验室研究员Yoon Kim说:"Transformer能够准确且可扩展地建模许多领域,但它们在状态跟踪方面存在局限性,而状态跟踪是我们希望人工智能系统具备的重要能力的基础现象。因此,重要的问题是:我们如何在保持Transformer可扩展性和效率的同时,实现状态跟踪?"

本月早些时候,关于这项工作的新论文在神经信息处理系统会议(NeurIPS)上发表。Kim的合作者包括主要作者、电气工程与计算机科学系研究生、前MIT-IBM Watson人工智能实验室暑期项目实习生杨松林;斯坦福大学的温凯悦;微软的任礼良;以及IBM研究院和MIT-IBM Watson人工智能实验室的沈奕康、Shawn Tan、Mayank Mishra和Rameswar Panda。

理解路径

PaTH注意力不像RoPE那样根据Token之间的相对距离为每个词分配固定旋转,而是灵活的,将中间词汇视为由小的、数据相关转换组成的路径。每个转换基于称为Householder反射的数学运算,就像一个微小的镜子,根据它经过的每个Token的内容进行调整。序列中的每一步都可以影响模型后续如何解释信息。累积效应让系统能够建模词汇之间路径上含义如何变化,而不仅仅是它们相距多远。这种方法允许Transformer跟踪实体和关系如何随时间变化,赋予其"位置记忆"的感觉。可以将此想象为在体验环境及其对你的影响的同时行走路径。此外,团队还开发了一种硬件高效算法,更有效地计算每对Token之间的注意力分数,使得PaTH注意力的累积数学转换被压缩并分解为更小的计算,从而与GPU上的快速处理兼容。

MIT-IBM研究人员随后探索了PaTH注意力在合成和真实任务上的表现,包括推理、长上下文基准测试和完整大语言模型训练,以查看是否改善了模型跟踪信息随时间变化的能力。团队测试了其在许多干扰步骤和多步回忆测试中遵循最新"写"命令的能力,这些任务对于像RoPE这样的标准位置编码方法来说是困难的。研究人员还训练了中等规模的大语言模型并与其他方法进行比较。PaTH注意力改善了困惑度,并在未经训练的推理基准上超越了其他方法。他们还评估了使用数万个Token输入的检索、推理和稳定性。PaTH注意力始终证明了内容感知能力。

Kim说:"我们发现,无论是在设计用于测试Transformer局限性的诊断任务上,还是在真实世界的语言建模任务上,我们的新方法都能够超越现有的注意力机制,同时保持其效率。"此外,"我很期待看到这些类似PATH的数据相关位置编码是否能改善Transformer在结构化领域(如生物学、蛋白质或DNA分析)的表现。"

更大更高效的思考

研究人员随后调查了如果PaTH注意力机制更类似地模仿人类认知,即在做决策时忽略旧的或不太相关的信息,会如何表现。为此,他们将PaTH注意力与另一种称为遗忘Transformer(FoX)的位置编码方案结合,该方案允许模型选择性地"遗忘"。由此产生的PaTH-FoX系统增加了以数据相关方式降低信息权重的方法,在推理、长上下文理解和语言建模基准上取得了出色结果。通过这种方式,PaTH注意力扩展了Transformer架构的表达能力。

Kim说,像这样的研究是开发人工智能"下一个重大突破"的更广泛努力的一部分。他解释说,深度学习和生成式AI革命的主要驱动因素是创建"可应用于广泛领域的通用构建块",例如"卷积层、循环神经网络层",以及最近的Transformer。展望未来,Kim指出,准确性、表达能力、灵活性和硬件可扩展性等考虑因素一直是并将继续是至关重要的。正如他所说,"现代架构研究的核心事业是试图提出这些新的原语,在保持或改善表达能力的同时,也具有可扩展性。"

这项工作部分得到了MIT-IBM Watson人工智能实验室和Schmidt Sciences的AI2050项目的支持。

Q&A

Q1:PaTH注意力机制与传统RoPE编码有什么区别?

A:PaTH注意力机制使位置信息变得自适应和上下文感知,而不像RoPE那样静态。RoPE为每个词分配基于相对距离的固定旋转,而PaTH注意力将中间词汇视为由数据相关转换组成的路径,能够建模词汇之间路径上含义如何变化。

Q2:PaTH注意力在哪些任务上表现更好?

A:PaTH注意力在多种任务上表现出色,包括跟踪最新"写"命令、多步回忆测试、推理基准、长上下文理解和语言建模。在诊断任务和真实世界语言建模任务中,它都能超越现有注意力机制,同时保持效率。

Q3:PaTH-FoX系统是如何工作的?

A:PaTH-FoX系统将PaTH注意力与遗忘Transformer结合,模仿人类认知中忽略旧的或不太相关信息的能力。它增加了以数据相关方式降低信息权重的方法,在推理、长上下文理解和语言建模基准上取得出色结果。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
质疑马宁让续约告吹!李提香:10分钟后致电李金羽,很快给合同

质疑马宁让续约告吹!李提香:10分钟后致电李金羽,很快给合同

奥拜尔
2026-02-01 17:36:13
狱中离世14年后获无罪,当事人律师发声

狱中离世14年后获无罪,当事人律师发声

澎湃新闻
2026-02-01 11:55:05
突发 | 知名女歌手于文文,被紧急送医!舞台上直接倒地!

突发 | 知名女歌手于文文,被紧急送医!舞台上直接倒地!

天津广播
2026-02-01 22:25:19
这是唱的哪出戏?委内瑞拉代理女总统宣布大赦

这是唱的哪出戏?委内瑞拉代理女总统宣布大赦

史政先锋
2026-01-31 22:15:37
140亿卖身美国!中国养大的AI白眼狼,被商务部一招摁死!

140亿卖身美国!中国养大的AI白眼狼,被商务部一招摁死!

快乐彼岸
2026-01-24 17:57:59
英超积分榜:曼城被热刺逼平后,阿森纳领先优势增至6分

英超积分榜:曼城被热刺逼平后,阿森纳领先优势增至6分

懂球帝
2026-02-02 02:45:06
8离世家!美媒:自打拒绝湖人4年8400万续约,施罗德5年换了8队!

8离世家!美媒:自打拒绝湖人4年8400万续约,施罗德5年换了8队!

818体育
2026-02-02 08:56:59
布鲁克林·贝克汉姆公开断绝父子关系后,在比弗利山庄带妻子妮可拉外出晚餐,面带微笑

布鲁克林·贝克汉姆公开断绝父子关系后,在比弗利山庄带妻子妮可拉外出晚餐,面带微笑

科学发掘
2026-01-30 16:56:40
访日刚结束,斯塔默遭51%民众反对,高市早苗犯愁,700万亿还不上

访日刚结束,斯塔默遭51%民众反对,高市早苗犯愁,700万亿还不上

东极妙严
2026-02-01 21:18:04
日本秋叶原咖啡店关门,门口用多国语言表示感谢,但是中文却只写“请勿入内

日本秋叶原咖啡店关门,门口用多国语言表示感谢,但是中文却只写“请勿入内

日本物语
2026-01-31 20:34:19
2026年春运今日开启 这些实用信息出行必看

2026年春运今日开启 这些实用信息出行必看

大象新闻
2026-02-02 07:13:04
哈登或将成为NBA一分球、两分球和三分球得分全部破万历史第一人

哈登或将成为NBA一分球、两分球和三分球得分全部破万历史第一人

大眼瞄世界
2026-02-01 22:41:38
创造历史+巡回赛44冠!特鲁姆普刷新80后夺冠纪录终结决赛四连败

创造历史+巡回赛44冠!特鲁姆普刷新80后夺冠纪录终结决赛四连败

世界体坛观察家
2026-02-02 06:34:38
全程频繁捂嘴,台词含糊不清,视帝佟大为坐镇都带不动这个拖油瓶

全程频繁捂嘴,台词含糊不清,视帝佟大为坐镇都带不动这个拖油瓶

流云随风去远方
2026-01-31 13:12:51
美国评1979年中越战争:打了28天,中国军队出现了很多问题

美国评1979年中越战争:打了28天,中国军队出现了很多问题

小豫讲故事
2026-01-31 06:00:10
1949年傅作义任水利部长遭闲置,主席当面质问,周恩来听闻当即发火

1949年傅作义任水利部长遭闲置,主席当面质问,周恩来听闻当即发火

磊子讲史
2026-01-14 10:12:21
王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

胡一舸南游y
2026-01-25 14:54:04
抗议一万遍,不如轰炸机出动,我国轰炸机出动,小马科斯直接懵了

抗议一万遍,不如轰炸机出动,我国轰炸机出动,小马科斯直接懵了

来科点谱
2026-02-01 14:13:30
尚可喜家族参与三藩之乱,为何没有遭到康熙清算,反而显赫到清末

尚可喜家族参与三藩之乱,为何没有遭到康熙清算,反而显赫到清末

掠影后有感
2026-01-18 14:14:43
吃回头草?美媒撰4换1交易方案,建议两届冠军后卫重回湖人

吃回头草?美媒撰4换1交易方案,建议两届冠军后卫重回湖人

弄月公子
2026-02-02 08:43:40
2026-02-02 09:31:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1542文章数 158关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

媒体:莫迪也上了爱泼斯坦文件 情节有点尴尬

头条要闻

媒体:莫迪也上了爱泼斯坦文件 情节有点尴尬

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

国六货车被迫"换头" 每次收费超200元

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

房产
健康
亲子
教育
公开课

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

耳石症分类型,症状大不同

亲子要闻

2-5岁孩子如何在家做早教?用好这些小道具,孩子进步超快!

教育要闻

现在看易中天大师的金句,感觉买德云社的门票太亏了(三)

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版