网易首页 > 网易号 > 正文 申请入驻

你没有看过的全新版本,Transformer数学原理揭秘

0
分享至


来源:机器之心报道

编辑:赵阳

近日,arxiv 上发布了一篇论文,对 Transformer 的数学原理进行全新解读,内容很长,知识很多,十二分建议阅读原文。

2017 年,Vaswani 等人发表的 《Attention is all you need》成为神经网络架构发展的一个重要里程碑。这篇论文的核心贡献是自注意机制,这是 Transformers 区别于传统架构的创新之处,在其卓越的实用性能中发挥了重要作用。

事实上,这一创新已成为计算机视觉和自然语言处理等领域人工智能进步的关键催化剂,同时在大语言模型的出现中也起到了关键作用。因此,了解 Transformers,尤其是自注意处理数据的机制,是一个至关重要但在很大程度上尚未充分研究的领域。


论文地址:https://arxiv.org/pdf/2312.10794.pdf

深度神经网络(DNNs)有一个共同特征:输入数据按照顺序,被逐层处理,形成一个时间离散的动态系统(具体内容可以参考 MIT 出版的《深度学习》,国内也被称为「花书」)。这种观点已被成功地用于将残差网络建模到时间连续的动态系统上,后者被称为神经常微分方程(neural ODEs)。在神经常微分方程中,输入图像 在时间间隔 (0,T) 上会按照给定的时变速度场 进行演化。因此,DNN 可以看作是从一个 到另一个 的流映射(Flow Map) 。即使在经典 DNN 架构限制下的速度场 中,流映射之间也具有很强的相似性。

研究者们发现,Transformers 实际上是在 上的流映射,即 d 维概率测度空间(the space of probability measures)间的映射。为了实现这种在度量空间间进行转换的流映射,Transformers 需要建立了一个平均场相互作用的粒子系统(mean-field interacting particle system.)。

具体来说,每个粒子(在深度学习语境下可以理解为 token)都遵循向量场的流动,流动取决于所有粒子的经验测度(empirical measure)。反过来,方程决定了粒子经验测量的演变进程,这个过程可能会持续很长时间,需要进行持续关注。

对此,研究者的主要观察结果是,粒子们往往最终会聚集到一起。这种现象在诸如单向推导(即预测序列中的下一个词)的学习任务中会尤为明显。输出度量对下一个 token 的概率分布进行编码,根据聚类结果就可以筛选出少量可能的结果。

本文的研究结果表明,极限分布实际上是一个点质量,不存在多样性或随机性,但这与实际观测结果不符。这一明显的悖论因粒子存在长时间的可变状态得到解决。从图 2 和图 4 中可以看出,Transformers 具有两种不同的时间尺度:在第一阶段,所有 token 迅速形成几个簇,而在第二阶段(较第一阶段速度慢得多),通过簇的成对合并过程,所有 token 最终坍缩为一个点。



本文的目标有两个方面。一方面,本文旨在提供一个从数学角度研究 Transformers 通用且易于理解的框架。特别是,通过这些相互作用粒子系统的结构,研究者可以将其与数学中的既定主题建立具体联系,包括非线性传输方程、Wasserstein 梯度流、集体行为模型和球面上点的最优化配置等。另一方面,本文描述了几个有前景的研究方向,并特别关注长时间跨度下的聚类现象。研究者提出的主要结果指标都是新的,并且还在整篇论文中提出了他们认为有趣的开放性问题。

本文的主要贡献分为三个部分。


第 1 部分:建模。本文定义了 Transformer 架构的理想模型,该模型将层数视为连续时间变量。这种抽象方法并不新颖,与 ResNets 等经典架构所采用的方法类似。本文的模型只关注 Transformer 架构的两个关键组成部分:自注意力机制和层归一化。层归一化有效地将粒子限制在单位球 的空间内部,而自注意力机制则是通过经验度量实现粒子之间的非线性耦合。反过来,经验度量根据连续性偏微分方程进行演化。本文还为自注意引入了一个更简单好用的替代模型,一个能量函数的 Wasserstein 梯度流,而能量函数在球面上点的最优配置已经有成熟的研究方法。

第二部分:聚类。在这一部分,研究者提出了在较长时间跨度下,token 聚类的新的数学结果。如定理 4.1 表明,在高维空间中,一组随机初始化在单位球上的 n 个粒子会在 时聚成一个点。研究者对粒子集群收缩率的精确描述对这一结果进行了补充说明。具体来说,研究者绘制了所有粒子间距离的直方图,以及所有粒子快要完成聚类的时间点(见原文第 4 节)。研究者还在不假设维数 d 较大的情况下就得到了聚类结果(见原文第 5 节)。

第 3 部分:未来展望。本文主要以开放式问题的形式提出问题,并通过数字观测加以证实,以此提出了未来研究的潜在路线。研究者首先关注维数 d = 2 的情况(见原文第 6 节),并引出与 Kuramoto 振荡器的联系。然后简要展示了如何通过对模型进行简单而自然的修改,解决球面最优化相关的难题(见原文第 7 节)。接下来的章节探讨了相互作用的粒子系统,这些粒子系统使得对 Transformer 架构中的参数进行调整成为可能,日后可能会进一步产生实际应用。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全国人均寿命排行:决定寿命的行为,睡眠第9,跑步第2,第一是…

全国人均寿命排行:决定寿命的行为,睡眠第9,跑步第2,第一是…

华人星光
2024-05-20 12:03:06
牛掰!戛纳走完红毯的章子怡在海德公园学鸭子走路,状态好到爆!

牛掰!戛纳走完红毯的章子怡在海德公园学鸭子走路,状态好到爆!

娱圈小愚
2024-06-01 10:56:14
范冰冰晒过亿半山豪宅震撼景观 屋内有这款饮品存货证已融入香港

范冰冰晒过亿半山豪宅震撼景观 屋内有这款饮品存货证已融入香港

达达哥
2024-05-31 22:32:51
外甥结婚,嫌舅舅随礼太少数落舅舅,舅舅独自坐在大雨中喝闷酒

外甥结婚,嫌舅舅随礼太少数落舅舅,舅舅独自坐在大雨中喝闷酒

胡侃社会百态
2024-06-01 09:57:41
《庆余年》看懂叶轻眉让孩子姓范,才知李云睿这辈子输得有多惨!

《庆余年》看懂叶轻眉让孩子姓范,才知李云睿这辈子输得有多惨!

阿芒娱乐说
2024-05-31 15:51:43
标致408推出限量版:售价6.97万元!此次找准了产品定位

标致408推出限量版:售价6.97万元!此次找准了产品定位

天和Auto授权账号
2024-05-31 13:15:36
2-0!连续逆风翻盘,客场灭世锦赛冠军,李诗沣半决赛欲屠龙!

2-0!连续逆风翻盘,客场灭世锦赛冠军,李诗沣半决赛欲屠龙!

钉钉陌上花开
2024-05-31 21:28:33
《庆余年2》结局圆满,五竹杀死最后的机器人,范闲步入大宗师境

《庆余年2》结局圆满,五竹杀死最后的机器人,范闲步入大宗师境

白公子探剧
2024-05-31 12:04:42
如何看待5月开始的富豪大量亏本抛售房产的举动

如何看待5月开始的富豪大量亏本抛售房产的举动

重远投资观
2024-05-31 15:30:17
合同到期不再续约!波鸿官方:29岁的日本国脚浅野拓磨离队

合同到期不再续约!波鸿官方:29岁的日本国脚浅野拓磨离队

直播吧
2024-05-31 19:46:07
景甜变化好大,大美

景甜变化好大,大美

花小猫的美食日常
2024-05-31 15:56:26
放弃幻想!华为高管称:国产芯片暂时先别指望能到3nm

放弃幻想!华为高管称:国产芯片暂时先别指望能到3nm

热点科技
2024-05-30 16:46:10
中国女排最新消息!蔡斌主教练:朱婷、所有队员一视同仁!

中国女排最新消息!蔡斌主教练:朱婷、所有队员一视同仁!

小豆豆赛事
2024-06-01 10:05:33
我长期被挤兑,退休后当招标评委,领导请吃饭,我说:我没资格!

我长期被挤兑,退休后当招标评委,领导请吃饭,我说:我没资格!

时尚的弄潮
2024-05-31 02:52:12
笑喷了,潮汕幼儿园龙舟训练,辽宁龙舟队再次受嘲讽,评论笑死

笑喷了,潮汕幼儿园龙舟训练,辽宁龙舟队再次受嘲讽,评论笑死

阿燕姐说育儿
2024-06-01 01:49:06
出动25万大军夜查电动车,查获3万辆!何来脸面把这新闻当自豪?

出动25万大军夜查电动车,查获3万辆!何来脸面把这新闻当自豪?

三农老历
2024-06-01 10:20:45
无论出于何种思考角度,中国人决然不会置身于侵略者的阵营之中

无论出于何种思考角度,中国人决然不会置身于侵略者的阵营之中

橘色数码
2024-05-30 06:36:21
3-1!林高远打疯了,击败世界第15,罕见怒吼庆祝,如张本智和

3-1!林高远打疯了,击败世界第15,罕见怒吼庆祝,如张本智和

足球慢镜头
2024-05-31 16:04:32
讨论 凯尔特人和独行侠总决赛前瞻 球星/对位/X因素/综合实力

讨论 凯尔特人和独行侠总决赛前瞻 球星/对位/X因素/综合实力

直播吧
2024-06-01 12:29:12
打脸?吉利汽车:雷神发动机全球最高热效率46.1%!比亚迪回应:像没量产的我们一大把,不想说而已【附插电式混动汽车市场现状分析】

打脸?吉利汽车:雷神发动机全球最高热效率46.1%!比亚迪回应:像没量产的我们一大把,不想说而已【附插电式混动汽车市场现状分析】

前瞻网
2024-05-30 14:23:01
2024-06-01 12:52:49
人工智能学家
人工智能学家
人工智能领域权威媒体
2855文章数 36922关注度
往期回顾 全部

科技要闻

华为上新!余承东:问界6月销量将超4万辆

头条要闻

上海外滩"最美女警"火出圈:我不是交警 腰带是黑色的

头条要闻

上海外滩"最美女警"火出圈:我不是交警 腰带是黑色的

体育要闻

欧文:当老二怎么了?硬就行了!

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

财经要闻

实锤!普华永道,危!

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

健康
亲子
游戏
公开课
军事航空

晚餐不吃or吃七分饱,哪种更减肥?

亲子要闻

看不得喝进去的水从眼睛里出来了

《战神5》在172个地区被禁售后续:部分玩家仍不满

公开课

近视只是视力差?小心并发症

军事要闻

拜登称以色列提出新的三阶段停火方案

无障碍浏览 进入关怀版