网易首页 > 网易号 > 正文 申请入驻

首个基于统计学的线性注意力机制ToST,高分拿下ICLR Spotlight

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文第一作者为加州大学伯克利分校三年级博士生吴梓阳,导师为马毅教授。吴的主要研究方向为表征学习与多模态学习。该工作由多所学校与机构的研究者共同完成,包括加州大学伯克利分校、宾夕法尼亚大学、密歇根大学、清华大学、忆生科技、香港大学、约翰·霍普金斯大学等。据悉,马毅教授已受邀在今年四月的ICLR大会上就和此项成果相关的一系列白盒神经网络相关工作,进行为时一小时的主题报告(Keynote)。

Transformer 架构在过去几年中通过注意力机制在多个领域(如计算机视觉、自然语言处理和长序列任务)中取得了非凡的成就。然而,其核心组件「自注意力机制」 的计算复杂度随输入 token 数量呈二次方增长,导致资源消耗巨大,难以扩展到更长的序列或更大的模型。

Token Statistics Transformer (ToST) 提出了一种新的注意力机制,它的时间复杂度是线性的。通过对序列特征的统计建模,ToST 提高了序列处理任务中的效率。文章探讨了基于变分编码率缩减(Variational Rate Reduction, VRR)的框架,并通过实验验证了其在不同任务中的性能,通过革新传统注意力机制,解决了这些长期困扰 Transformer 架构的效率瓶颈。

ToST 也作为 Spotlight 论文,入选了 ICLR 2025 大会。

  • 论文标题:Token Statistics Transformer: Linear-Time Attention via Variational Rate Reduction
  • 论文地址:https://arxiv.org/abs/2412.17810
  • 项目主页:https://robinwu218.github.io/ToST/
  • 目前该工作已开源:https://github.com/RobinWu218/ToST

研究背景与动机

一直以来,自注意力机制依赖于对输入 token 两两相似性的计算,这一过程虽然有效,但其资源开销显著;尤其当输入 token 数量极大时,传统注意力机制(如 Transformer 中的全局注意力)在计算复杂度和内存使用上的瓶颈问题愈发显著。

为了应对这一挑战,本文提出了一种基于统计学特征的注意力机制:Token Statistics Self-Attention (TSSA)。它通过避免两两相似性的计算,仅依赖于 token 特征的统计量,显著降低了计算复杂度。

Token Statistics Transformer (ToST) 的架构。Token Statistics Self-Attention (TSSA) 运算符通过对投影后的 token 进行行标量化变换,从而实现了线性复杂度。

核心方法

ToST 的核心方法是通过特定的概率分布函数对输入序列进行建模,减少冗余信息并提取关键特征。具体包括:

1.统计特征提取:对序列中的每个 token 提取其统计特征。

2.变分编码率缩减:利用 VRR 框架对特征进行压缩,减少信息冗余。

3.线性复杂度实现:通过一系列优化,其计算复杂度从 O (n²) 降低为 O (n)。

ToST 的方法概述。在 CRATE 的理论基础上,ToST 通过几何空间的结构化特征实现 token 分组和映射。

网络架构的推导

该团队通过扩展先前的 CRATE 工作推导出网络架构。CRATE 显示,一种 Transformer 风格的架构可以通过 "白盒" 架构设计自然生成,其中网络的每一层都旨在实现最大编码率缩减目标 (MCR²) 的增量优化步骤。

具体来说,该团队推导了 MCR² 目标的一个新颖的变分形式,并表明通过对该变分目标进行展开梯度下降所得到的架构会引入一种新的注意力模块,称为 Token Statistics Self-Attention (TSSA)。TSSA 拥有线性的计算和内存复杂度,并从根本上不同于典型的注意力架构,其后者通过计算 token 之间的两两相似性来实现。

关键公式 MCR² 目标函数定义

技术细节

1. 线性时间注意力机制:Token Statistics Self-Attention (TSSA)

通过白盒设计方法(algorithmic unrolling),TSSA 从最大编码率减少(Maximal Coding Rate Reduction, MCR² )的变分形式中推导而来。

传统 Transformer 依赖于 pairwise 相似度计算,而 TSSA 则基于 token 特征的统计量构建注意力机制,其计算复杂度从 O (n²) 降低为 O (n),内存占用同样显著减少。

2. 创新性的网络结构:Token Statistics Transformer (ToST)

ToST 通过将 TSSA 替代标准的自注意力模块,不仅实现了显著的效率提升,还增强了模型的可解释性。

与传统模型不同,ToST 架构中的注意力操作基于统计量的低秩投影,通过减少不必要的计算路径,大幅优化了资源使用。

3. 理论支撑与数学推导

基于 MCR² 的变分形式,提出了一种新颖的压缩项公式,可对大型矩阵进行有效的特征提取。

通过设计数据相关的低秩投影,TSSA 在保留关键信息的同时,消除了冗余方向。

实验验证与性能分析

实验覆盖了自然言语处理(NLP)、计算机视觉(CV)等多个领域的任务,包括文本分类、机器翻译、图像识别等。结果表明,ToST 在保证模型性能的同时,大幅降低了计算资源消耗。

1. 计算和内存的线性复杂度分析

实验结果显示,与现有的注意力机制相比,TSSA 的时间和内存复杂度更低。具体而言,TSSA 的复杂度为 O (pn),显著优于传统 Transformer 的 O (n²)。

ToST 在计算时间和内存使用上均随序列长度实现线性扩展,使其显著优于标准 Transformer 的效率。如下:

复杂度分析对比

在 GPU 上评估的速度和内存使用对比

2. 视觉任务性能分析

在 ImageNet-1k 等主流视觉数据集上的实验表明,ToST 的性能可与传统 Transformer 架构(如 ViT 和 XCiT)相媲美,同时显著减少了模型参数量和计算开销。

迁移学习实验中,ToST 在 CIFAR、Oxford Flowers 等数据集上的表现进一步验证了其在多种视觉任务中的适应性。

结果展示了与传统 Transformer 相当的性能,同时在计算效率上显著更高。

3. 长序列任务和语言建模

  • 长序列任务

在长序列任务基准测试(如 Long-Range Arena)中,ToST 展现出优异的长距离建模能力,其性能超越了现有 Transformer 变体。

  • 语言建模

ToST 可以扩展并适用于多种任务场景,包括因果语言建模。针对语言建模,ToST 采用了一种因果版本的 TSSA,在多个数据集上实现了高效的预测能力。此外,即使在参数规模扩大的情况下,ToST 依然保持了优异的时间和内存效率。

NLP 任务中的表现

4. 有原理支持的模型设计

由于 ToST 是通过展开从学习目标中推导出来的,我们可以以有原理支持的方式逐层分析学习到的模型行为。

ToST 模型不同层次的 TSSA 输出的变分压缩项

5. 学习表示的可解释性分析

ToST 通过统计量驱动的注意力机制,使每一层的注意力操作更加透明,便于解释和分析。其分组机制展现了 token 特征在低维空间中的聚类效果,直观反映了模型的决策过程。

ToST 在无需复杂的自监督训练的情况下,自然生成了可解释的注意力模式。

倒数第二个全局类注意力层中最后一个头部的 [CLS] token 注意力图的比较

在 TSSA 层中,可视化估计的隶属矩阵 Π 的每一行(经过重塑后)

可能对未来产生的影响

1. 大模型的高效化

随着语言模型、生成模型和多模态模型规模的持续扩展,计算效率成为核心瓶颈。ToST 展示的统计量驱动注意力机制,为实现线性复杂度的大模型提供了可能性。

2. 推动 Transformer 的普适化应用

高效的注意力机制使得 ToST 能够更广泛地应用于资源受限场景,如边缘计算、实时系统、嵌入式设备等。这为人工智能技术从中心化计算向分布式、边缘化方向的发展奠定了基础。

3. 多模态融合的可能性

ToST 的低复杂度机制为处理多模态长序列任务提供了新的技术框架,使未来多模态大模型在生成、分析和交互中的效率显著提升。

4. 促进跨学科应用

ToST 对数学理论与工程实现的有机结合,不仅在传统 AI 任务中表现突出,还可能推动其在新兴领域(如量子计算、生物信息学和材料设计)中的应用。

Token Statistics Transformer (ToST) 重塑了注意力机制,它不需要计算 token 之间的两两交互,而是基于投影后 token 特征的二阶矩统计量构建,其基于数据压缩和表示学习的理论原则目标,为 Transformer 的发展开辟了新路径。其基于统计特性的低复杂度设计,不仅优化了现有架构的性能,还为未来大模型的高效化、多模态融合和跨学科应用提供了启示

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“割四赔五”升级版!又有师傅称3000元梯子被盗,哭诉麦收季寒心

“割四赔五”升级版!又有师傅称3000元梯子被盗,哭诉麦收季寒心

火山詩话
2026-05-27 06:50:51
退休最好方式不是闲逛、打牌,而是在60~65岁这五年,规划好这4点

退休最好方式不是闲逛、打牌,而是在60~65岁这五年,规划好这4点

小鹿姐姐情感说
2026-05-26 12:01:26
央视曝光升级版杀猪盘

央视曝光升级版杀猪盘

环球网资讯
2026-05-28 10:09:54
72岁才明白:不留骨灰、不买墓地、不求后人祭拜的,是这3种人!

72岁才明白:不留骨灰、不买墓地、不求后人祭拜的,是这3种人!

顾一宸
2026-05-18 20:01:51
河南一路段有不少村民占用公路晾晒小麦,为防止车辆碾压粮食,竟在路面摆放带钉木板,司机:易扎破车辆轮胎,行人若碰上钉子后果不堪设想

河南一路段有不少村民占用公路晾晒小麦,为防止车辆碾压粮食,竟在路面摆放带钉木板,司机:易扎破车辆轮胎,行人若碰上钉子后果不堪设想

潇湘晨报
2026-05-28 11:22:27
独臂父亲参加儿子的家长会,因太寒酸被笑话,校长一见他却突然下跪

独臂父亲参加儿子的家长会,因太寒酸被笑话,校长一见他却突然下跪

灿烂夏天
2025-04-06 17:24:59
17万美元的中国豪车:40个音箱+40英寸屏,对标迈巴赫

17万美元的中国豪车:40个音箱+40英寸屏,对标迈巴赫

我是一个粉刷匠2
2026-05-27 04:34:37
全球5000万现代奴隶:性奴、割器官,人口黑市比你想的更恐怖

全球5000万现代奴隶:性奴、割器官,人口黑市比你想的更恐怖

青眼财经
2026-05-22 16:41:25
钟镇涛35岁儿子告别香港,感慨在当地无人认识,移居上海开咖啡馆

钟镇涛35岁儿子告别香港,感慨在当地无人认识,移居上海开咖啡馆

小椰的奶奶
2026-05-28 14:34:29
德州韩裔老夫妻连开两场枪!2死3伤后竟淡定去麦当劳,幸存者:她还问我“你怎么还没死?”

德州韩裔老夫妻连开两场枪!2死3伤后竟淡定去麦当劳,幸存者:她还问我“你怎么还没死?”

华人生活网
2026-05-28 02:53:51
男子在海底捞喝饮料疑吞下玻璃杯碎片,跑3家医院、拍7次CT仍未解决,确诊轻度抑郁!火锅店称将“负责到底”

男子在海底捞喝饮料疑吞下玻璃杯碎片,跑3家医院、拍7次CT仍未解决,确诊轻度抑郁!火锅店称将“负责到底”

闪电新闻
2026-05-27 20:40:12
记者调查!“可登机”的行李箱为啥上不了飞机?

记者调查!“可登机”的行李箱为啥上不了飞机?

中国消费者报
2026-05-28 12:59:18
CBA总决赛G2战又变卦?篮协紧急出手叫停,本土裁判将回归吹罚!

CBA总决赛G2战又变卦?篮协紧急出手叫停,本土裁判将回归吹罚!

大鱼简科
2026-05-28 14:37:39
这个“小仙女”丢脸到国外了

这个“小仙女”丢脸到国外了

陈宜之
2026-05-27 23:22:02
韩国超模自曝身材烦恼:太丰满也是一种负担,1个穿搭秘诀化解困扰

韩国超模自曝身材烦恼:太丰满也是一种负担,1个穿搭秘诀化解困扰

赴一场山海啊
2026-05-25 00:12:48
我就说网上能学到真东西!

我就说网上能学到真东西!

新住家居
2026-05-27 07:07:40
胎记是怎么来的?产科医生:孕期尽量避开3种行为,以免害了胎儿

胎记是怎么来的?产科医生:孕期尽量避开3种行为,以免害了胎儿

大果小果妈妈
2026-05-26 13:24:55
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
施瓦辛格私生子太争气,首夺健美冠军!女保姆所生,肌肉复制父亲

施瓦辛格私生子太争气,首夺健美冠军!女保姆所生,肌肉复制父亲

头号电影院
2026-04-03 22:24:38
科索沃宣布脱离塞尔维亚独立,西班牙为何不承认?

科索沃宣布脱离塞尔维亚独立,西班牙为何不承认?

世界纵横说
2026-05-26 17:10:47
2026-05-28 16:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13103文章数 142653关注度
往期回顾 全部

科技要闻

台积电3纳米下半年涨价15% 明年或再涨10%

头条要闻

媒体:林志玲请辞"文策院"董事 赖清德现在非常尴尬

头条要闻

媒体:林志玲请辞"文策院"董事 赖清德现在非常尴尬

体育要闻

如果雷霆拼图是这水平 马刺确实打不过

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

长鑫科技IPO过会,市值会到几万亿?

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

房产
本地
家居
公开课
军事航空

房产要闻

突发重磅!三亚新机场公司正式成立!

本地新闻

用剪纸的方式,打开江苏扬州

家居要闻

蜂鸟餐椅 线面交错

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美锁定伊朗打击新目标 考虑重启军事行动

无障碍浏览 进入关怀版