网易首页 > 网易号 > 正文 申请入驻

比Transformer更强的架构来了?浙大新作Translution,一统卷积和自注意力

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】融合Self-attention和Convolution两大核心机制,Translution以统一的框架重新审视深度神经网络的本质,为下一代神经网络提供了新的可能。

自2017年Transformer模型提出以来,Self-attention机制凭借其强大的建模能力,逐渐成为深度学习领域的核心操作。

然而,随着人工智能模型的规模不断扩张,单纯依靠简单直接「堆参数、堆数据」提升性能的模式正逐渐遇到瓶颈。面对大模型训练代价高昂、性能增长趋缓等挑战,学术界和产业界亟需新的网络架构创新。

近日,范鹤鹤(浙江大学)、杨易(浙江大学)、Mohan Kankanhalli(新加坡国立大学)和吴飞(浙江大学)四位老师提出了一种具有划时代意义的神经网络基础操作——Translution。

该研究认为,神经网络对某种类型数据建模的本质是:

1)为某一数据元素(如卷积核里的中心元素或自注意力机制里的query)寻找相关元素或区域;

2)对相关元素形成的区域进行有效编码,获取该区域真正的、独立于其他外部因素无关的内在结构的表征。

据此,在理论框架与实现机制上,Translution实现了Self-Attention(自注意力)与Convolution(卷积)的有机融合与统一,构建出一种更具普适性的神经计算机制。


论文:Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling

论文链接:https://arxiv.org/pdf/2510.10060

代码链接:https://github.com/hehefan/Translution

突破瓶颈

重新思考深度学习两大机制

自注意力机制(Self-Attention)自Transformer模型提出以来,已成为自然语言处理和多模态大模型的核心结构;而卷积神经网络(CNN)则长期主导计算机视觉领域。


图1:Convolution在捕获关联区域时较为「死板」,可以视为固定大小的attention;Self-attention可以自适应地捕捉关联区域

二者的成功揭示了深度神经网络的两条关键路径:

  • Self-Attention能够在全局范围内自适应地捕捉特征关联,但依赖绝对位置编码(absolute positional embedding),导致模型在处理位置变化时缺乏稳定性;

  • Convolution则通过固定的局部卷积核捕获相对结构信息,具备强大的平移不变性,但无法像注意力那样灵活地选择相关区域。


图2:在对相关区域进行编码时,Convolution为每个方向和距离都赋予一个可学习参数矩阵,使其可以捕捉与绝对位置无关的真实结构;而Self-attention通常将绝对位置融入到特征中,当位置发生变化,可能无法识别原先结构。

两种机制各有所长,却始终割裂。Translution的出现,正是为了弥合这一理论与应用的鸿沟。

Translution

Self-Attention和Convolution的大一统

Translution的核心思想,是将Self-Attention的自适应区域选择能力与Convolution的相对结构建模能力进行统一。

在传统的自注意力计算中,Query、Key、Value的投影矩阵在所有位置上共享,无法感知元素之间的方向和距离关系。

Translution则创新性地为每一种相对偏移(offset)分配独立的参数矩阵,从而在计算Query、Key、Value时引入方向性和相对位置信息,实现了真正意义上的相对编码(relative encoding)


表1:Translution对Self-Attention与Convolution的统一。Self-Attention与Convolution可以分别看作是Translution的两种特例:Self-Attention简化了相对位置编码,Convolution简化了注意力求解(用感受野代替)

这意味着,Translution不仅能像自注意力那样动态聚焦于最相关的区域,还能像卷积一样感知局部结构关系,实现了「自适应识别+相对建模」的融合。这一特性使模型在处理图像、文本乃至三维空间数据时,能够对形状、位置、顺序等结构变化保持更强的稳定性和泛化性。

α-Translution

在高性能与可训练性之间找到平衡

由于Translution在每个方向上引入了独立参数矩阵,其参数量呈指数级增长,远超当前GPU显存所能承载。为解决这一问题,提出了轻量化版本——α-Translution

通过在特征维度上引入分解式低秩编码,α-Translution将大规模矩阵压缩为多层可组合子空间映射,从而在保证性能的同时,将参数量与显存占用降低至原版的数十分之一。

实验表明,α-Translution在性能上显著优于传统Self-Attention,而计算成本可控,是当前硬件条件下最具潜力的过渡方案。

在视觉与语言任务上,

全面超越Self-Attention

技术报告在计算机视觉自然语言建模两个领域开展了系统性实验。

结果显示,在多个benchmark上,Translution及其轻量化版本α-Translution均显著优于基于Self-attention的Transformer架构

•在基于ViT架构的动态MNIST分类实验中,Translution对位置变化表现出极强的鲁棒性,识别精度显著优于Self-Attention。

•在基于ViT架构的ImageNet分类任务上,Translution的Top-1准确率较Self-Attention最高提升超过6%。

•在基于GPT架构的OpenWebText语言建模中,Translution的困惑度(Perplexity)相比Self-Attention有效降低,展现出更强的语言建模能力。


表2:当在静态MNIST数据集上进行训练、动态数据集上进行测试,Translution(包括α-Translution)取得了明显高于Self-attention的准确率,展现出其对位置变化的强大适应能力。


表3:基于Translution构建的ViT在ImageNet数据集上取得明显优于Self-attention的准确率


表4:在自然语言建模的任务上,基于Translution构建的GPT也取得了超过Self-attention的性能

这些结果表明,Translution不仅在视觉任务中能够准确捕获空间结构关系,也能在文本序列中理解词语之间的相对依赖,展现出跨模态的普适性。

灵魂拷问

Translution性能提升源自参数量增多?

为了验证Translution的性能提升究竟源于参数规模的增加,还是源于所提出的相对建模机制,作者们设计了更具「挑战性」的对照实验:他们将Translution中的相对矩阵替换为绝对矩阵。

这一替换会导致参数量显著增加。如果「绝对Translution」的表现优于「相对Translution」,则说明性能提升主要来自参数增多;反之,则证明提升源于相对建模机制本身。

实验结果如表所示,「相对Translution」在准确率上远超「绝对Translution」,充分证明了性能提升确实源自所提出的相对建模方法。


表5:具有更少参数的「相对Translution」取得了更高的准确率,证明了Translution带来的性能提升正是由所提出的相对建模引起的。

结束语:Translution不仅是一项技术创新,更是一次对深度神经网络本质的重新思考。

尽管其大规模应用有赖于未来更强大的算力支撑,但它为新一代神经网络的发展开辟了新的方向,也为人工智能的未来注入了新的活力。

参考资料:

https://arxiv.org/pdf/2510.10060

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
与雷军分道扬镳,美的方洪波言论刷屏,十几万字报告拆解小米

与雷军分道扬镳,美的方洪波言论刷屏,十几万字报告拆解小米

公子麦少
2025-11-07 20:43:25
乌方遭大规模联合攻击!红军城告急,俄军一天拿下64座建筑!普京最新支持率出炉,特朗普:希望继续与普京会晤

乌方遭大规模联合攻击!红军城告急,俄军一天拿下64座建筑!普京最新支持率出炉,特朗普:希望继续与普京会晤

每日经济新闻
2025-11-08 18:29:09
中国最牛的金融大佬突然人间蒸发了,你敢信?

中国最牛的金融大佬突然人间蒸发了,你敢信?

流苏晚晴
2025-11-08 16:57:38
40岁黄希扬泪如雨下!1265天两次落泪:终于把中超还给球迷

40岁黄希扬泪如雨下!1265天两次落泪:终于把中超还给球迷

奥拜尔
2025-11-08 17:09:49
跨年潜力股会是哪些?五大特征锁定,低价+低市值的绩优潜力热门股出炉

跨年潜力股会是哪些?五大特征锁定,低价+低市值的绩优潜力热门股出炉

数据宝
2025-11-08 18:53:23
环球小姐爆炸现场!冠军带头罢走、佳丽集体退场,主办方全网道歉!

环球小姐爆炸现场!冠军带头罢走、佳丽集体退场,主办方全网道歉!

新欧洲
2025-11-06 21:37:11
中国房地产报:北京、上海、深圳等,可以择机全域放开限购

中国房地产报:北京、上海、深圳等,可以择机全域放开限购

六子吃凉粉
2025-11-08 14:41:05
全网炸了!古二再曝王家卫录音!发表崇洋媚外不当言论!

全网炸了!古二再曝王家卫录音!发表崇洋媚外不当言论!

君笙的拂兮
2025-11-08 20:11:31
祖雄兵、曾琦因生活作风问题被停职调查!两人可能会有5种结局

祖雄兵、曾琦因生活作风问题被停职调查!两人可能会有5种结局

鋭娱之乐
2025-11-08 15:05:47
王晶谈万梓良晚年凄凉!称其不懂江湖规矩,演戏夸张对手很难接

王晶谈万梓良晚年凄凉!称其不懂江湖规矩,演戏夸张对手很难接

一盅情怀
2025-11-08 18:08:56
8旬阿婆一口锅用了34年,对话“传家锅”老板:正筹备复工,紧密观察市场情况

8旬阿婆一口锅用了34年,对话“传家锅”老板:正筹备复工,紧密观察市场情况

红星新闻
2025-11-08 18:07:26
总在凌晨3-5点醒来的人,并非睡不好,而是你的“前世”在求救

总在凌晨3-5点醒来的人,并非睡不好,而是你的“前世”在求救

古怪奇谈录
2025-11-06 14:50:51
“眼科女王”曾琦,多张漂亮优雅照片曝光,未来3大困境等着她

“眼科女王”曾琦,多张漂亮优雅照片曝光,未来3大困境等着她

李昕言温度空间
2025-11-06 21:03:20
两位医生互动的时候,有2个细节,不得不让人感叹:老炮儿

两位医生互动的时候,有2个细节,不得不让人感叹:老炮儿

魔都姐姐杂谈
2025-11-08 13:39:26
悲催!东莞一家30年大厂轰然倒下,负债2个亿,近2000人面临失业

悲催!东莞一家30年大厂轰然倒下,负债2个亿,近2000人面临失业

火山诗话
2025-11-08 10:42:07
印尼不买了,泰国也不买了,中国千亿大单遭冲击

印尼不买了,泰国也不买了,中国千亿大单遭冲击

花花娱界
2025-11-08 21:54:27
曾琦老公什么都没做,也被挖了出来!网友:有点理解主任了

曾琦老公什么都没做,也被挖了出来!网友:有点理解主任了

男女那点事儿儿
2025-11-08 12:59:03
那么优秀的曾医生,为什么会如此主动呢

那么优秀的曾医生,为什么会如此主动呢

大张的自留地
2025-11-08 14:39:50
随着朝鲜3-0卫冕,4夺女足世界杯冠军,最终排名如下:中国队第12

随着朝鲜3-0卫冕,4夺女足世界杯冠军,最终排名如下:中国队第12

侃球熊弟
2025-11-09 04:59:56
男医生的更多生活细节被扒,妻子生活照曝光,比曾医生长得好看

男医生的更多生活细节被扒,妻子生活照曝光,比曾医生长得好看

魔都姐姐杂谈
2025-11-08 16:50:38
2025-11-09 06:44:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13819文章数 66238关注度
往期回顾 全部

科技要闻

美股“AI八巨头”单周市值损失8000亿美元

头条要闻

张家界荒野求生选手抓到野猪吃得满嘴流油 赛事方回应

头条要闻

张家界荒野求生选手抓到野猪吃得满嘴流油 赛事方回应

体育要闻

马刺绞赢火箭,不靠文班亚马?

娱乐要闻

古二再度放料!秦雯王家卫吐槽出现新人物

财经要闻

小马、文远回港上市 但自动驾驶还没赢家

汽车要闻

特斯拉Model Y后驱长续航版上线:28.85 万元

态度原创

房产
旅游
家居
手机
本地

房产要闻

封关倒计时!三亚主城 2.3 万 /㎡+ 即买即住,手慢无!

旅游要闻

千年上海看七宝:我在这里感受独有的水乡韵味

家居要闻

现代自由 功能美学居所

手机要闻

苹果iPhone Air项目未中止 死磕超薄设计手机

本地新闻

这届干饭人,已经把博物馆吃成了食堂

无障碍浏览 进入关怀版