网易首页 > 网易号 > 正文 申请入驻

比Transformer更强的架构来了?浙大新作Translution,一统卷积和自注意力

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】融合Self-attention和Convolution两大核心机制,Translution以统一的框架重新审视深度神经网络的本质,为下一代神经网络提供了新的可能。

自2017年Transformer模型提出以来,Self-attention机制凭借其强大的建模能力,逐渐成为深度学习领域的核心操作。

然而,随着人工智能模型的规模不断扩张,单纯依靠简单直接「堆参数、堆数据」提升性能的模式正逐渐遇到瓶颈。面对大模型训练代价高昂、性能增长趋缓等挑战,学术界和产业界亟需新的网络架构创新。

近日,范鹤鹤(浙江大学)、杨易(浙江大学)、Mohan Kankanhalli(新加坡国立大学)和吴飞(浙江大学)四位老师提出了一种具有划时代意义的神经网络基础操作——Translution。

该研究认为,神经网络对某种类型数据建模的本质是:

1)为某一数据元素(如卷积核里的中心元素或自注意力机制里的query)寻找相关元素或区域;

2)对相关元素形成的区域进行有效编码,获取该区域真正的、独立于其他外部因素无关的内在结构的表征。

据此,在理论框架与实现机制上,Translution实现了Self-Attention(自注意力)与Convolution(卷积)的有机融合与统一,构建出一种更具普适性的神经计算机制。


论文:Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling

论文链接:https://arxiv.org/pdf/2510.10060

代码链接:https://github.com/hehefan/Translution

突破瓶颈

重新思考深度学习两大机制

自注意力机制(Self-Attention)自Transformer模型提出以来,已成为自然语言处理和多模态大模型的核心结构;而卷积神经网络(CNN)则长期主导计算机视觉领域。


图1:Convolution在捕获关联区域时较为「死板」,可以视为固定大小的attention;Self-attention可以自适应地捕捉关联区域

二者的成功揭示了深度神经网络的两条关键路径:

  • Self-Attention能够在全局范围内自适应地捕捉特征关联,但依赖绝对位置编码(absolute positional embedding),导致模型在处理位置变化时缺乏稳定性;

  • Convolution则通过固定的局部卷积核捕获相对结构信息,具备强大的平移不变性,但无法像注意力那样灵活地选择相关区域。


图2:在对相关区域进行编码时,Convolution为每个方向和距离都赋予一个可学习参数矩阵,使其可以捕捉与绝对位置无关的真实结构;而Self-attention通常将绝对位置融入到特征中,当位置发生变化,可能无法识别原先结构。

两种机制各有所长,却始终割裂。Translution的出现,正是为了弥合这一理论与应用的鸿沟。

Translution

Self-Attention和Convolution的大一统

Translution的核心思想,是将Self-Attention的自适应区域选择能力与Convolution的相对结构建模能力进行统一。

在传统的自注意力计算中,Query、Key、Value的投影矩阵在所有位置上共享,无法感知元素之间的方向和距离关系。

Translution则创新性地为每一种相对偏移(offset)分配独立的参数矩阵,从而在计算Query、Key、Value时引入方向性和相对位置信息,实现了真正意义上的相对编码(relative encoding)


表1:Translution对Self-Attention与Convolution的统一。Self-Attention与Convolution可以分别看作是Translution的两种特例:Self-Attention简化了相对位置编码,Convolution简化了注意力求解(用感受野代替)

这意味着,Translution不仅能像自注意力那样动态聚焦于最相关的区域,还能像卷积一样感知局部结构关系,实现了「自适应识别+相对建模」的融合。这一特性使模型在处理图像、文本乃至三维空间数据时,能够对形状、位置、顺序等结构变化保持更强的稳定性和泛化性。

α-Translution

在高性能与可训练性之间找到平衡

由于Translution在每个方向上引入了独立参数矩阵,其参数量呈指数级增长,远超当前GPU显存所能承载。为解决这一问题,提出了轻量化版本——α-Translution

通过在特征维度上引入分解式低秩编码,α-Translution将大规模矩阵压缩为多层可组合子空间映射,从而在保证性能的同时,将参数量与显存占用降低至原版的数十分之一。

实验表明,α-Translution在性能上显著优于传统Self-Attention,而计算成本可控,是当前硬件条件下最具潜力的过渡方案。

在视觉与语言任务上,

全面超越Self-Attention

技术报告在计算机视觉自然语言建模两个领域开展了系统性实验。

结果显示,在多个benchmark上,Translution及其轻量化版本α-Translution均显著优于基于Self-attention的Transformer架构

•在基于ViT架构的动态MNIST分类实验中,Translution对位置变化表现出极强的鲁棒性,识别精度显著优于Self-Attention。

•在基于ViT架构的ImageNet分类任务上,Translution的Top-1准确率较Self-Attention最高提升超过6%。

•在基于GPT架构的OpenWebText语言建模中,Translution的困惑度(Perplexity)相比Self-Attention有效降低,展现出更强的语言建模能力。


表2:当在静态MNIST数据集上进行训练、动态数据集上进行测试,Translution(包括α-Translution)取得了明显高于Self-attention的准确率,展现出其对位置变化的强大适应能力。


表3:基于Translution构建的ViT在ImageNet数据集上取得明显优于Self-attention的准确率


表4:在自然语言建模的任务上,基于Translution构建的GPT也取得了超过Self-attention的性能

这些结果表明,Translution不仅在视觉任务中能够准确捕获空间结构关系,也能在文本序列中理解词语之间的相对依赖,展现出跨模态的普适性。

灵魂拷问

Translution性能提升源自参数量增多?

为了验证Translution的性能提升究竟源于参数规模的增加,还是源于所提出的相对建模机制,作者们设计了更具「挑战性」的对照实验:他们将Translution中的相对矩阵替换为绝对矩阵。

这一替换会导致参数量显著增加。如果「绝对Translution」的表现优于「相对Translution」,则说明性能提升主要来自参数增多;反之,则证明提升源于相对建模机制本身。

实验结果如表所示,「相对Translution」在准确率上远超「绝对Translution」,充分证明了性能提升确实源自所提出的相对建模方法。


表5:具有更少参数的「相对Translution」取得了更高的准确率,证明了Translution带来的性能提升正是由所提出的相对建模引起的。

结束语:Translution不仅是一项技术创新,更是一次对深度神经网络本质的重新思考。

尽管其大规模应用有赖于未来更强大的算力支撑,但它为新一代神经网络的发展开辟了新的方向,也为人工智能的未来注入了新的活力。

参考资料:

https://arxiv.org/pdf/2510.10060

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新加坡首次打破50年惯例,将要为中国统一扫清一大障碍

新加坡首次打破50年惯例,将要为中国统一扫清一大障碍

云上乌托邦
2026-01-23 15:07:21
活塞官宣:比克斯塔夫当选全明星主帅 06年桑德斯后队史首人

活塞官宣:比克斯塔夫当选全明星主帅 06年桑德斯后队史首人

醉卧浮生
2026-01-25 12:21:02
迈克尔·乔丹为德里克·罗斯球衣退役致辞,将吸引公牛球迷的目光

迈克尔·乔丹为德里克·罗斯球衣退役致辞,将吸引公牛球迷的目光

好火子
2026-01-25 05:37:36
记住吧,历史总要清算

记住吧,历史总要清算

火事杂谈
2026-01-24 18:52:38
上海炒股大赛冠军的箴言:如果手里只有10万,不妨死磕"七大口诀"

上海炒股大赛冠军的箴言:如果手里只有10万,不妨死磕"七大口诀"

一方聊市
2026-01-19 13:13:48
自作孽不可活!高调炫富的李湘再传“噩耗”,私生活被扒个底朝天

自作孽不可活!高调炫富的李湘再传“噩耗”,私生活被扒个底朝天

人间无味啊
2026-01-23 01:08:44
千亿锂电龙头,净利预增529%

千亿锂电龙头,净利预增529%

21世纪经济报道
2026-01-25 17:01:40
三十多国已同意加入特朗普新群,首个付费国出现:愿捐10亿美元

三十多国已同意加入特朗普新群,首个付费国出现:愿捐10亿美元

井普椿的独白
2026-01-24 13:24:25
浙江包工头多器官衰竭,医院一直没找出病因,母亲煮饺子察觉蹊跷

浙江包工头多器官衰竭,医院一直没找出病因,母亲煮饺子察觉蹊跷

二十一号故事铺
2024-10-18 19:35:03
李亚鹏带货的茶厂因“爆单”暂停直播,称订单量远超预期,员工都在加班加点拼命出货

李亚鹏带货的茶厂因“爆单”暂停直播,称订单量远超预期,员工都在加班加点拼命出货

极目新闻
2026-01-25 13:19:15
赫鲁晓夫做梦也没想到,那个在宴会上指着他鼻子怒吼“我块头大”的中国硬汉,最后竟一语成谶!

赫鲁晓夫做梦也没想到,那个在宴会上指着他鼻子怒吼“我块头大”的中国硬汉,最后竟一语成谶!

源溯历史
2026-01-03 20:11:11
3个亿砸给一个网红,换来14年牢饭,这个富二代到底哪儿疯了?

3个亿砸给一个网红,换来14年牢饭,这个富二代到底哪儿疯了?

流云随风去远方
2026-01-25 08:49:43
一粒速效救心丸可治10多种病,别只用来治疗心梗了,一定要收藏

一粒速效救心丸可治10多种病,别只用来治疗心梗了,一定要收藏

路医生健康科普
2026-01-24 08:30:03
三十岁高颜值少妇卖淫:一次仅百元,时长不限,一画面信息量大

三十岁高颜值少妇卖淫:一次仅百元,时长不限,一画面信息量大

博士观察
2026-01-25 20:18:40
百度网盘要赚钱养家了?

百度网盘要赚钱养家了?

下海fallsea
2026-01-24 13:56:10
杠杆资金抢筹股曝光,4股获加仓超10亿元!

杠杆资金抢筹股曝光,4股获加仓超10亿元!

数据宝
2026-01-25 18:14:20
别去撩中年女人:她不是猎物,是你惹不起的人间清醒

别去撩中年女人:她不是猎物,是你惹不起的人间清醒

青苹果sht
2026-01-13 03:43:56
「纽约时报」2025年度十佳电影

「纽约时报」2025年度十佳电影

电影分享会
2026-01-25 11:07:52
张本美和成功夺冠!4:3击败早田希娜,喜极而泣,登上最高领奖台

张本美和成功夺冠!4:3击败早田希娜,喜极而泣,登上最高领奖台

国乒二三事
2026-01-25 13:29:04
学医后才知道,冠心病前最危险的信号,不是心脏疼,而是这5症状

学医后才知道,冠心病前最危险的信号,不是心脏疼,而是这5症状

医学科普汇
2026-01-23 09:46:27
2026-01-25 21:08:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14411文章数 66529关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

加拿大华人医生夫妇携幼女到上海求医 花16万保下脾脏

头条要闻

加拿大华人医生夫妇携幼女到上海求医 花16万保下脾脏

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

手机
时尚
健康
本地
军事航空

手机要闻

荣耀500 Pro MOLLY 20周年限定版开售:国补到手3999元 首款全机定制潮玩手机

新不如旧!这4件时髦“旧衣服”今年太火了

耳石脱落为何让人天旋地转+恶心?

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

军事要闻

俄美乌三方首轮会谈细节披露

无障碍浏览 进入关怀版