传统自注意力机制的平方复杂度一直是效率瓶颈。微软亚洲研究院提出的Fastformer,用加法注意力替换了传统的点积注意力,把复杂度从O(n²)降到O(n)。
核心思路很简单:不再让每个token两两交互,而是先把输入序列压缩成一个全局向量,再用这个向量去加权每个位置。查询、键、值三路注意力并行计算,最后相加融合。
![]()
实验数据很直接。长文本建模任务上,Fastformer比传统模型快10倍以上,内存占用大幅降低。效果没掉——部分任务甚至更好。
这个设计其实回归了注意力机制的本质:找到"该看哪里",而不是"每处都看"。加法操作足够表达这种选择性,没必要保留昂贵的成对计算。
论文标题玩了个梗,但技术路线是认真的。当大家都在堆参数、扩上下文时,有人选择重新设计底层运算,这本身就是个信号。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.