网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

加法注意力机制挑战10亿参数模型霸权：复杂度从平方降到线性，速度飙升10倍

2026-05-16 00:59:58　来源: 闪存猎手

北京举报

0

分享至

传统自注意力机制的平方复杂度一直是效率瓶颈。微软亚洲研究院提出的Fastformer，用加法注意力替换了传统的点积注意力，把复杂度从O(n²)降到O(n)。

核心思路很简单：不再让每个token两两交互，而是先把输入序列压缩成一个全局向量，再用这个向量去加权每个位置。查询、键、值三路注意力并行计算，最后相加融合。

实验数据很直接。长文本建模任务上，Fastformer比传统模型快10倍以上，内存占用大幅降低。效果没掉——部分任务甚至更好。

这个设计其实回归了注意力机制的本质：找到"该看哪里"，而不是"每处都看"。加法操作足够表达这种选择性，没必要保留昂贵的成对计算。

论文标题玩了个梗，但技术路线是认真的。当大家都在堆参数、扩上下文时，有人选择重新设计底层运算，这本身就是个信号。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

MiniMax M3一手实测：老黄PPT上74个Logo，我以为能难住它

量子位 2026-06-02 23:42:25
0 跟贴 0
百度最强视觉识别模型来了！仅0.9B，文档解析能力超越Gemini、GPT

智东西 2026-06-02 19:27:57
29 跟贴 29

牛津、英伟达等提出记忆压缩新范式：训练时让模型学会断舍离

机器之心Pro 2026-06-02 10:18:02
0 跟贴 0

浏览器秒变手机！中科院开源Agent训练场，微信、原神都能跑

新智元 2026-06-02 12:05:35
10 跟贴 10
双料齐发！明略科技 Cider 端侧推理加速框架与 Mano-P 端侧模型

机器之心Pro 2026-06-02 14:48:32
0 跟贴 0

挪威深海发现载有中国瓷器的18世纪沉船：大量青花瓷碗重见天日，文物达数千件，目前正开展船只溯源工作并努力还原历史真相

大风新闻 2026-06-02 12:15:18
9863 跟贴 9863

活久见，时代少年团给大模型上了一课

机器之心Pro 2026-05-09 12:48:20
0 跟贴 0
Token贵只因你喂给模型的垃圾太多了丨@亚马逊王晓野AIGC2026

量子位 2026-06-01 13:11:48
0 跟贴 0

热播综艺被指“一车明星安全带全是P的”，公安部交通管理局发声：安全不是做样子给别人看，安全更容不得自欺欺人

红网 2026-06-02 09:58:21
2072 跟贴 2072
Mind Lab连续发布LoRA最新进展，大模型「持续学习」新范式浮现

机器之心Pro 2026-06-02 11:23:14
0 跟贴 0
学会逆等线模型，巧解八下最值问题

人间闲散客 2026-05-31 01:20:08
0 跟贴 0
世界上最快的模型车超过300公里的时速

浅梦看世界 2026-05-30 00:16:47
3 跟贴 3
30B参数超越GPT-5！REDSearcher让深度搜索Agent做到低成本可扩展

机器之心Pro 2026-03-09 13:28:51
0 跟贴 0
图灵奖得主Sutton新作：AI的下一步，是走向「生成认知」

机器之心Pro 2026-06-02 14:38:41
11 跟贴 11
“技术垄断”，新能源车维修卡在了哪儿？

究竟视频 2026-06-01 11:41:43
0 跟贴 0
GUI Agent记与学双修，长程任务有了专属记忆增强型自进化框架

机器之心Pro 2026-06-02 10:28:14
0 跟贴 0
大模型「行口」不一？首个专测执行幻觉基准，覆盖真实行为越狱

新智元 2026-06-03 06:06:24
0 跟贴 0
鲜奶雪糕包装印“不加一滴水”配料表首位竟是水厂家：系旧包装，已改名“一滴水”

上游新闻 2026-05-29 18:03:05
1866 跟贴 1866
哲思 | 靠谱的人：做减法、求深度、有定力

人民论坛 2026-06-02 21:33:31
0 跟贴 0
千吨巨石矗立遗迹底层，无任何史料记载，建造真相难以破解

俞涛不光会做九转大肠 2026-06-02 00:12:45
0 跟贴 0
别被参数骗了！好开永远比好看重要！

琦哥玩车 2026-05-31 14:42:11
0 跟贴 0
阿里又发了款智能体模型：11小时造出学英语App，还能看懂地铁线路图

智东西 2026-06-02 22:15:06
9 跟贴 9
伊媒称伊美"谅解备忘录"文本尚未定稿，美方:一切取决于特朗普想要怎么做

海峡新干线 2026-05-31 09:20:25
0 跟贴 0
对标Anthropic？5个月暴涨13倍的智谱AI凭什么

秦朔朋友圈 2026-06-03 00:06:57
2 跟贴 2
妈妈带闺女去光头强家玩，没想到被子是塑料，网友被子也是模型！

爆笑论 2026-06-01 15:32:02
1 跟贴 1
你以为爱是加法，其实它改变了你全部的生活

有态度网友ytd2993 2026-06-01 01:03:02
0 跟贴 0
成龙向全球发出入境游邀约：欢迎感受无滤镜的真实中国

新京报 2026-06-01 12:09:13
431 跟贴 431
这才是真实的社会，我们这种底层人活在世上都不容易

挽衾距离 2026-06-02 14:30:11
4 跟贴 4
曝杜伦与活塞在续约谈判中分歧巨大双方预期薪资存“巨大鸿沟”

北青网-北京青年报 2026-06-02 19:42:55
92 跟贴 92
人民日报有问有答：对随身登机行李收费，有依据吗？

澎湃新闻 2026-06-02 07:53:14
128 跟贴 128
印度拟购114架“阵风”战机，军方称必要时准备“辛杜尔行动2.0”

澎湃新闻 2026-06-02 19:30:33
54 跟贴 54
游客吃潮汕火锅嫌“口太淡”要挟写“5000字差评”要免单，火锅店最新回应：高峰期排队上千桌，为顾全大局妥协

洪观新闻 2026-06-02 13:19:43
666 跟贴 666
英伟达与微软达成合作：推出统一技术栈用于部署Agentic AI

每日经济新闻 2026-06-03 05:20:09
0 跟贴 0
钓鱼者往水库撒网，这撒网技术一流，力道也是刚刚好！

梦想搞笑家 2026-06-01 14:12:40
1 跟贴 1
河南献血新规落地献血超千毫升终生免费用血

人民资讯 2026-06-02 15:45:21
86 跟贴 86
机器人下半场怎么走？拆解宇树科技招股书，我们发现了四大关键点

每日经济新闻 2026-06-02 18:53:03
1 跟贴 1
稻城亚丁景区弯道占比超八成，游客建议“接驳车合理收费”……记者实探→

环球网资讯 2026-06-02 21:36:26
106 跟贴 106
皇权继承为啥不能择优立贤？揭秘嫡长继承的底层逻辑！

叨叨漫画 2026-05-31 18:20:00
0 跟贴 0
微软全面押注智能体时代：发布新模型、展示新终端、重塑应用生态

财联社 2026-06-03 04:10:12
0 跟贴 0
光明网评论员：电车该如何参与道路养护

澎湃新闻 2026-06-02 23:08:03
61 跟贴 61

女员工嘲讽顾客“穷逛”后续：本人火到香港已社死，商场也被坑惨

女员工嘲讽顾客“穷逛”后续：本人火到香港已社死，商场也被坑惨

哄动一时啊

2026-06-01 19:30:38

浙江嵊州一小山村被上百人“包围”捡萤石，随手捡的石头阳光下会发光，官方回应

浙江嵊州一小山村被上百人“包围”捡萤石，随手捡的石头阳光下会发光，官方回应

扬子晚报

2026-06-01 22:04:12

女儿第一次带男朋友回家，我什么都没问，看他三个细节就知不行

女儿第一次带男朋友回家，我什么都没问，看他三个细节就知不行

千秋文化

2026-05-28 19:39:17

85英寸大电视突然打骨折？东芝这波“价格屠夫”操作，把我看愣了

85英寸大电视突然打骨折？东芝这波“价格屠夫”操作，把我看愣了

半勺甜心事

2026-06-02 01:05:30

罗马诺：皇马已与科纳特达成口头协议，很快Here we go

罗马诺：皇马已与科纳特达成口头协议，很快Here we go

懂球帝

2026-06-02 21:41:26

他是赢球功臣！7中5+打中三分，楼明为他鼓掌，球迷：早该用他了

他是赢球功臣！7中5+打中三分，楼明为他鼓掌，球迷：早该用他了

南海浪花

2026-06-02 22:26:52

红旗国雅旗舰轿车抵达俄罗斯，售价几乎翻倍

红旗国雅旗舰轿车抵达俄罗斯，售价几乎翻倍

赛场名场面

2026-06-02 01:09:53

54岁吴越下厨被拍，单身生活细节让无数人沉默

54岁吴越下厨被拍，单身生活细节让无数人沉默

天马幸福的人生

2026-05-31 14:54:35

历史性一刻！长征十二号乙首飞成功，中国航天商业时代迎来新巅峰

历史性一刻！长征十二号乙首飞成功，中国航天商业时代迎来新巅峰

云上乌托邦

2026-06-02 17:22:38

青岛城阳区委书记主动投案，距离前任落马仅月余

青岛城阳区委书记主动投案，距离前任落马仅月余

据说无据

2026-06-02 18:22:56

王菲也没想到，那个负债累累的前夫，靠31分钟视频口碑彻底翻盘

王菲也没想到，那个负债累累的前夫，靠31分钟视频口碑彻底翻盘

可乐谈情感

2026-06-03 01:45:20

彻底炸锅！儿媳月子里喂奶，公公5次闯入房间，最终爆发家庭矛盾

彻底炸锅！儿媳月子里喂奶，公公5次闯入房间，最终爆发家庭矛盾

火山詩话

2026-06-02 10:33:01

天啊，何穗怎么变成这样了？不仅鼻子变高脸变僵眼神也变得很凶

天啊，何穗怎么变成这样了？不仅鼻子变高脸变僵眼神也变得很凶

草莓解说体育

2026-06-03 01:18:46

法网女单四强火星撞地球：乌克兰历史首人VS俄罗斯天才少女

法网女单四强火星撞地球：乌克兰历史首人VS俄罗斯天才少女

绿茵狂热者

2026-06-03 01:08:18

250架轰6全副武装，空射核弹就绪，小泉进次郎：中国是超级核大国

250架轰6全副武装，空射核弹就绪，小泉进次郎：中国是超级核大国

小小科普员

2026-06-02 14:08:54

台岛以东日菲擅自划界，我海警前出维权台当局“炸毛”

台岛以东日菲擅自划界，我海警前出维权台当局“炸毛”

观察者网

2026-06-02 22:17:06

广厦惊险晋级！王博换人赌赢，送水举动引爆全网讨论

广厦惊险晋级！王博换人赌赢，送水举动引爆全网讨论

五姑娘台球

2026-06-02 23:17:50

你的低成本爱好是什么？这届网友居然就这样水灵灵的省下这么多钱

你的低成本爱好是什么？这届网友居然就这样水灵灵的省下这么多钱

夜深爱杂谈

2026-06-02 10:49:13

长期吸烟的人，不妨自测一下烟瘾，如果小于3分，提示戒烟容易

长期吸烟的人，不妨自测一下烟瘾，如果小于3分，提示戒烟容易

垚垚分享健康

2026-05-09 15:59:17

李善长被处死时已年近80，每天耕地种田，朱元璋为何非要斩他满门

李善长被处死时已年近80，每天耕地种田，朱元璋为何非要斩他满门

千秋文化

2025-12-27 21:50:26

全网蹲好价的野生捕手，算力与羊毛都不可辜负。

4458文章数 37关注度

往期回顾全部

科技要闻

烧掉千亿后，美团、阿里、京东谁先止血？

头条要闻

演员魏宗万去世曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补，在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光又一款性能SUV要来了？

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

亲子

旅游

公开课

军事航空

本地新闻

用剪纸的方式，打开江苏扬州

亲子要闻

幼小衔接指南——幼小直面交流清晰剖析阶段差异

旅游要闻

北京位列全球数字旅游引领型城市榜首

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

伊朗媒体新发布最高领袖照片

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版