网易首页 > 网易号 > 正文 申请入驻

唯快不破:上海AI Lab 82页综述带你感受LLM高效架构的魅力

0
分享至



作者:孙伟高上海人工智能实验室

近年来,大语言模型(LLMs)展现出强大的语言理解与生成能力,推动了文本生成、代码生成、问答、翻译等任务的突破。代表性模型如 GPT、Claude、Gemini、DeepSeek、Qwen 等,已经深刻改变了人机交互方式。LLMs 的边界也不止于语言和简单问答。随着多模态(VLMs)与推理能力(LRMs)的兴起,LLMs 正不断扩展到多模态理解、生成与复杂推理场景。

但模型性能持续提升的背后,是模型尺寸、数据规模、RL 推理长度的快速 Scaling,是算力和存储资源的急剧消耗。大模型的训练与推理的成本居高不下,成为制约其广泛落地和应用的现实瓶颈。

本文从 LLM 架构角度出发,带你剖析大模型的效率秘诀。这一切的核心在于 Transformer 架构。Transformer 的自注意力机制虽带来了远距离建模的突破,却因O(N2)的复杂度在长序列任务中成本高昂。而在 RAG、智能体、长链推理、多模态等新兴场景下,长序列需求愈发突出,进一步放大了效率与性能之间的矛盾。同时 Transformer 的 FFN 部分采用密集的 MLP 层,同样面临模型规模放大后的训练和推理效率问题。

近年来针对 Transformer 架构改进的创新工作层出不穷,却一直缺乏一篇全面深入的综述文章进行总结。



图 1:常见长序列场景

近期,上海 AI Lab联合港科广、澳门大学、中科院自动化所、苏州大学、瑞典 KTH、北大、港中文等多家机构,总结 440 余篇相关论文,深入探讨了当前LLM 高效结构的最新进展,形成这篇 82 页的综述论文:



  • 论文标题:Speed Always Wins: A Survey on Efficient Architectures for Large Language Models
  • 论文地址:
  • https://arxiv.org/pdf/2508.09834
  • 项目仓库:
  • https://github.com/weigao266/Awesome-Efficient-Arch



图 2:大语言模型高效架构概览

该综述将目前 LLM 高效架构总结分类为以下 7 类:

  • 线性序列建模:降低注意力训练和推理复杂度,无需 KV Cache 开销。
  • 稀疏序列建模:通过稀疏化注意力矩阵,降低计算与显存需求。
  • 高效全注意力:在保持完整注意力的前提下优化内存访问与 KV 存储。
  • 稀疏专家模型:通过条件激活部分专家,大幅提升模型容量而不增加等比例计算成本。
  • 混合模型架构:结合线性/稀疏序列建模与全注意力,兼顾效率与性能。
  • 扩散语言模型:利用非自回归的扩散模型进行语言生成。
  • 其他模态应用:将这些高效架构应用于视觉、语音、多模态模型。

这些方向的探索不仅关乎 LLM 的未来效率,也关乎如何在算力受限的条件下,持续推动 AI 走向更强的智能的关键选择。综述涉及的方法类别和代表性论文可见如下树状图:



图 3:综述完整组织架构

线性序列建模

线性序列建模是近年来研究相当火热的一个方向,代表性工作像Mamba、Lighting Attention、RWKV、GLA、TTT 等在模型架构方向都引起过广泛关注。我们将这类技术细分为以下几个类别:

  • 线性注意力
  • 线性 RNN
  • 状态空间模型
  • 测试时推理 RNN

并且正如在多篇文献里已经提出的,这些线性序列建模方法可以概括为统一建模的数学形式,并且能够通过线性化过程将预训练模型权重的 Softmax Attention 架构转为 Linear Sequence Modeling 架构,从而获得模型效率的大幅提升,如下图所示。



图 4:线性序列建模方法

我们将已有的线性序列建模方法从记忆视角和优化器视角分别进行梳理和对比,详细形式可见下表:



表 1:线性序列建模方法统一建模的 Memory 视角和 Optimizer 视角

其中线性化技术可以进一步细分为基于微调的线性化,和基于蒸馏的线性化,如下图所示:



图 5:线性化方法

综述还进一步总结归纳了目前在线性序列建模领域常见的硬件高效实现方法,可以归纳为 Blelloch Scan、Chunk-wise Parallel 和 Recurrent for Inferences,如下图所示:



图 6:线性序列建模方法的硬件高效实现

稀疏序列建模

稀疏序列建模是另一类有代表性的高效注意力机制,通过利用 Attention Map 天然具有的稀疏性加速注意力的计算,这类方法可以进一步细分为:

  • 静态稀疏注意力
  • 动态稀疏注意力
  • 免训练稀疏注意力

代表性的稀疏注意力方法如 Global Attention、Window Attention、Dilated Attention 等,及其工作原理如下图所示:



图 7:稀疏注意力的几种经典形式

高效全注意力

另一类高效注意力算法可以统一归纳为高效全注意力,这类方法可以根据算法思路进一步细分为如下几类:

  • IO-Aware Attention
  • Grouped Attention
  • Mixture of Attention
  • Quantized Attention

其中 IO-Aware Attention 指代目前使用非常广泛的Flash Attention系列工作,Grouped Attention 则包含广为使用的 GQA、MLA等全注意力变体,几种代表性方法如下图所示。



图 8:Grouped Attention 的几种代表性方法

稀疏混合专家

稀疏混合专家是对 Transformer 架构中另一个重要模块 FFN 做的一类重要改进,已经逐渐成为(语言和多模态)大模型架构的事实标准。综述中将相关文献按以下三个方向进行分类:

  • Routing Mechanisms
  • Expert Architectures
  • MoE Conversion

路由机制包括 Token-choice 和 Expert-choice 两类,其原理如下图所示:



图 9:MoE 路由机制

专家结构的创新工作包括:共享专家、细粒度专家、零专家、深度路由等,其作用和原理可见下图:



图 10:MoE 专家架构

另外一个重要的方向是 MoE 转换,已有的工作包括通过 Split、Copy、Merge 等手段对专家进行构造,如下图所示:



图 11:MoE 转化机制

混合架构

混合架构是近年来出现的一种实用的新型架构,可以在线性/稀疏注意力和全注意力之间取得微妙的 Trade-off,也在效率和效果间找到了最佳甜蜜点。具体可细分为:

  • 层间混合
  • 层内混合



图 12:混合架构形式

扩散大语言模型

扩散大语言模型是近期出现的一个热门方向,创新性地将扩散模型从视觉生成任务迁移至语言任务,从而在语言生成速度上取得大幅进步。相关工作可以细分为:

  • Non-Autoregressive Diffusion LLM
  • Bridging Diffusion LLM and Autoregressive
  • Extending Diffusion LLM to Multimodality



图 13:扩散大语言模型机制

应用至其他模态

最后一个重要的部分是高效架构在其他模态上的应用,涵盖视觉、音频和多模态。以 Mamba 为代表的线性模型被广泛应用至多种模态任务上,并取得了优秀的表现,综述将这类模型总结梳理至如下表格:



寄语

最后正如帝国时代 3 中这条神奇代码「Speed Always Wins」能让游戏世界「Increases build, research,shipment, and gather rates by 100 times for all players」一样,我们希望综述中的 Efficient Architectures 可以真被用来 100x 加速 AI 世界的构建,更快更便宜地训练出更强更实用的大模型。请记住这条神奇代码:「Speed Always Wins」

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
是不是觉得奇怪:日军几乎侵占了大半个中国,却为何没有染指陕西

是不是觉得奇怪:日军几乎侵占了大半个中国,却为何没有染指陕西

浩渺青史
2025-11-14 21:15:06
全运会女单半决赛:王炸战打成一边倒,王曼昱零封陈梦,不给面子

全运会女单半决赛:王炸战打成一边倒,王曼昱零封陈梦,不给面子

阿黼体育评论
2025-11-15 22:05:18
法企CEO:欧洲现在面临最大的危机,是连中国连抄都懒得抄我们了

法企CEO:欧洲现在面临最大的危机,是连中国连抄都懒得抄我们了

顾蔡卫
2025-11-15 10:01:39
六氟磷酸锂概念投资逻辑与龙头

六氟磷酸锂概念投资逻辑与龙头

K线论势
2025-11-15 17:41:29
王楚钦:一日三赛还是比较累,能为团体赢下比赛值得开心

王楚钦:一日三赛还是比较累,能为团体赢下比赛值得开心

懂球帝
2025-11-15 21:40:22
全运会乒乓球男团北京队3比2上海队,王楚钦单打两战皆胜

全运会乒乓球男团北京队3比2上海队,王楚钦单打两战皆胜

现代快报
2025-11-15 21:39:10
泰国王后在人民大会堂出席国宴放大招!斜跨宝石链,身材气质太绝

泰国王后在人民大会堂出席国宴放大招!斜跨宝石链,身材气质太绝

阿校谈史
2025-11-15 11:20:58
李玫瑾:监狱里没有特别帅的,长相好的通常都是经济或职务犯!

李玫瑾:监狱里没有特别帅的,长相好的通常都是经济或职务犯!

甜柠聊史
2025-11-15 09:01:11
全国累计提交超3170万条育儿补贴申报信息

全国累计提交超3170万条育儿补贴申报信息

财联社
2025-11-15 07:57:02
建国后,被问当年为何没杀掉毛主席,赵恒惕苦笑:他的能量太大了

建国后,被问当年为何没杀掉毛主席,赵恒惕苦笑:他的能量太大了

优趣纪史记
2025-11-14 16:51:35
吴艳妮穿紧身三角裤太窄被批“露骨”,到底碍了谁的眼?

吴艳妮穿紧身三角裤太窄被批“露骨”,到底碍了谁的眼?

傲娇的马甲线
2025-09-17 18:06:44
神秘培训机构内男女学员赤裸上身集体狂舞,隐私成洗脑工具

神秘培训机构内男女学员赤裸上身集体狂舞,隐私成洗脑工具

诗意世界
2025-11-14 21:15:23
1980年,苏小明去38军演出,唱歌互动时愣住:你们怎么都是光头?

1980年,苏小明去38军演出,唱歌互动时愣住:你们怎么都是光头?

历史龙元阁
2025-11-14 17:35:08
17岁年轻妈妈去世,孩子刚满月,家属透露原因,太可惜了!

17岁年轻妈妈去世,孩子刚满月,家属透露原因,太可惜了!

八斗小先生
2025-11-14 10:23:17
重大信号!日本,真的怕了!

重大信号!日本,真的怕了!

李博世财经
2025-11-14 14:20:57
真空吊带裙下的惊艳腰臀比,孟子义化身人间尤物?

真空吊带裙下的惊艳腰臀比,孟子义化身人间尤物?

娱乐领航家
2025-11-03 22:00:03
仅剩2000多万人?比乌克兰投降更可怕的事情是,再打可能亡国了

仅剩2000多万人?比乌克兰投降更可怕的事情是,再打可能亡国了

历史求知所
2025-11-11 07:05:03
双喜临门!沈伯洋在美大金主被查,大陆对其家人公司严厉制裁

双喜临门!沈伯洋在美大金主被查,大陆对其家人公司严厉制裁

晓徙娱乐
2025-11-15 12:47:27
NBA状元之子!宁波男篮官宣签火箭旧将小马丁 父子均打过CBA

NBA状元之子!宁波男篮官宣签火箭旧将小马丁 父子均打过CBA

醉卧浮生
2025-11-15 19:58:44
解析张灵甫杀妻案真相:既非出轨,亦非“通共”,真正原因是这个

解析张灵甫杀妻案真相:既非出轨,亦非“通共”,真正原因是这个

阿胡
2025-11-01 12:20:33
2025-11-15 23:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11720文章数 142505关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

中方愤怒升级24小时内2次"奉示约见" 高市又有新动作

头条要闻

中方愤怒升级24小时内2次"奉示约见" 高市又有新动作

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

钟嘉欣婚变风波升级!被骗婚?

财经要闻

小米之“惑”

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

艺术
旅游
房产
时尚
教育

艺术要闻

惊艳!她的造型和用色让人叹为观止!

旅游要闻

襄阳百米长桌宴开席,孔明灯漫天飞,这场古风市集让全网羡慕哭

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

有品味的中年女人,穿衣都有4个共同点,看看你掌握了几个

教育要闻

那些高分选手,都爱和自己对线

无障碍浏览 进入关怀版