网易首页 > 网易号 > 正文 申请入驻

唯快不破:上海AI Lab 82页综述带你感受LLM高效架构的魅力

0
分享至

作者:孙伟高上海人工智能实验室

近年来,大语言模型(LLMs)展现出强大的语言理解与生成能力,推动了文本生成、代码生成、问答、翻译等任务的突破。代表性模型如 GPT、Claude、Gemini、DeepSeek、Qwen 等,已经深刻改变了人机交互方式。LLMs 的边界也不止于语言和简单问答。随着多模态(VLMs)与推理能力(LRMs)的兴起,LLMs 正不断扩展到多模态理解、生成与复杂推理场景。

但模型性能持续提升的背后,是模型尺寸、数据规模、RL 推理长度的快速 Scaling,是算力和存储资源的急剧消耗。大模型的训练与推理的成本居高不下,成为制约其广泛落地和应用的现实瓶颈。

本文从 LLM 架构角度出发,带你剖析大模型的效率秘诀。这一切的核心在于 Transformer 架构。Transformer 的自注意力机制虽带来了远距离建模的突破,却因O(N2)的复杂度在长序列任务中成本高昂。而在 RAG、智能体、长链推理、多模态等新兴场景下,长序列需求愈发突出,进一步放大了效率与性能之间的矛盾。同时 Transformer 的 FFN 部分采用密集的 MLP 层,同样面临模型规模放大后的训练和推理效率问题。

近年来针对 Transformer 架构改进的创新工作层出不穷,却一直缺乏一篇全面深入的综述文章进行总结。

图 1:常见长序列场景

近期,上海 AI Lab联合港科广、澳门大学、中科院自动化所、苏州大学、瑞典 KTH、北大、港中文等多家机构,总结 440 余篇相关论文,深入探讨了当前LLM 高效结构的最新进展,形成这篇 82 页的综述论文:

  • 论文标题:Speed Always Wins: A Survey on Efficient Architectures for Large Language Models
  • 论文地址:
  • https://arxiv.org/pdf/2508.09834
  • 项目仓库:
  • https://github.com/weigao266/Awesome-Efficient-Arch

图 2:大语言模型高效架构概览

该综述将目前 LLM 高效架构总结分类为以下 7 类:

  • 线性序列建模:降低注意力训练和推理复杂度,无需 KV Cache 开销。
  • 稀疏序列建模:通过稀疏化注意力矩阵,降低计算与显存需求。
  • 高效全注意力:在保持完整注意力的前提下优化内存访问与 KV 存储。
  • 稀疏专家模型:通过条件激活部分专家,大幅提升模型容量而不增加等比例计算成本。
  • 混合模型架构:结合线性/稀疏序列建模与全注意力,兼顾效率与性能。
  • 扩散语言模型:利用非自回归的扩散模型进行语言生成。
  • 其他模态应用:将这些高效架构应用于视觉、语音、多模态模型。

这些方向的探索不仅关乎 LLM 的未来效率,也关乎如何在算力受限的条件下,持续推动 AI 走向更强的智能的关键选择。综述涉及的方法类别和代表性论文可见如下树状图:

图 3:综述完整组织架构

线性序列建模

线性序列建模是近年来研究相当火热的一个方向,代表性工作像Mamba、Lighting Attention、RWKV、GLA、TTT 等在模型架构方向都引起过广泛关注。我们将这类技术细分为以下几个类别:

  • 线性注意力
  • 线性 RNN
  • 状态空间模型
  • 测试时推理 RNN

并且正如在多篇文献里已经提出的,这些线性序列建模方法可以概括为统一建模的数学形式,并且能够通过线性化过程将预训练模型权重的 Softmax Attention 架构转为 Linear Sequence Modeling 架构,从而获得模型效率的大幅提升,如下图所示。

图 4:线性序列建模方法

我们将已有的线性序列建模方法从记忆视角和优化器视角分别进行梳理和对比,详细形式可见下表:

表 1:线性序列建模方法统一建模的 Memory 视角和 Optimizer 视角

其中线性化技术可以进一步细分为基于微调的线性化,和基于蒸馏的线性化,如下图所示:

图 5:线性化方法

综述还进一步总结归纳了目前在线性序列建模领域常见的硬件高效实现方法,可以归纳为 Blelloch Scan、Chunk-wise Parallel 和 Recurrent for Inferences,如下图所示:

图 6:线性序列建模方法的硬件高效实现

稀疏序列建模

稀疏序列建模是另一类有代表性的高效注意力机制,通过利用 Attention Map 天然具有的稀疏性加速注意力的计算,这类方法可以进一步细分为:

  • 静态稀疏注意力
  • 动态稀疏注意力
  • 免训练稀疏注意力

代表性的稀疏注意力方法如 Global Attention、Window Attention、Dilated Attention 等,及其工作原理如下图所示:

图 7:稀疏注意力的几种经典形式

高效全注意力

另一类高效注意力算法可以统一归纳为高效全注意力,这类方法可以根据算法思路进一步细分为如下几类:

  • IO-Aware Attention
  • Grouped Attention
  • Mixture of Attention
  • Quantized Attention

其中 IO-Aware Attention 指代目前使用非常广泛的Flash Attention系列工作,Grouped Attention 则包含广为使用的 GQA、MLA等全注意力变体,几种代表性方法如下图所示。

图 8:Grouped Attention 的几种代表性方法

稀疏混合专家

稀疏混合专家是对 Transformer 架构中另一个重要模块 FFN 做的一类重要改进,已经逐渐成为(语言和多模态)大模型架构的事实标准。综述中将相关文献按以下三个方向进行分类:

  • Routing Mechanisms
  • Expert Architectures
  • MoE Conversion

路由机制包括 Token-choice 和 Expert-choice 两类,其原理如下图所示:

图 9:MoE 路由机制

专家结构的创新工作包括:共享专家、细粒度专家、零专家、深度路由等,其作用和原理可见下图:

图 10:MoE 专家架构

另外一个重要的方向是 MoE 转换,已有的工作包括通过 Split、Copy、Merge 等手段对专家进行构造,如下图所示:

图 11:MoE 转化机制

混合架构

混合架构是近年来出现的一种实用的新型架构,可以在线性/稀疏注意力和全注意力之间取得微妙的 Trade-off,也在效率和效果间找到了最佳甜蜜点。具体可细分为:

  • 层间混合
  • 层内混合

图 12:混合架构形式

扩散大语言模型

扩散大语言模型是近期出现的一个热门方向,创新性地将扩散模型从视觉生成任务迁移至语言任务,从而在语言生成速度上取得大幅进步。相关工作可以细分为:

  • Non-Autoregressive Diffusion LLM
  • Bridging Diffusion LLM and Autoregressive
  • Extending Diffusion LLM to Multimodality

图 13:扩散大语言模型机制

应用至其他模态

最后一个重要的部分是高效架构在其他模态上的应用,涵盖视觉、音频和多模态。以 Mamba 为代表的线性模型被广泛应用至多种模态任务上,并取得了优秀的表现,综述将这类模型总结梳理至如下表格:

寄语

最后正如帝国时代 3 中这条神奇代码「Speed Always Wins」能让游戏世界「Increases build, research,shipment, and gather rates by 100 times for all players」一样,我们希望综述中的 Efficient Architectures 可以真被用来 100x 加速 AI 世界的构建,更快更便宜地训练出更强更实用的大模型。请记住这条神奇代码:「Speed Always Wins」

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
惊险2-1!第79分钟绝杀,王钰栋绝境爆发,浙江队终结5场不胜

惊险2-1!第79分钟绝杀,王钰栋绝境爆发,浙江队终结5场不胜

足球狗说
2026-05-02 21:35:06
新加坡惊现“纸片摩天楼”!37层、150米高,薄得像一把刀,竟是贝聿铭神作

新加坡惊现“纸片摩天楼”!37层、150米高,薄得像一把刀,竟是贝聿铭神作

最黑科技
2026-03-22 23:14:02
5月16日至7月31日!吉林省全面禁止!

5月16日至7月31日!吉林省全面禁止!

牛锅巴小钒
2026-05-03 00:33:17
与靳东分手后遵从父命嫁人,46 岁的她被丈夫宠成公主,十分幸福

与靳东分手后遵从父命嫁人,46 岁的她被丈夫宠成公主,十分幸福

小椰的奶奶
2026-05-03 04:14:39
每吃一次,大脑萎缩就快一步?医生:这3物是老年痴呆“催化剂”

每吃一次,大脑萎缩就快一步?医生:这3物是老年痴呆“催化剂”

岐黄传人孙大夫
2026-05-01 13:35:03
突破大陆封锁,赖清德窜访得逞?赖清德突发宣布:已抵达史瓦帝尼

突破大陆封锁,赖清德窜访得逞?赖清德突发宣布:已抵达史瓦帝尼

爱史纪
2026-05-02 20:51:56
97:94!联盟唯一下克上2:0诞生,山西横扫青岛,卫冕冠军压力大

97:94!联盟唯一下克上2:0诞生,山西横扫青岛,卫冕冠军压力大

隐于山海
2026-05-03 00:00:32
著名专家预言:试管婴儿寿命仅40年,那首例试管婴儿如今怎样了?

著名专家预言:试管婴儿寿命仅40年,那首例试管婴儿如今怎样了?

青梅侃史啊
2026-03-28 19:22:24
交警再次提醒!电子眼锁定7种违规行为,司机看完再也不被罚

交警再次提醒!电子眼锁定7种违规行为,司机看完再也不被罚

老特有话说
2026-04-30 13:24:18
天文学家从一颗小行星身上,挖出了2031年的火星捷径

天文学家从一颗小行星身上,挖出了2031年的火星捷径

爬虫饲养员
2026-04-30 21:05:47
俄罗斯副部长被查前成功出逃美国,跨三国离境

俄罗斯副部长被查前成功出逃美国,跨三国离境

桂系007
2026-05-01 23:48:19
网恋遇“优质工程男”,女子转账十三万支持对方创业,谁料男子却突然翻脸:没确认关系,转账子虚乌有

网恋遇“优质工程男”,女子转账十三万支持对方创业,谁料男子却突然翻脸:没确认关系,转账子虚乌有

大风新闻
2026-05-02 08:49:08
林彪失事后,远在台湾的蒋介石竟大哭不止,直言:雨农误我!

林彪失事后,远在台湾的蒋介石竟大哭不止,直言:雨农误我!

研史
2026-05-03 01:46:57
罗翔:如果一个人突然努力工作,业余时间开始学习,不再参加社交活动,那么,身边的人可能不仅不会帮他,还会拉他下来,原因就一个!

罗翔:如果一个人突然努力工作,业余时间开始学习,不再参加社交活动,那么,身边的人可能不仅不会帮他,还会拉他下来,原因就一个!

谭老师地理大课堂
2026-04-22 00:03:57
女教师“幼态字体”走红,被家长建议停职:还不如我女儿写得好

女教师“幼态字体”走红,被家长建议停职:还不如我女儿写得好

观察鉴娱
2026-04-30 10:52:07
回顾辽宁一厂长邀15名歌厅舞女做客,喝完酒后,将15人冲进下水道

回顾辽宁一厂长邀15名歌厅舞女做客,喝完酒后,将15人冲进下水道

谈史论天地
2026-04-27 15:00:03
地球已经装不下追觅这么牛的公司了

地球已经装不下追觅这么牛的公司了

老斯基财经
2026-04-30 11:05:19
“内鬼”露馅!国民党遭灭顶之灾,2大势力联手、布局围剿郑丽文

“内鬼”露馅!国民党遭灭顶之灾,2大势力联手、布局围剿郑丽文

杰丝聊古今
2026-05-02 05:31:58
山西3分险胜青岛!贾明儒16分,张宁关键中投,他才是最大功臣

山西3分险胜青岛!贾明儒16分,张宁关键中投,他才是最大功臣

杨仔述
2026-05-02 22:26:18
西方害怕中国治沙?《自然》新评揭开真相:他们怕的并非沙漠消失

西方害怕中国治沙?《自然》新评揭开真相:他们怕的并非沙漠消失

生活的哲学
2026-04-29 06:41:35
2026-05-03 04:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12902文章数 142639关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

父母互相拍照 6岁儿子失足坠落20米山崖

头条要闻

父母互相拍照 6岁儿子失足坠落20米山崖

体育要闻

休赛期总冠军,轮到休斯顿火箭

娱乐要闻

高圆圆赵又廷游三亚 牵手逛街好甜蜜

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

家居
教育
旅游
时尚
公开课

家居要闻

灵动实用 生活艺术场

教育要闻

高考地理:45个地理名词及概念

旅游要闻

江海边的新玩法:NPC巡游、二次元市集、萌宠派对,快来邮轮文化旅游季嗨玩

连衣裙还得是“法式”,性感妩媚却不轻浮

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版