网易首页 > 网易号 > 正文 申请入驻

唯快不破:上海AI Lab 82页综述带你感受LLM高效架构的魅力

0
分享至



作者:孙伟高上海人工智能实验室

近年来,大语言模型(LLMs)展现出强大的语言理解与生成能力,推动了文本生成、代码生成、问答、翻译等任务的突破。代表性模型如 GPT、Claude、Gemini、DeepSeek、Qwen 等,已经深刻改变了人机交互方式。LLMs 的边界也不止于语言和简单问答。随着多模态(VLMs)与推理能力(LRMs)的兴起,LLMs 正不断扩展到多模态理解、生成与复杂推理场景。

但模型性能持续提升的背后,是模型尺寸、数据规模、RL 推理长度的快速 Scaling,是算力和存储资源的急剧消耗。大模型的训练与推理的成本居高不下,成为制约其广泛落地和应用的现实瓶颈。

本文从 LLM 架构角度出发,带你剖析大模型的效率秘诀。这一切的核心在于 Transformer 架构。Transformer 的自注意力机制虽带来了远距离建模的突破,却因O(N2)的复杂度在长序列任务中成本高昂。而在 RAG、智能体、长链推理、多模态等新兴场景下,长序列需求愈发突出,进一步放大了效率与性能之间的矛盾。同时 Transformer 的 FFN 部分采用密集的 MLP 层,同样面临模型规模放大后的训练和推理效率问题。

近年来针对 Transformer 架构改进的创新工作层出不穷,却一直缺乏一篇全面深入的综述文章进行总结。



图 1:常见长序列场景

近期,上海 AI Lab联合港科广、澳门大学、中科院自动化所、苏州大学、瑞典 KTH、北大、港中文等多家机构,总结 440 余篇相关论文,深入探讨了当前LLM 高效结构的最新进展,形成这篇 82 页的综述论文:



  • 论文标题:Speed Always Wins: A Survey on Efficient Architectures for Large Language Models
  • 论文地址:
  • https://arxiv.org/pdf/2508.09834
  • 项目仓库:
  • https://github.com/weigao266/Awesome-Efficient-Arch



图 2:大语言模型高效架构概览

该综述将目前 LLM 高效架构总结分类为以下 7 类:

  • 线性序列建模:降低注意力训练和推理复杂度,无需 KV Cache 开销。
  • 稀疏序列建模:通过稀疏化注意力矩阵,降低计算与显存需求。
  • 高效全注意力:在保持完整注意力的前提下优化内存访问与 KV 存储。
  • 稀疏专家模型:通过条件激活部分专家,大幅提升模型容量而不增加等比例计算成本。
  • 混合模型架构:结合线性/稀疏序列建模与全注意力,兼顾效率与性能。
  • 扩散语言模型:利用非自回归的扩散模型进行语言生成。
  • 其他模态应用:将这些高效架构应用于视觉、语音、多模态模型。

这些方向的探索不仅关乎 LLM 的未来效率,也关乎如何在算力受限的条件下,持续推动 AI 走向更强的智能的关键选择。综述涉及的方法类别和代表性论文可见如下树状图:



图 3:综述完整组织架构

线性序列建模

线性序列建模是近年来研究相当火热的一个方向,代表性工作像Mamba、Lighting Attention、RWKV、GLA、TTT 等在模型架构方向都引起过广泛关注。我们将这类技术细分为以下几个类别:

  • 线性注意力
  • 线性 RNN
  • 状态空间模型
  • 测试时推理 RNN

并且正如在多篇文献里已经提出的,这些线性序列建模方法可以概括为统一建模的数学形式,并且能够通过线性化过程将预训练模型权重的 Softmax Attention 架构转为 Linear Sequence Modeling 架构,从而获得模型效率的大幅提升,如下图所示。



图 4:线性序列建模方法

我们将已有的线性序列建模方法从记忆视角和优化器视角分别进行梳理和对比,详细形式可见下表:



表 1:线性序列建模方法统一建模的 Memory 视角和 Optimizer 视角

其中线性化技术可以进一步细分为基于微调的线性化,和基于蒸馏的线性化,如下图所示:



图 5:线性化方法

综述还进一步总结归纳了目前在线性序列建模领域常见的硬件高效实现方法,可以归纳为 Blelloch Scan、Chunk-wise Parallel 和 Recurrent for Inferences,如下图所示:



图 6:线性序列建模方法的硬件高效实现

稀疏序列建模

稀疏序列建模是另一类有代表性的高效注意力机制,通过利用 Attention Map 天然具有的稀疏性加速注意力的计算,这类方法可以进一步细分为:

  • 静态稀疏注意力
  • 动态稀疏注意力
  • 免训练稀疏注意力

代表性的稀疏注意力方法如 Global Attention、Window Attention、Dilated Attention 等,及其工作原理如下图所示:



图 7:稀疏注意力的几种经典形式

高效全注意力

另一类高效注意力算法可以统一归纳为高效全注意力,这类方法可以根据算法思路进一步细分为如下几类:

  • IO-Aware Attention
  • Grouped Attention
  • Mixture of Attention
  • Quantized Attention

其中 IO-Aware Attention 指代目前使用非常广泛的Flash Attention系列工作,Grouped Attention 则包含广为使用的 GQA、MLA等全注意力变体,几种代表性方法如下图所示。



图 8:Grouped Attention 的几种代表性方法

稀疏混合专家

稀疏混合专家是对 Transformer 架构中另一个重要模块 FFN 做的一类重要改进,已经逐渐成为(语言和多模态)大模型架构的事实标准。综述中将相关文献按以下三个方向进行分类:

  • Routing Mechanisms
  • Expert Architectures
  • MoE Conversion

路由机制包括 Token-choice 和 Expert-choice 两类,其原理如下图所示:



图 9:MoE 路由机制

专家结构的创新工作包括:共享专家、细粒度专家、零专家、深度路由等,其作用和原理可见下图:



图 10:MoE 专家架构

另外一个重要的方向是 MoE 转换,已有的工作包括通过 Split、Copy、Merge 等手段对专家进行构造,如下图所示:



图 11:MoE 转化机制

混合架构

混合架构是近年来出现的一种实用的新型架构,可以在线性/稀疏注意力和全注意力之间取得微妙的 Trade-off,也在效率和效果间找到了最佳甜蜜点。具体可细分为:

  • 层间混合
  • 层内混合



图 12:混合架构形式

扩散大语言模型

扩散大语言模型是近期出现的一个热门方向,创新性地将扩散模型从视觉生成任务迁移至语言任务,从而在语言生成速度上取得大幅进步。相关工作可以细分为:

  • Non-Autoregressive Diffusion LLM
  • Bridging Diffusion LLM and Autoregressive
  • Extending Diffusion LLM to Multimodality



图 13:扩散大语言模型机制

应用至其他模态

最后一个重要的部分是高效架构在其他模态上的应用,涵盖视觉、音频和多模态。以 Mamba 为代表的线性模型被广泛应用至多种模态任务上,并取得了优秀的表现,综述将这类模型总结梳理至如下表格:



寄语

最后正如帝国时代 3 中这条神奇代码「Speed Always Wins」能让游戏世界「Increases build, research,shipment, and gather rates by 100 times for all players」一样,我们希望综述中的 Efficient Architectures 可以真被用来 100x 加速 AI 世界的构建,更快更便宜地训练出更强更实用的大模型。请记住这条神奇代码:「Speed Always Wins」

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
男篮全运又一大冷门!争冠大热惨遭东道主掀翻:广东逆袭杀进决赛

男篮全运又一大冷门!争冠大热惨遭东道主掀翻:广东逆袭杀进决赛

篮球快餐车
2025-11-18 08:12:52
广东女篮金牌奖金曝光,比男篮少太多,郑薇亲手将李梦踢出国家队

广东女篮金牌奖金曝光,比男篮少太多,郑薇亲手将李梦踢出国家队

宗介说体育
2025-11-17 13:20:04
韩媒讨论廖元赫首冠,申真谞无人能及,中国盛宴赞叹不已。

韩媒讨论廖元赫首冠,申真谞无人能及,中国盛宴赞叹不已。

李帕在北漂
2025-11-18 08:16:59
著名表演艺术家在表演时突然倒地,被送医后经全力抢救无效去世

著名表演艺术家在表演时突然倒地,被送医后经全力抢救无效去世

极目新闻
2025-11-16 16:38:13
尺度惊艳,Netflix制作的3部成人动漫,太过瘾了

尺度惊艳,Netflix制作的3部成人动漫,太过瘾了

来看美剧
2025-10-12 21:22:41
人间地狱,溯源苏丹内战的地理裂痕

人间地狱,溯源苏丹内战的地理裂痕

地缘与冲突
2025-11-17 13:07:40
菲律宾持续爆发超大规模游行

菲律宾持续爆发超大规模游行

参考消息
2025-11-17 20:43:29
撕破脸!巴黎向姆巴佩索赔4.4亿欧,隐瞒关键决定,持续攻击球队

撕破脸!巴黎向姆巴佩索赔4.4亿欧,隐瞒关键决定,持续攻击球队

小金体坛大视野
2025-11-18 11:33:18
要警惕房价新一轮下跌,当前提房产税极其不负责任

要警惕房价新一轮下跌,当前提房产税极其不负责任

道哥道金融
2025-11-17 17:44:03
41岁张翰看“婚房”!徐汇350大平层7500万,售楼小姐姐蹲地服务

41岁张翰看“婚房”!徐汇350大平层7500万,售楼小姐姐蹲地服务

翰林涛涛
2025-11-16 17:03:32
谁说屁股大就不能穿瑜伽裤?黄色T恤搭薄荷绿瑜伽裤,成熟有活力

谁说屁股大就不能穿瑜伽裤?黄色T恤搭薄荷绿瑜伽裤,成熟有活力

小乔古装汉服
2025-11-12 11:46:01
中美俄每月养老金对比:美国一个月1.3万,俄罗斯1692元,中国呢

中美俄每月养老金对比:美国一个月1.3万,俄罗斯1692元,中国呢

阿伧说事
2025-11-11 10:40:35
大拉胯了!美国E-7垮台引发西方预警机雪崩,空警-500已经无敌?

大拉胯了!美国E-7垮台引发西方预警机雪崩,空警-500已经无敌?

军机Talk
2025-11-17 10:13:09
正式确定!国安续约2大主力,太子再获2年合同,现役国脚终老球队

正式确定!国安续约2大主力,太子再获2年合同,现役国脚终老球队

体坛鉴春秋
2025-11-18 11:34:14
日本走向不归路?中国要直接敲打

日本走向不归路?中国要直接敲打

杨风
2025-11-17 22:18:15
他曾是红军连指导员,后成为国军中将,1950年被公审枪决

他曾是红军连指导员,后成为国军中将,1950年被公审枪决

冰雅忆史
2025-11-18 09:51:19
如果不用核武器,中国多长时间能打败日本?张召忠的回答振奋人心

如果不用核武器,中国多长时间能打败日本?张召忠的回答振奋人心

老范谈史
2025-10-06 23:44:51
李春来同志突发疾病逝世

李春来同志突发疾病逝世

新京报
2025-11-16 19:20:24
迪拜富人来中国旅游,回国一天后坦言:阿联酋跟中国差距天差地别

迪拜富人来中国旅游,回国一天后坦言:阿联酋跟中国差距天差地别

户外钓鱼哥阿勇
2025-11-11 06:16:51
一个人的行李里装了13400支!大连海关:数量不对!

一个人的行李里装了13400支!大连海关:数量不对!

环球网资讯
2025-11-18 09:29:22
2025-11-18 12:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11740文章数 142506关注度
往期回顾 全部

科技要闻

马斯克破防了!贝索斯62亿美金入局"实体AI"

头条要闻

超市被员工偷到倒闭 收银员给1700元商品结账仅1元

头条要闻

超市被员工偷到倒闭 收银员给1700元商品结账仅1元

体育要闻

直到退役那天,“海湾梅西”也没去欧洲踢球

娱乐要闻

曝喻恩泰离婚2年前转移走300箱茅台?

财经要闻

青云租陷兑付危机 集资与放贷的双面生意

汽车要闻

更加豪华 更加全地形 极石ADAMAS

态度原创

本地
亲子
家居
旅游
公开课

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

亲子要闻

带孩子们去游乐场,俩闺女高兴坏了,以后有机会一定多陪陪她们!

家居要闻

彰显奢华 意式经典风格

旅游要闻

4条线路、5大亮点……快来一场说走就走的“红叶之旅”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版