网易首页 > 网易号 > 正文 申请入驻

叶子豪、陈天奇等人项目FlashInfer入选,MLSys2025最佳论文奖

0
分享至

机器之心报道

编辑:泽南、+0

今年的两篇最佳论文一作均为华人。

近日,国际系统领域顶会 MLSys 2025 公布了最佳论文奖。

今年的大奖颁发给了来自华盛顿大学、英伟达、Perplexity AI、卡耐基梅隆大学的 FlashInfer,以及瑞典查尔摩斯理工大学的《The Hidden Bloat in Machine Learning Systems》。

对此,英伟达第一时间发出祝贺,并表示「FlashInfer」的「LLM 推理内核能力」已经被集成到 vLLM 项目、SGLang 以及自定义推理引擎中。

FlashInfer

FlashInfer 最初是华盛顿大学 Paul G. Allen 计算机科学院、卡耐基梅隆大学及陈天奇的创业公司 OctoAI 共同发起的合作研究项目,旨在创建一个灵活的大语言模型(LLM)推理内核库,提供 LLM GPU 内核的高性能实现,如 FlashAttention、SparseAttention、PageAttention、Sampling 等。

英伟达表示,首个适用于 DeepSeek MLA 的 Blackwell 内核也出自 FlashInfer。

FlashInfer 独立于引擎,高度优化,并且易于扩展以支持新技术,例如键值缓存复用算法。现在,它已成为一个蓬勃发展的开源项目,可生产部署,并得到了来自整个 AI 系统社区研发团队的贡献。

  • 论文:FlashInfer: Efficient and Customizable Attention Engine for LLM Inference Serving
  • 论文链接:https://arxiv.org/abs/2501.01005
  • 项目主页:https://flashinfer.ai/
  • GitHub 仓库:https://github.com/flashinfer-ai/flashinfer

Transformer 结构以注意力机制(Attention Mechanism)为核心,是大型语言模型(Large Language Models,LLMs)的基础。随着模型规模的不断扩大,高效的 GPU 注意力计算模块(attention kernel)对于实现高吞吐和低延迟(即更快、更高效)的推理至关重要。面对多样化的 LLM 应用场景,亟需灵活且高性能的注意力解决方案。

研究团队提出了「FlashInfer」:一款可定制且高效的注意力推理引擎,专为 LLM 部署优化设计。其主要特点如下:

  • 优化内存访问并减少冗余:FlashInfer 通过采用块稀疏格式(block-sparse format)与可组合格式(composable formats)解决键值缓存(KV-cache)存储的异构性问题。
  • 可定制的注意力计算模板:支持基于即时编译(Just-In-Time,JIT)的灵活配置,以应对不同应用需求。
  • 高效的任务调度机制:FlashInfer 引入了基于负载均衡的调度算法,既能适应用户请求的动态变化,又与要求静态配置的 CUDAGraph 保持兼容性。

经过内核级(kernel-level)及端到端(end-to-end)的完整评估,FlashInfer 在多种推理场景下显著提升了计算性能:与当前最先进的 LLM 部署方案相比,FlashInfer 在 token 间延迟方面提高显著,相较通用编译器后端,能减少 29% 至 69% 的 inter-token 延迟;在长上下文推理任务中延迟降低 28% 至 30%;在并行生成场景下,推理速度提升达 13% 至 17%。

系统设计

FlashInfer 系统设计概览:在编译时提供注意变量规范、任务信息和键值缓存布局细节,用于 JIT 编译;在运行时输入序列长度信息,用于动态调度。

1、优化的 KV-Cache 存储结构

近年来,为提升内存效率,KV-Cache 存储机制(如 PageAttention、RadixAttention)开始采用非连续内存布局,以块或 token 为最小存储单元。

FlashInfer 证明,这些不同的非连续 KV-Cache 数据结构都可以统一抽象建模为块稀疏矩阵格式如图 2 所示)。

在此基础上,FlashInfer 进一步引入组合式稀疏格式(Composable Sparse Formats)来提升内存效率。与单一固定块大小的格式不同,组合式格式允许在同一稀疏矩阵中灵活采用多种块稀疏形式,从而显著提高内存利用率。

单一块格式的局限在于其固定大小(特别是行块大小 Br)导致的碎片化风险和共享内存互访限制。组合式格式则可以根据数据特征(如共享前缀形成逻辑上的稠密子矩阵)选用合适的块形式(例如为稠密子矩阵选用较大的 Br)。

如图 3 所示,这种方式无需数据移动,仅通过索引即可实现基于共享内存的高速访问,进一步优化内存效率。

FlashInfer 的 KV-Cache 具体实现采用块稀疏行格式(Block-Sparse Row, BSR),其块大小 (Br,Bc) 可根据应用动态配置,内核支持对任意配置的高效处理。

2、计算抽象

在计算抽象层面,FlashInfer 基于 CUDA/CUTLASS 模板实现了对 FlashAttention 算法的高效支持。该实现兼容 NVIDIA Turing 到 Hopper 全系架构(即 sm75 至 sm90a),能够原生处理稠密和块稀疏的矩阵运算,与上层统一的 KV-Cache 存储格式紧密结合。

具体实现上,FlashInfer 针对 Ada(sm89)及以下的架构采用了 FlashAttention2(FA2)算法,而对于最新的 Hopper 架构则使用了优化后的 FlashAttention3(FA3)算法,以充分利用各代硬件特性。

3、计算内核优化与硬件适配

为了最大化 GPU 计算单元(如 Tensor Core)的效率,高效的数据加载是关键。FlashInfer 设计了专门机制,将 KV 缓存数据从全局内存快速载入共享内存,尤其针对其支持的块稀疏及非连续格式。加载时,根据块是稀疏或稠密采用不同地址计算(利用 BSR 索引 vs 仿射变换)。

KV 缓存最后一个维度(即注意力头维度 d)保持连续,这使得高效的合并访问(coalesced access)成为可能,显著提升访存效率。数据传输利用 GPU 的异步复制及硬件加速器(如 Hopper TMA,如图 4 所示,需注意其适用性),并自动回退通用路径。

加载到共享内存后,FlashInfer 基于 FlashAttention 算法的计算内核进一步优化。为适应大语言模型运行时多变的计算强度和不同 GPU 架构资源(如 Ada 共享内存限制),内核支持多种不同的 tile 尺寸组合。

这解决了传统固定尺寸在短序列解码等场景效率不高的问题(例如在 A100 上预填充表现最佳的 (128,64))。

FlashInfer 提供一系列 tile 范围,并结合启发式策略自适应选择最优尺寸:例如,基于平均查询长度选择行块大小 Br,或通过资源消耗模型最大化 SM 利用率。这种方法确保 FlashInfer 在不同负载和硬件平台均能高性能运行。

4、注意力变体灵活性、用户接口与动态调度

当前大语言模型使用了大量注意力变体,为每个变体定制高性能 CUDA 内核难以持续。借鉴 Flex Attention,FlashInfer 构建了可自定义的 CUDA 模板和 JIT 编译器

用户只需通过定义一系列函数子模块(functor)来指定变体逻辑(如 Query/Key/Value/Output/Logits 的变换与掩码),JIT 编译器即可生成优化的变体专用内核

这种设计使得 FlashInfer 能灵活支持自定义掩码、滑动窗口、非 Softmax 变体(如 FlashSigmoid,如图 5 所示其映射方式)以及将 RoPE、归一化、投影等前处理操作融合进 Attention 内核,实现高效计算。用户甚至可以直接传入 CUDA 代码。

生成的 CUDA 代码由 JIT 编译器(如 PyTorch 的 JIT)编译为自定义算子,并通过 DLPack 等接口支持框架无关部署

FlashInfer 提供面向用户的 API,通过初始化 wrapper、传入变体描述和任务信息来完成内核的 JIT 编译和缓存。对于组合格式,会创建对应 wrapper。根据 KV 缓存配置(如平均查询长度),FlashInfer 在后台将不同内核编译并捕获到CUDAGraphs中。运行时,服务框架动态选择最合适的 CUDAGraph 执行。

FlashInfer 采用Plan/Run 模式处理不规则负载:

  • Plan 函数在 CPU 上运行,处理序列长度等数据,生成负载均衡的调度方案(可缓存复用);
  • Run 函数在 GPU 上执行,接受输入和调度方案数据,执行注意力计算(可被 CUDAGraph 捕获)。这种 Plan/Run 分离设计借鉴了不规则并行计算中的 Inspector-Executor (IE) 模式。

作者介绍

FlashInfer 的第一作者叶子豪(Zihao Ye)是华盛顿大学(University of Washington)的博士生,导师为 Luis Ceze。

叶子豪与陈天奇在机器学习编译器方面有密切合作,也曾在英伟达实习,合作者为 Vinod Grover,他还曾获得 2024-2025 年度英伟达研究生奖学金。

加入华盛顿大学之前,叶子豪在 AWS 工作了两年,期间跟随王敏捷、张峥研究机器学习系统。他的本科毕业于上海交通大学 ACM 班。

叶子豪目前的主要研究方向是机器学习编译器和稀疏计算。

The Hidden Bloat in Machine Learning Systems

共同获得今年最佳论文奖项的还有来自瑞典查尔摩斯理工大学的一篇论文。

  • 论文:The Hidden Bloat in Machine Learning Systems
  • 链接:https://arxiv.org/abs/2503.14226

软件臃肿(software bloat)是指软件在运行时未使用的代码和功能。对于机器学习系统而言,臃肿是其技术债务的主要原因,会导致性能下降和资源浪费。

在该工作中,作者提出了 Negativa-ML,可通过分析 ML 框架的共享库来识别和消除其中的臃肿。作者提出的方法包括一些新技术,用于检测和定位设备代码中不必要的代码——这是现有研究(主要关注主机代码)所忽略的关键领域。

作者使用四种流行的 ML 框架,在 300 个共享库的十个工作负载中对 Negativa-ML 进行了评估。结果表明,ML 框架在设备和主机代码端都存在严重的臃肿问题。

平均而言,Negativa-ML 可将这些框架中的设备代码大小减少高达 75%,主机代码大小减少高达 72%,最终文件总大小减少高达 55%。

设备代码是 ML 框架中臃肿的主要来源。通过减少膨胀,新方法分别可将峰值主机内存使用量、峰值 GPU 内存使用量和执行时间减少了多达 74.6%、69.6% 和 44.6%。

Negativa-ML 概览,该研究中提出的组件以黄色矩形突出显示。

作者介绍

本文一作 Huaifeng Zhang 是查尔姆斯理工大学的博士生,主要研究方向是 MLsys、云计算、分布式系统和区块链。

https://mlsys.org/virtual/2025/awards_detail

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
库克回应OpenClaw带动Mac Mini大卖

库克回应OpenClaw带动Mac Mini大卖

界面新闻
2026-03-21 13:02:22
男子蹭饭260顿后续!坚持硬刚比亚迪,更多恶心事曝光,家人遭殃

男子蹭饭260顿后续!坚持硬刚比亚迪,更多恶心事曝光,家人遭殃

青橘罐头
2026-03-21 07:25:22
伊朗军方消息人士:若美国“侵略”哈尔克岛将面临“前所未有的反击”

伊朗军方消息人士:若美国“侵略”哈尔克岛将面临“前所未有的反击”

财联社
2026-03-22 00:09:14
成本17亿,北美首日2.2亿,中国票房3800万,观众给好莱坞上一课

成本17亿,北美首日2.2亿,中国票房3800万,观众给好莱坞上一课

好贤观史记
2026-03-22 15:39:46
沈腾颁奖礼酸言酸语刷屏,网友:他去年没上片子,不然这奖就是他的了

沈腾颁奖礼酸言酸语刷屏,网友:他去年没上片子,不然这奖就是他的了

阿废冷眼观察所
2026-03-22 08:26:52
高市早苗访美结束,她在晚宴上对着金雕雕塑,呼应了流金谷恩仇录

高市早苗访美结束,她在晚宴上对着金雕雕塑,呼应了流金谷恩仇录

瓦伦西亚月亮
2026-03-22 13:51:03
中国又一城市被“占领”,37万外国人赖着不走,目的却不是旅游?

中国又一城市被“占领”,37万外国人赖着不走,目的却不是旅游?

毒sir财经
2026-02-23 17:54:22
4S店蹭饭260次后续:男子已社死,被同学认出,博主调解反被追责

4S店蹭饭260次后续:男子已社死,被同学认出,博主调解反被追责

离离言几许
2026-03-20 17:20:41
“多数立陶宛人都后悔了”

“多数立陶宛人都后悔了”

观察者网
2026-03-21 20:50:48
结束访美,高市笑容不再,回国前喊话中方:愿意和中国展开对话

结束访美,高市笑容不再,回国前喊话中方:愿意和中国展开对话

阿天爱旅行
2026-03-22 00:34:34
美国汽油即将突破每加仑4美元!分析师警告:即便停战油价也回不去了…

美国汽油即将突破每加仑4美元!分析师警告:即便停战油价也回不去了…

财联社
2026-03-20 13:17:13
40万换3台电车后,我终于懂了特斯拉和国产的区别

40万换3台电车后,我终于懂了特斯拉和国产的区别

小怪吃美食
2026-03-21 03:27:34
广东一私立老师晒年收入:276841元,网友:扣的税比我工资都高!

广东一私立老师晒年收入:276841元,网友:扣的税比我工资都高!

川渝视觉
2026-03-21 22:25:01
看了姚晨的旧照,才明白凌潇肃曹郁为啥相继沦陷了,嘴大不是缺陷

看了姚晨的旧照,才明白凌潇肃曹郁为啥相继沦陷了,嘴大不是缺陷

八斗小先生
2026-03-20 15:24:18
苹果官网紧急更新,建议升级!

苹果官网紧急更新,建议升级!

花果科技
2026-03-20 11:23:22
伊朗外长发布历史雕像照片: 古罗马帝国皇帝跪在古波斯帝国皇帝面前

伊朗外长发布历史雕像照片: 古罗马帝国皇帝跪在古波斯帝国皇帝面前

观察者网
2026-03-22 15:32:12
“梅姨”落网,律师:很可能被判死刑!多名受害者发声:等这一天等了十多年

“梅姨”落网,律师:很可能被判死刑!多名受害者发声:等这一天等了十多年

上观新闻
2026-03-21 15:16:04
他去世了,年仅33岁,留下两个孩子!这种病早期多无征兆,有一个重要风险因素……

他去世了,年仅33岁,留下两个孩子!这种病早期多无征兆,有一个重要风险因素……

环球网资讯
2026-03-20 16:23:29
骆家辉警告中国,最好不要自主生产尖端芯片,这不是美国想看到的

骆家辉警告中国,最好不要自主生产尖端芯片,这不是美国想看到的

离离言几许
2026-03-21 20:10:48
近期贾玲去参加了自己恩师冯巩的生日聚会,你们看看还有谁缺席了

近期贾玲去参加了自己恩师冯巩的生日聚会,你们看看还有谁缺席了

草莓解说体育
2026-03-22 05:58:56
2026-03-22 17:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12555文章数 142590关注度
往期回顾 全部

科技要闻

嫌台积电太慢 马斯克要把芯片产能飙升50倍

头条要闻

达利欧:霍尔木兹"决战"或对美霸权造成无法弥补的损害

头条要闻

达利欧:霍尔木兹"决战"或对美霸权造成无法弥补的损害

体育要闻

郑钦文连续迎战大满贯冠军 “双教练”团队正式亮相

娱乐要闻

今晚首播!央视年代剧《冬去春来》来了

财经要闻

睡梦中欠债1.2万?这只“虾”杀疯了

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

手机
本地
亲子
公开课
军事航空

手机要闻

一加15T搭载ColorOS 16,支持5年4个大版本系统更新维护

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

亲子要闻

钟丽缇拼试管,太拼了!2020年她就公开暂停过人工受孕

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊导弹击中以核设施附近 爆炸视频公布

无障碍浏览 进入关怀版