网易首页 > 网易号 > 正文 申请入驻

北大阿里联手破局算力浪费难题,让单个GPU最多支持7个模型

0
分享至

每个 GPU 最多可以支持 7 个模型、10 个模型所需 GPU 数量从 1192 个减至 213 个、最终节约高达 82% 的 GPU 资源——这便是由北京大学团队和阿里巴巴团队提出的名为 Aegaeon 的多模型服务系统实现的效果。相关论文发表于由美国计算机协会主办的国际顶会 2025 年操作系统原理研讨会(SOSP,Symposium on Operating Systems Principles)上,阿里云 CTO 周靖人也是相关论文的作者之一。

Aegaeon 能在 token 粒度上执行模型自动扩缩容,从而能够实现有效的 GPU 池化(一种通过虚拟化技术将物理 GPU 资源动态分配给多个模型使用的管理方法)。它以每个 token 为基础来调度多模型请求,并能做出自动扩缩容决策,从而可以实现服务质量的最大化。它通过组件重用、显式内存管理和细粒度键值(KV,Key-Value)缓存同步,将自动扩缩容开销降低了 97%。

实验表明,与现有解决方案相比,Aegaeon 能维持高出 2 倍–2.5 的请求到达率,并能实现高出 1.5 倍–9 倍的有效吞吐量。目前,Aegaeon 已经在阿里云 Model Studio 进行 Beta 版部署并已服务于 10 个模型。

下图是 Aegaeon 的架构图,展示了它服务于多个模型的过程。具体来说,Aegaeon 先是通过代理层分发这些模型,代理层通过共享内存机制与底层服务实例同步请求元数据,以便确保负载均衡和容错。Aegaeon 可以将不同模型的请求分发到同一个实例,一旦请求被发送到某个实例,Aegaeon 会在 token 级调度器的指导之下调度它们的执行。

解决 token 级调度难题,实现自动扩缩容成本优化

除了实现上述能力之外,Aegaeon 还解决了以下两个技术问题:

一方面,Aegaeon 解决了 token 级调度的挑战。

在 token 级别执行自动扩缩容的时候,需要一定的调度策略来处理 token 级执行时间和自动扩缩容延迟之间复杂的相互作用,同时还要满足服务等级目标(SLO,Service-Level Objective)要求,因此很难实现这一问题的最优解,与此同时此前人们使用的启发式方法很难实现多方面的平衡。

为此,本次研究人员提出了一个 token 级调度器,从而能够以联合的方式调度请求处理和自动扩缩容决策。鉴于首个 token 和后续 token 的执行时间和 SLO 的差异比较大,因此研究人员采用了预填充与解码阶段解耦的架构,并对二者进行独立的调度和服务。针对预填充阶段,他们打造了一个分组先到先服务调度器,以便将每个请求的首个 token 时间实现最小化。

另一方面,Aegaeon 实现了自动扩缩容成本优化。

尽管自动扩缩容已经得到广泛研究,但是在本次研究人员的调查中他们发现,此前已有的解决方案都无法支持 token 级的自动扩缩容,因为这涉及到 KV 缓存换出、显存碎片整理、引擎重新初始化、KV 缓存换入等一系列超出既有考虑的关键过程。如果不对此进行优化,这一序列可能要耗时数十秒左右,从而让 token 级方案变得不切实际。

而 Aegaeon 通过一系列深度优化实现了高效的 token 级自动扩缩容。

具体来说:

其一,研究人员针对推理引擎的初始化步骤进行了全面研究,借此识别并利用了引擎重新初始化中组件重用的机会;

其二,研究人员针对 GPU 和主机内存进行了显式内存管理,借此消除了碎片和显存碎片整理开销;

其三,研究人员实现了一种用于传输 KV 缓存的细粒度同步机制,实现了更好的执行重叠和解耦。

实现内存零碎片,奠定 GPU 池化基石

达成内存零碎片,是 Aegaeon 实现 GPU 池化的基础。这得益于它的以下特质:

其一,Aegaeon 拥有自管理的显存缓冲区。

为了减少显存碎片,研究人员在 GPU 上为模型权重和 KV 缓存完全使用资管理的分配。启动的时候,Aegaeon 在一次分配中请求所有权重和 KV 缓存所需的显存作为一个自管理缓冲区,留下大约 10% 的空闲内存供张量库管理使用。

这一缓冲区使用指针递增的分配方式运行,即通过递增指针进行连续分配,并且可以通过简单地重置这一指针立即完成释放。

在每次的模型扩容期间,Aegaeon 使用自定义包装器类针对相关的 Python 类进行猴子补丁 Monkey Patch,这些包装器类由自管理缓冲区进行分配和支持,这样一来让 Aegaeon 能够绕过张量库的分配机制,省去了调用显存碎片整理的需要。

其二,Aegaeon 能够实现快速的模型加载。

它能通过将模型检查点中的原始张量块缓存在一个名为“模型缓存”的共享主机内存区域来实现更快的模型加载。此外,每个 GPU 关联一个专用的“暂存缓冲区”,以用于在设备和主机之间暂存内存拷贝。

假如扩容模型已经缓存在主机内存之中,Aegaeon 可以通过暂存缓冲区以多线程的、分块的、流水线的方式,直接将权重从模型缓存复制到 GPU,从而实现与此前最优解决方案相当的加载时间。

其三,Aegaeon 也实现了统一 KV 缓存。

为了解决存储几种不同形状的 KV 缓存时的内存碎片问题,Aegaeon 借鉴了经典的内存管理技术,采用 Slab 分配来为每个可能的形状构建统一的 KV 缓存。每个 KV 缓存区域被划分为固定大小的块。每个 Slab 被分配给一个形状来作为这一特定形状的 KV 缓存块池,这样一来就能在真实工作负载中实现高效的缓存内存利用率。

Slab 分配好比是一个高效的“文具管理员”,它同时管理着许多盒子,每个盒子只装一种特定尺寸的便签纸,当需要某种便签纸的时候,它可以直接从对应的盒子里取一张,用完之后再放回原来的盒子里。

让 AI 模型服务从“专线”走向“高速公路”

从本次论文可知,这一成果要解决的痛点是:在 Hugging Face 等模型市场上拥有种类繁多的模型,这些模型的特性和用户量各不相同。使用专用 GPU 实例来服务并发推理工作负载中那些偶发和不可预测的请求,会导致大量的资源浪费。虽然现有的多模型服务解决方案采用 GPU 池化和无服务器计算来提高资源效率,但其有效性仅限于每个 GPU,最多支持两到三个模型,这对于充分利用 GPU 资源来说是远远不够的。

在 AI 模型爆炸式增长的今天,各大模型平台同时运行着成百上千个模型,传统部署方式导致 GPU 资源利用率极低,每个 GPU 往往只能服务 2-3 个模型,大量的算力被闲置。而本次研究团队通过 Aegaeon 实现的 token 级自动扩缩容技术,通过将调度粒度细化到每个生成单元,在配合全栈优化,让单个 GPU 可以智能地同时服务多个模型。

这一技术不仅大幅提升了资源利用效率,更为未来“模型超市”的设想奠定了基础。也许未来人们只需轻点鼠标,就能在云端瞬间调用最适合的 AI 模型,无需担心背后的资源调度难度。

参考资料:

相关论文 https://dl.acm.org/doi/10.1145/3731569.3764815

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
拆开中国无人机一看,美媒心凉透了,若插手台海,美军必败无疑?

拆开中国无人机一看,美媒心凉透了,若插手台海,美军必败无疑?

最新声音
2026-05-10 02:09:58
“汉坦病毒”登上热搜,建议:每家备好5样东西,关键时刻能救命

“汉坦病毒”登上热搜,建议:每家备好5样东西,关键时刻能救命

路医生健康科普
2026-05-10 19:50:03
克雷桑梅开二度,泰山队2比1客场战胜深圳,争冠无望保级无忧

克雷桑梅开二度,泰山队2比1客场战胜深圳,争冠无望保级无忧

姜大叔侃球
2026-05-10 20:17:24
彻底不装了?特朗普访华再生变!中方提的要求,美方竟然一口回绝

彻底不装了?特朗普访华再生变!中方提的要求,美方竟然一口回绝

到此为止的印象
2026-05-09 13:39:53
船上病毒爆发,她老公死了。船长说是自然死亡,大家去拥抱安慰她,然后她也死了...

船上病毒爆发,她老公死了。船长说是自然死亡,大家去拥抱安慰她,然后她也死了...

英国那些事儿
2026-05-09 23:12:15
中超最新积分榜大乱:蓉城31分一骑绝尘,申花战平暂升第五

中超最新积分榜大乱:蓉城31分一骑绝尘,申花战平暂升第五

春日筆記
2026-05-10 06:31:07
情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

新欧洲
2026-04-21 19:37:05
青岛海牛,豪取4连胜!

青岛海牛,豪取4连胜!

先锋新闻
2026-05-10 22:22:02
老色医要求女患者脱光衣服检查,并称“你都结婚了,别那么扭捏”

老色医要求女患者脱光衣服检查,并称“你都结婚了,别那么扭捏”

长安一孤客
2026-04-29 14:33:12
未婚先孕横刀夺爱,曾轰动娱乐圈的“最强小三”,15年后活成这样

未婚先孕横刀夺爱,曾轰动娱乐圈的“最强小三”,15年后活成这样

混沌录
2026-05-09 15:57:08
又不想访华了?中方亮明红线,美商界大佬争先恐后,三大小丑狂跳

又不想访华了?中方亮明红线,美商界大佬争先恐后,三大小丑狂跳

知法而形
2026-05-09 17:03:01
花100万美元刚建好豪华后院,就被邻居告进监狱!美国富人区邻里大战升级

花100万美元刚建好豪华后院,就被邻居告进监狱!美国富人区邻里大战升级

华人生活网
2026-05-10 01:31:59
中央明确!6月1日全国开始统一执行,居民自来水将迎7大变化

中央明确!6月1日全国开始统一执行,居民自来水将迎7大变化

美食格物
2026-05-10 15:13:10
赢球还道歉?梁靖崑赛后哽咽全程不敢看镜头,心里是憋了多大委屈

赢球还道歉?梁靖崑赛后哽咽全程不敢看镜头,心里是憋了多大委屈

乐悠悠娱乐
2026-05-10 11:56:28
出大事了,美军机被击落,特朗普恼羞成怒,英法德转变态度

出大事了,美军机被击落,特朗普恼羞成怒,英法德转变态度

史行途
2026-05-08 06:30:08
明天A股就开盘了!就问你怕不怕!

明天A股就开盘了!就问你怕不怕!

龙行天下虎
2026-05-10 19:17:16
笑麻了,原来真实的乡镇公务员是这样的!网友:疑是被编制做局了

笑麻了,原来真实的乡镇公务员是这样的!网友:疑是被编制做局了

另子维爱读史
2026-05-10 10:55:25
世体回顾C罗谈姆巴佩:皇马本来就强,签下他不见得会更进一步

世体回顾C罗谈姆巴佩:皇马本来就强,签下他不见得会更进一步

懂球帝
2026-05-10 20:37:16
中国台球俱乐部职业联赛启动,潘晓婷吴宜泽赵心童亮相广州

中国台球俱乐部职业联赛启动,潘晓婷吴宜泽赵心童亮相广州

南方都市报
2026-05-10 20:09:16
内幕,名记透露马德鲁加离队真因,被贵宾点名,以为他是少数民族

内幕,名记透露马德鲁加离队真因,被贵宾点名,以为他是少数民族

体坛风之子
2026-05-10 07:03:51
2026-05-10 22:59:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16683文章数 514939关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

谈判陷僵局 世界杯转播费报价大幅降低央视仍不接招

头条要闻

谈判陷僵局 世界杯转播费报价大幅降低央视仍不接招

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

本地
教育
健康
游戏
公开课

本地新闻

用苏绣的方式,打开江西婺源

教育要闻

请教会你的孩子有能力分辨和说不!

干细胞能让人“返老还童”吗

《流放之路2》有望在5月底获得Steam Deck认证

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版