网易首页 > 网易号 > 正文 申请入驻

告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星

0
分享至


新智元报道

编辑:元宇 桃子

【新智元导读】在中国科学院计算技术研究所入选NeurIPS 2025的新论文中,提出了SpaceServe的突破性架构,首次将LLM推理中的P/D分离扩展至多模态场景,通过EPD三阶解耦与「空分复用」,系统性地解决了MLLM推理中的行头阻塞难题。

核心突破:首次将LLM推理中的P/D分离思想扩展至多模态场景,提出EPD(Encoder-Prefill-Decode)三阶段解耦,并通过「空分复用」彻底解决编码器引发的行头阻塞问题。

随着多模态大语言模型(MLLM)广泛应用于高分辨率图像理解、长视频分析等场景,其推理流程中的多模态编码(Encoding)阶段正成为性能瓶颈。

当前主流系统(如vLLM)在服务MLLM时,仍沿用「时间复用」(time-multiplexing)策略:GPU先执行视觉/音频编码器,完成后才切换上下文运行文本解码器。

这一设计在高并发下引发严重的行头阻塞(head-of-line blocking):一个高分辨率图像的编码可能耗时数百毫秒,在此期间,所有等待生成文本的解码请求都被迫阻塞。

结果是:解码器长期「饥饿」,TPOT(每输出token耗时)随请求率飙升,服务吞吐急剧恶化。



SpaceServe:从「时间复用」到「空分复用」


NeurIPS 2025接收论文《SpaceServe: Spatial Multiplexing of Complementary Encoders and Decoders for Multimodal LLMs》提出全新解决方案:空分复用(Space Multiplexing)。

该研究由中国科学院计算技术研究所处理器芯片全国重点实验室编译与编程团队博士生李志成与副研究员赵家程等人共同完成。

其核心洞察源于对MLLM资源消耗的定量分析:

  • 视觉编码器:计算密集,内存带宽需求低;

  • 文本解码器:内存密集,严重依赖HBM带宽存储KV Cache。

二者资源需求高度互补,却在时间复用架构下被迫串行执行,造成GPU资源严重浪费。

SpaceServe的关键创新在于:


1. EPD三阶段逻辑解耦+物理共置

  • 将所有模态编码器从共享文本解码器中完全解耦,支持独立调度;

  • 利用现代GPU运行时(如NVIDIA libsmctrl / green-ctx, AMD cumask)提供的细粒度SM分区能力,将编码器与解码器共置在同一GPU上,实现并发执行。


这并非简单并行,而是让计算密集型与内存密集型任务在微观层面形成资源互补。

2. TWSRFT编码器调度策略

  • 在时间窗口内,按「剩余工作量最短优先」批处理编码请求;

  • 避免大图阻塞小图,平滑解码器输入流,提升吞吐稳定性。

3. 基于资源利用曲线的资源动态分配运行时(Space Inference Runtime)

  • 离线构建资源-效用曲线,刻画不同输入(如图像分辨率)下编码器/解码器的延迟与SM占用关系;

  • 在线根据请求元数据(patch数、上下文长度),动态分配SM计算单元,最小化端到端延迟。



实测性能:高并发下超越vLLM

在Qwen2-VL系列模型(2B–72B)上,SpaceServe显著优于vLLMv1:



关键现象:vLLM的TPOT随请求率急剧恶化(如2B模型从101ms→365ms),而SpaceServe几乎保持稳定(8.85ms→12.62ms)。

根本原因:vLLM中,编码器独占GPU时,解码器无法推进;而SpaceServe通过空分复用,让解码器在编码器运行的同时持续生成token,彻底解耦执行流。



为何比MPS更优?

细粒度SM隔离是关键

为验证设计有效性,SpaceServe还对比了NVIDIA MPS(Multi-Process Service)方案。结果显示:


  • MPS版本在10 RPS下TPOT为132ms;

  • SpaceServe(细粒度SM分区)仅为40.68ms提速3.3×

原因:MPS仅在进程级隔离,编码器与解码器仍会争抢同一SM内的寄存器、L1 cache等资源,导致缓存污染与occupancy下降

而SpaceServe通过SM级物理分区,实现真正的资源隔离,最大化各自执行效率。



行业意义:为MLLM推理树立新范式


  • 首次系统性解决MLLM推理中的行头阻塞问题

  • 无需修改模型结构,兼容Qwen2-VL、Kimi-VL等主流MLLM;

  • 代码开源,有望集成至vLLM、SGLang等框架,推动多模态服务高效落地。


项目地址:https://github.com/gofreelee/SpaceServe

值得注意的是,SpaceServe主要优化稳态吞吐(TPOT),对首token延迟(TTFT)影响有限——这与设计目标一致:解码器持续高吞吐,而非单次编码加速

https://github.com/gofreelee/SpaceServe


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
汪嘉伟之子汪崎:心疼母亲邓星,再难不“啃”父亲,赢得继母好评

汪嘉伟之子汪崎:心疼母亲邓星,再难不“啃”父亲,赢得继母好评

细品名人
2026-03-26 07:10:29
哈萨克斯坦也没想到,跟着中国混来混去,结果自己也混成了个霸主

哈萨克斯坦也没想到,跟着中国混来混去,结果自己也混成了个霸主

花颜蕴韵
2026-03-26 03:37:13
伊朗获得强援,又一中东国家下场,还是美国亲自送上门的帮手

伊朗获得强援,又一中东国家下场,还是美国亲自送上门的帮手

快看张同学
2026-03-26 14:46:05
晚饭七分饱被推翻了?医生调查:过了56岁,吃饭尽量要做到这5点

晚饭七分饱被推翻了?医生调查:过了56岁,吃饭尽量要做到这5点

蜉蝣说
2026-02-03 15:00:19
太突然!董事长汤建,因心梗意外去世

太突然!董事长汤建,因心梗意外去世

每日经济新闻
2026-03-25 18:21:26
中年男人最大的悲哀是什么?网友:说到底就是自己能力差呗

中年男人最大的悲哀是什么?网友:说到底就是自己能力差呗

带你感受人间冷暖
2026-03-23 00:02:19
NBA积分榜又乱了!掘金4连胜,火箭加时2分惜败,快船稳居第8

NBA积分榜又乱了!掘金4连胜,火箭加时2分惜败,快船稳居第8

薇说体育
2026-03-26 16:03:59
樊振东空降迈阿密,新身份曝光!回归国乒成谜!吴敬平发文!

樊振东空降迈阿密,新身份曝光!回归国乒成谜!吴敬平发文!

好乒乓
2026-03-26 12:28:10
钱再多有什么用?58岁伊能静身价过亿,如今9岁女儿却成她的心病

钱再多有什么用?58岁伊能静身价过亿,如今9岁女儿却成她的心病

梨花黛娱
2026-03-25 15:00:06
女孩“全损课本”火了,自认为是清北的料子,老师:自我感动罢了

女孩“全损课本”火了,自认为是清北的料子,老师:自我感动罢了

复转这些年
2026-03-23 20:48:15
扎心!俄爱国军事博主摊牌:再征40万大军也白搭,战场早已变天!

扎心!俄爱国军事博主摊牌:再征40万大军也白搭,战场早已变天!

老马拉车莫少装
2026-03-25 07:41:30
浙江省政府领导班子有调整

浙江省政府领导班子有调整

极目新闻
2026-03-26 09:59:46
74年李先念找到李德生,沉默半晌后说:要你辞职,是毛主席的建议

74年李先念找到李德生,沉默半晌后说:要你辞职,是毛主席的建议

比利
2026-03-26 15:01:27
特朗普:赫格塞思对和解不感兴趣,只想打仗

特朗普:赫格塞思对和解不感兴趣,只想打仗

观察者网
2026-03-25 09:19:14
真是人走茶凉!看了三只羊传媒的现状,才明白什么叫兔死狗烹

真是人走茶凉!看了三只羊传媒的现状,才明白什么叫兔死狗烹

聚焦真实瞬间
2026-02-10 20:45:40
复旦大学王德峰:禅宗为何是人类最高智慧中的智慧?

复旦大学王德峰:禅宗为何是人类最高智慧中的智慧?

犀利辣椒
2026-03-25 06:43:28
湖人7分险胜!差点翻车原因揭晓,4人表现太拉胯,数据一目了然

湖人7分险胜!差点翻车原因揭晓,4人表现太拉胯,数据一目了然

余飩搞笑段子
2026-03-26 11:33:35
38.6万元起拍!南京一民国老四合院上架拍卖

38.6万元起拍!南京一民国老四合院上架拍卖

现代快报
2026-03-26 14:34:07
14岁初中生把干冰放冰箱,半夜爆炸致价值上万冰箱报废 家长:没责备他

14岁初中生把干冰放冰箱,半夜爆炸致价值上万冰箱报废 家长:没责备他

红星新闻
2026-03-24 23:25:19
以色列称伊朗40分钟内向以发射四轮导弹

以色列称伊朗40分钟内向以发射四轮导弹

财联社
2026-03-25 18:00:21
2026-03-26 17:24:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
数码
本地
艺术
公开课

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

数码要闻

1599~2499元,英特尔酷睿Ultra 200S Plus处理器发售

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

艺术要闻

哪一座桥不是风景?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版