网易首页 > 网易号 > 正文 申请入驻

告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星

0
分享至


新智元报道

编辑:元宇 桃子

【新智元导读】在中国科学院计算技术研究所入选NeurIPS 2025的新论文中,提出了SpaceServe的突破性架构,首次将LLM推理中的P/D分离扩展至多模态场景,通过EPD三阶解耦与「空分复用」,系统性地解决了MLLM推理中的行头阻塞难题。

核心突破:首次将LLM推理中的P/D分离思想扩展至多模态场景,提出EPD(Encoder-Prefill-Decode)三阶段解耦,并通过「空分复用」彻底解决编码器引发的行头阻塞问题。

随着多模态大语言模型(MLLM)广泛应用于高分辨率图像理解、长视频分析等场景,其推理流程中的多模态编码(Encoding)阶段正成为性能瓶颈。

当前主流系统(如vLLM)在服务MLLM时,仍沿用「时间复用」(time-multiplexing)策略:GPU先执行视觉/音频编码器,完成后才切换上下文运行文本解码器。

这一设计在高并发下引发严重的行头阻塞(head-of-line blocking):一个高分辨率图像的编码可能耗时数百毫秒,在此期间,所有等待生成文本的解码请求都被迫阻塞。

结果是:解码器长期「饥饿」,TPOT(每输出token耗时)随请求率飙升,服务吞吐急剧恶化。



SpaceServe:从「时间复用」到「空分复用」


NeurIPS 2025接收论文《SpaceServe: Spatial Multiplexing of Complementary Encoders and Decoders for Multimodal LLMs》提出全新解决方案:空分复用(Space Multiplexing)。

该研究由中国科学院计算技术研究所处理器芯片全国重点实验室编译与编程团队博士生李志成与副研究员赵家程等人共同完成。

其核心洞察源于对MLLM资源消耗的定量分析:

  • 视觉编码器:计算密集,内存带宽需求低;

  • 文本解码器:内存密集,严重依赖HBM带宽存储KV Cache。

二者资源需求高度互补,却在时间复用架构下被迫串行执行,造成GPU资源严重浪费。

SpaceServe的关键创新在于:


1. EPD三阶段逻辑解耦+物理共置

  • 将所有模态编码器从共享文本解码器中完全解耦,支持独立调度;

  • 利用现代GPU运行时(如NVIDIA libsmctrl / green-ctx, AMD cumask)提供的细粒度SM分区能力,将编码器与解码器共置在同一GPU上,实现并发执行。


这并非简单并行,而是让计算密集型与内存密集型任务在微观层面形成资源互补。

2. TWSRFT编码器调度策略

  • 在时间窗口内,按「剩余工作量最短优先」批处理编码请求;

  • 避免大图阻塞小图,平滑解码器输入流,提升吞吐稳定性。

3. 基于资源利用曲线的资源动态分配运行时(Space Inference Runtime)

  • 离线构建资源-效用曲线,刻画不同输入(如图像分辨率)下编码器/解码器的延迟与SM占用关系;

  • 在线根据请求元数据(patch数、上下文长度),动态分配SM计算单元,最小化端到端延迟。



实测性能:高并发下超越vLLM

在Qwen2-VL系列模型(2B–72B)上,SpaceServe显著优于vLLMv1:



关键现象:vLLM的TPOT随请求率急剧恶化(如2B模型从101ms→365ms),而SpaceServe几乎保持稳定(8.85ms→12.62ms)。

根本原因:vLLM中,编码器独占GPU时,解码器无法推进;而SpaceServe通过空分复用,让解码器在编码器运行的同时持续生成token,彻底解耦执行流。



为何比MPS更优?

细粒度SM隔离是关键

为验证设计有效性,SpaceServe还对比了NVIDIA MPS(Multi-Process Service)方案。结果显示:


  • MPS版本在10 RPS下TPOT为132ms;

  • SpaceServe(细粒度SM分区)仅为40.68ms提速3.3×

原因:MPS仅在进程级隔离,编码器与解码器仍会争抢同一SM内的寄存器、L1 cache等资源,导致缓存污染与occupancy下降

而SpaceServe通过SM级物理分区,实现真正的资源隔离,最大化各自执行效率。



行业意义:为MLLM推理树立新范式


  • 首次系统性解决MLLM推理中的行头阻塞问题

  • 无需修改模型结构,兼容Qwen2-VL、Kimi-VL等主流MLLM;

  • 代码开源,有望集成至vLLM、SGLang等框架,推动多模态服务高效落地。


项目地址:https://github.com/gofreelee/SpaceServe

值得注意的是,SpaceServe主要优化稳态吞吐(TPOT),对首token延迟(TTFT)影响有限——这与设计目标一致:解码器持续高吞吐,而非单次编码加速

https://github.com/gofreelee/SpaceServe


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
震惊!深圳一小区楼下车辆突然被诸多“创可贴”所覆盖,密密麻麻

震惊!深圳一小区楼下车辆突然被诸多“创可贴”所覆盖,密密麻麻

火山诗话
2025-11-03 08:55:34
老铺黄金、周大福……集体大跌

老铺黄金、周大福……集体大跌

极目新闻
2025-11-03 10:35:28
和谢霆锋离婚13年,让王菲俩闺蜜倒戈 的张柏芝,野心不止于此

和谢霆锋离婚13年,让王菲俩闺蜜倒戈 的张柏芝,野心不止于此

有趣的胡侃
2025-11-03 10:06:32
大二女生怀孕爸爸呼不可能,女孩:游泳怀上的!医生的解释很明白

大二女生怀孕爸爸呼不可能,女孩:游泳怀上的!医生的解释很明白

菁妈育儿
2025-10-26 12:35:13
不顾央视警告顶风作案,与刘涛传出绯闻的杨烁,究竟是谁给的底气

不顾央视警告顶风作案,与刘涛传出绯闻的杨烁,究竟是谁给的底气

芳芳历史烩
2025-09-24 20:13:19
一夜之间,北京又一家知名健身房跑路了

一夜之间,北京又一家知名健身房跑路了

微微热评
2025-11-03 08:53:02
卢秀燕为什么不出席郑丽文就职典礼?因为“一句话”葬送了她

卢秀燕为什么不出席郑丽文就职典礼?因为“一句话”葬送了她

南宫一二
2025-11-03 10:49:35
网警斩断侵害未成年人网络黑色产业链,抓获犯罪嫌疑人8名

网警斩断侵害未成年人网络黑色产业链,抓获犯罪嫌疑人8名

环球网资讯
2025-11-03 09:46:14
热议中超保级:赛程为人情世故提供便利;亚泰想搞肯定冲回来

热议中超保级:赛程为人情世故提供便利;亚泰想搞肯定冲回来

懂球帝
2025-11-02 18:25:24
《澎湖海战》——玩政治正确,却又没玩明白

《澎湖海战》——玩政治正确,却又没玩明白

云石
2025-11-03 09:40:03
国际空间站7大禁令:禁止发生性关系……最离谱的却是最后一条!

国际空间站7大禁令:禁止发生性关系……最离谱的却是最后一条!

徐德文科学频道
2025-09-25 20:05:13
王凯已任江苏无锡市委常委、常务副市长

王凯已任江苏无锡市委常委、常务副市长

澎湃新闻
2025-11-03 10:14:29
何祚庥:我对核聚变研究的质疑,就是向杨振宁先生这样的先贤学习

何祚庥:我对核聚变研究的质疑,就是向杨振宁先生这样的先贤学习

怀疑探索者
2025-11-02 21:29:01
尴尬!谢晖3年送2支中超队降级,曾是本土最红少帅,如今无人敢用

尴尬!谢晖3年送2支中超队降级,曾是本土最红少帅,如今无人敢用

国足风云
2025-11-03 11:39:52
疑似杨瀚森妈妈社媒发声:虚胖瀚森状态下滑谁的责任?只有我知道

疑似杨瀚森妈妈社媒发声:虚胖瀚森状态下滑谁的责任?只有我知道

狼叔评论
2025-11-03 13:30:03
“上午立冬,冻死牛;下午立冬,暖烘烘”,2025年立冬是几点?

“上午立冬,冻死牛;下午立冬,暖烘烘”,2025年立冬是几点?

阿龙美食记
2025-10-30 09:52:04
湖人130-120热火迎4利好!布朗尼+2将打出价值,雷迪克执教获赞!

湖人130-120热火迎4利好!布朗尼+2将打出价值,雷迪克执教获赞!

篮球资讯达人
2025-11-03 13:25:13
上海地铁大爷强坐女乘客大腿后续:处理结果引争议,网友:别再惯着

上海地铁大爷强坐女乘客大腿后续:处理结果引争议,网友:别再惯着

观察鉴娱
2025-11-03 09:59:43
全红婵复出首战摘金,现场下起“娃娃雨”,陈艺文、林珊点赞!

全红婵复出首战摘金,现场下起“娃娃雨”,陈艺文、林珊点赞!

环球网资讯
2025-11-03 10:40:04
果然不出中国大陆所料:48小时内,台当局的两大帮手都浮出了水面

果然不出中国大陆所料:48小时内,台当局的两大帮手都浮出了水面

乐天闲聊
2025-11-03 11:29:53
2025-11-03 14:16:52
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13772文章数 66236关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

媒体:高市早苗发表涉台错误言行 中方直接"亮剑"

头条要闻

媒体:高市早苗发表涉台错误言行 中方直接"亮剑"

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

录音彻底揭露知名导演王家卫的体面

财经要闻

马斯克:未来5-6年传统手机与App将消失

汽车要闻

超跑同款磁流变减振 深蓝L06包你开得爽

态度原创

亲子
房产
本地
公开课
军事航空

亲子要闻

双喜临门!她官宣结婚怀孕

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美总统威胁对尼日利亚动武 尼方回应

无障碍浏览 进入关怀版