网易首页 > 网易号 > 正文 申请入驻

Token洪流的转向:当AI Agent成为Token消耗的主宰,什么样的推理服务基础设施才是刚需

0
分享至


作者 | 章明星,清华大学副教授,Mooncake 社区联合发起人、

车漾,阿里云容器服务高级技术专家,Fluid 社区联合发起人

Token 消耗量的结构性转移正在重塑大模型推理服务基础设施的底层逻辑。一个不容忽视的事实是:AI Agent 正从人类手中接过 Token 消耗的指挥棒,背后是大模型从 Chatbot 转化为新质生产力。这不是量的变化,而是质的跃迁——推理基础设施的使用者正从”偶尔提问的人类用户”变为”7×24 小时不间断工作的 Agent”,其单次任务需要几十次工具调用、输入输出比达到 10:1 甚至 100:1、面向图像和全模态的输入导致上下文窗口常态性突破 100K,其请求模式、负载特征与成本考量正在发生根本性的变化。

AI Agent 时代的三大范式转变

1. 从”人机对话”到”Agent 之间的协作”

人类用户的请求是离散、低频、不可预测的;而 AI Agent 产生的请求是持续、高频、结构化的。一个负责数据分析的 Agent 可能同时触发检索、计算、可视化等多个子 Agent,形成复杂的计算图。这种”机机协作”模式要求基础设施能够处理毫秒级的级联调用,而非秒级的单次响应。

2. 从”单次响应”到”状态化会话”

AI Agent 的核心价值在于持续任务执行。一个写论文的 Agent 可能要做文献搜索,内容整理等一系列操作,每个会话包含长达数万轮的上下文。这导致 KVCache 不再是临时缓存,而是需要持久化、可迁移的”数字记忆体”。早期推理服务将 KVCache 视为 GPU 上的设计,受限于 GPU 的显存限制,在 Agent 时代已成为性能枷锁。

3. 从”规模经济”到”效率经济”

当 Token 消耗增长 10 倍、100 倍时,推理服务成本不再是次要考量,如何能够必须实现”超卖”与”混部”。考虑到实际上 Agent 需要使用 LLM 和多模态的不同模型,应对 Agent 的不同模型需求流量模式呈现更强的潮汐效应,推理服务基础设施需要像”数字电网”一样动态调度算力。

AI Agent 对推理基础设施的

五大核心需求

基于上述范式转变,面向 AI Agent 的推理基础设施必须具备以下能力:

需求一:拓扑感知的角色编排

AI Agent 的对于吞吐有非常高的需求,对于 TTFT 和 TPOT 的要求更高了。因此 PD 分离和 KVCache 外置成为了默认的部署架构:Prefill 需要计算密集型资源,Decode 需要内存密集型资源,KVCache 访问需要低延迟网络。传统 Deployment 将不同角色混部在同一 Pod,导致资源错配。因此要求推理基础设施能将推理服务拆解为拓扑化的角色有机体,实现 Prefill/Decode/KVCache 等角色的独立调度、弹性伸缩与协同策略。

需求二:KVCache 为中心的架构

Agent 的长上下文特性使得 KVCache 命中率成为性能关键。基础设施必须实现跨实例、跨节点、甚至跨集群的 KVCache 共享,将离散的记忆碎片整合为全局统一的地址空间。当 Agent 迁移或扩缩容时,KVCache 应能透明地跟随移动,避免昂贵的重新计算。

需求三:智能差异化调度

不同 Agent 任务对 SLO(服务水平目标)的需求截然不同:实时对话要求低 TTFT,批处理任务要求高吞吐量,工具调用要求确定性延迟。调度器需要理解请求语义,实现 KVCache 感知、优先级队列、PD 分离等差异化调度,而非简单的轮询或加权分配。

需求四:生产级弹性效率

Agent 的规模可能从 10 个实例瞬间扩展到 1000 个,又迅速回缩。而对应的推理基础设施必须将弹性从”分钟级”压缩到”秒级”,并配合反碎片化、潮汐混部等精益运营手段,将 GPU 利用率从 30% 的低位提升至 70% 以上。任何推理服务的弹性延迟都会导致 Agent 任务超时或资源浪费。

需求五:全链路可观测与自优化

当 Agent 自主决策时,人类需要理解其”思维过程”。基础设施必须提供从 Token 生成到工具调用的全链路追踪,并能基于历史数据自动优化 PD 比例、批处理策略与缓存预取。配置决策应从”人工调参”转向”数据驱动”。

这些痛点如同”最后一公里”鸿沟,阻碍着 AI 技术向业务价值的转化。

AI Serving Stack:

为AI Agent量身打造的推理基础设施

为此,SGLang 社区、龙蜥社区、Mooncake 社区、清华大学 MADSys 实验室、南京大学顾荣老师团队、小红书、算秩未来、科大讯飞 MaaS 团队和阿里云容器服务团队联合打造了AI Serving Stack,**填补开源社区在”生产级 LLM 推理编排”领域的空白。**

与传统"全家桶"式方案不同,AI Serving Stack 采用模块化设计,将部署管理智能路由弹性伸缩深度可观测等能力解耦为独立组件。用户可按需灵活组装,在避免强制绑定某个特定组件的同时,也有效控制技术栈复杂度。无论是刚刚起步还是已经拥有大规模 AI 业务,AI Serving Stack都能轻松驾驭复杂的云原生 AI 推理场景。


AI Serving Stack 的获奖绝非偶然,其价值恰在于精准命中了 AI Agent 时代的五大需求。这并非简单的技术堆砌,而是一次从”面向人类”到”面向智能体”的架构演进。

1. RoleBasedGroup 重新定义推理编排

AI Serving Stack 的重点在于LLM 推理的 Kubernetes 标准 API——RoleBasedGroup(RBG),实现从”离散 Deployment 集合”到”拓扑化有机体”的范式跃迁。

  • 角色原子化将单体 Pod 拆解为 Router、Prefill、Decode、KVCache 等标准角色,每类角色拥有独立的生命周期与策略。

  • 协同策略化引擎通过声明式定义四大协同能力:部署协同确保 Prefill 与 Decode 成对调度;升级协同实现”比例协议”式原子更新;故障协同触发跨角色联动自愈;伸缩协同基于流量动态调整角色配比。

  • 管理统一化将分散的 5-8 个 YAML 文件收敛为单一 CR,镜像与配置一处修改、全局生效,运维效率大幅提升。

  • 配置智能化结合 AIConfigurator 根据模型 - 硬件特性自动生成最优配置,Benchmark 一键评测,让架构选择从"经验驱动"转向"数据驱动"。

基于 RBG 的SCOPE 五大核心能力(Stable/Coordination/Orchestration/Performance/Extensible),推理服务被视作”拓扑化、有状态、可协同的角色有机体”。以小红书的实际落地为例,新模型的运维耗时从天级大幅缩短至分钟级,显著降低线上运维复杂度;同时,成功支撑 PD 分离的分布式推理架构规模化部署,实现资源成本节省超 50%。


2. 智能调度:SMG 网关实现差异化负载优化

在 RBG 编排层之上,AI Serving Stack 引入SMG 推理网关(SGLang Model Gateway ),专为 LLM 负载特性设计的高级调度能力:

  • KVCache 感知调度:支持近似与精准两种前缀缓存感知模式。基准测试显示,全局近似模式下可实现响应速度显著提升(TTFT 降低 50% 以上)、吞吐量翻番。

  • 请求排队与优先级调度:多维度状态评估下自动排队防过载,显著提升不同长度请求的响应速度,保障服务稳定性和 SLO;

  • 分离感知调度:支持 PD 分离和 DPLB 负载均衡,智能将预填充与解码分配至不同 pod,协同提升吞吐、降低延迟,bucket 调度策略下实现 TTFT 降低 20% 以上。

SMG 让推理调度从"无感知"走向"推理负载感知",将 RBG 的编排能力转化为业务级性能优势。


3. 以 KVCache 为中心的 PD 分离和以存换算架构

AI Serving Stack 深度融合 Mooncake 项目,实现了以 KVCache 为中心的 PD 分离架构。Mooncake 通过计算与存储解耦,将 KVCache 池化共享,结合 eRDMA、GPUDirect 等高性能传输技术,实现跨实例资源复用。

三大创新点助力性能突破:

  • Transfer Engine:全链路零拷贝、多网卡聚合 (8x400Gbps),支持多传输路径 RDMA/eRDMA/NVLink/CXL/TCP,动态拓扑感知并支持容错。

  • KVCache Store:利用闲置 GPU 显存 / 内存,通过 RDMA 实现透明多级缓存,支持数据下沉到廉价存储。

  • 生态整合:与 vLLM/SGLang 等主流框架深度适配,TPOT 下降 20%,成本低至 0.2$/1M Token。

在长文本阅读等多轮对话场景中,该架构使推理吞吐量提升 6 倍,响应时间降低 69.1%,KVCache 命中率最高达 90%。


4. 性能突破:从资源固化到精益弹性

在实际测试中,基于 input:ouput=3500:1500 的数据集,Qwen3-235B 模型单组 PD 分离支持 2.74 QPS,P99 延迟稳定在 80ms 以内;Decode 阶段吞吐量较传统方案提升 3-5 倍。动态 P/D 比例调整使 GPU 利用率稳定在 65%-75%,配合潮汐混部与反碎片化装箱优化,用户 GPU 成本减少 30%-40%,年度节约近千万元。

与此同时,工程效率也实现了飞跃式提升:一键部署时间<5 分钟,发布失败率从 23% 降至 5%,MTTR 从数十分钟级降至 2 分钟内,服务升级中断时间从 15 分钟缩短至 10 秒。

5. 生态协同:从开源项目到标准推进

AI Serving Stack 秉持全栈开源理念,100% 开源架构让企业零成本落地,彻底规避商业锁定。多框架兼容支持 SGLang、vLLM、TensorRT-LLM、NVIDIA Dynamo、Chitu 等国内外主流推理引擎,并已完成多个国产算力适配。

清华大学 MADSys 实验室章明星老师指出:

“AI Serving Stack 通过将智能配置算法与 KVCache 弹性存储能力深度集成至 RBG 项目,实现了从 SLA 需求到大规模推理系统配置的‘一键转化’,有效弥合了 AI 基础设施在 PD 比例、弹性伸缩、资源分配与并行策略等方面的‘配置鸿沟’。该方案已在真实业务场景中验证成效,是产学研协同创新、高效落地的典范。其开放、可组合、可拆分的架构,也更能适应大模型技术快速演进的需求。”

AI Serving Stack 由多家产学研机构共同维护,采用开放治理模式:

  • 技术委员会由核心贡献者组成,定期召开会议,共同决策技术路线;

  • 保持 每两个月发布一个 Minor 版本 的快速迭代节奏;

  • 与清华大学、南京大学等高校深度合作,持续将智能配置和调度、动态弹性扩缩容等前沿研究成果融入工程实践。

前不久,在 InfoQ 携手模力工场发起的「中国技术力量年度榜单」中,AI Serving Stack 参考架构,凭借其创新性的架构设计,优秀的工程实践和广泛的实用价值,获评“2025 年度 AI 工程与部署卓越奖”

展望:共同定义下一代 AI 基础设施

AI Serving Stack 的获奖,标志着开源协作模式在生产级 AI 基础设施领域的潜力。其价值不在于"颠覆",而在于通过标准化 API 和模块化设计,将学术界的前沿成果与工业界的工程实践有效结合。

当 AI Native 成为企业核心战略,AI Serving Stack 正以其全栈开源、架构普适、生产就绪、性能保障、易于集成、生态协同六大核心亮点,为产业提供从”能跑通”到”高可用、高吞吐、高弹性”的跃迁。

未来已来,随着云原生 AI 推理平台的需求不断变化,AI Serving Stack 也会随之持续迭代,以满足开发需求。

项目地址:

SGLang:https://github.com/sgl-project/sglang

RBG: https://github.com/sgl-project/rbg

Mooncake:https://github.com/kvcache-ai/Mooncake

会议推荐

InfoQ 2026 全年会议规划已上线!从 AI Infra 到 Agentic AI,从 AI 工程化到产业落地,从技术前沿到行业应用,全面覆盖 AI 与软件开发核心赛道!集结全球技术先锋,拆解真实生产案例、深挖技术与产业落地痛点,探索前沿领域、聚焦产业赋能,获取实战落地方案与前瞻产业洞察,高效实现技术价值转化。把握行业变革关键节点,抢占 2026 智能升级发展先机!

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被严重低估的做饭神器,是「微波炉」!以前看不上,现在离不开

被严重低估的做饭神器,是「微波炉」!以前看不上,现在离不开

美家指南
2026-01-26 15:59:14
突发!广东队2米11中锋,意外受到重伤,被队友搀扶下场 令人担忧

突发!广东队2米11中锋,意外受到重伤,被队友搀扶下场 令人担忧

体育哲人
2026-01-26 22:03:46
华尔街大行高喊“美股牛市有支撑”:盈利增长告别“科技巨头独舞”,涨势正在扩大

华尔街大行高喊“美股牛市有支撑”:盈利增长告别“科技巨头独舞”,涨势正在扩大

智通财经
2026-01-26 21:22:10
Windows开年首更大翻车!微软建议卸载:没曾想卸载也出错

Windows开年首更大翻车!微软建议卸载:没曾想卸载也出错

快科技
2026-01-26 15:32:06
致死率75%,印度爆发病毒感染,中国股市流感概念全线拉升

致死率75%,印度爆发病毒感染,中国股市流感概念全线拉升

健识局
2026-01-26 19:27:33
平均每人负债1300万,书记吴仁宝去世10年后,华西村的现况如何?

平均每人负债1300万,书记吴仁宝去世10年后,华西村的现况如何?

哄动一时啊
2026-01-24 21:29:54
妻子出轨董事长后,我开始自驾游,结果在途中遇到董事长的前秘书

妻子出轨董事长后,我开始自驾游,结果在途中遇到董事长的前秘书

乔生桂
2026-01-25 12:21:53
走美军的路,让美军无路可走!官媒:陆军单兵顺畅呼叫空军战机

走美军的路,让美军无路可走!官媒:陆军单兵顺畅呼叫空军战机

军武次位面
2026-01-26 19:34:33
美女坦言:出轨后女人最担心的三个举动

美女坦言:出轨后女人最担心的三个举动

荷兰豆爱健康
2026-01-27 03:09:39
美媒:锡安本赛季后与乔丹的球鞋代言合同结束,可能不再续约

美媒:锡安本赛季后与乔丹的球鞋代言合同结束,可能不再续约

懂球帝
2026-01-26 09:40:06
71岁的成龙说:这辈子我要钱有钱,要名有名,但唯独做错了一件事

71岁的成龙说:这辈子我要钱有钱,要名有名,但唯独做错了一件事

扶苏聊历史
2026-01-01 07:00:03
《白鹿原》里的两家大户,日常只吃油泼面,首富就这种水准?

《白鹿原》里的两家大户,日常只吃油泼面,首富就这种水准?

收藏大视界
2026-01-25 17:56:42
新华社评李亚鹏: 他因嫣然而天使,凭“善良”扭转互联网的戾气!

新华社评李亚鹏: 他因嫣然而天使,凭“善良”扭转互联网的戾气!

玖宇维
2026-01-26 21:17:34
国际金价突破5000美元关口

国际金价突破5000美元关口

东方豪侠
2026-01-26 10:48:55
昨天刚买,今天就降价2000元!才上市三个月的iPhone Air,怎么了?

昨天刚买,今天就降价2000元!才上市三个月的iPhone Air,怎么了?

都市快报橙柿互动
2026-01-26 15:59:52
失眠的元凶找到了!主食吃得太少,再困也睡不好

失眠的元凶找到了!主食吃得太少,再困也睡不好

大象新闻
2026-01-14 20:49:09
历史罕见!全球性的疯狂逼空

历史罕见!全球性的疯狂逼空

和讯网
2026-01-26 21:38:45
《鸭王》女主內地登台封啵觀眾變冷淡,主動握手冇人理換支棒?

《鸭王》女主內地登台封啵觀眾變冷淡,主動握手冇人理換支棒?

粤睇先生
2026-01-26 00:44:34
外媒:中国驳斥马斯克说法!

外媒:中国驳斥马斯克说法!

电动知家
2026-01-24 15:33:08
香港风水认为全红婵的面相比郭晶晶还要好,特别是她嘴巴下那颗痣

香港风水认为全红婵的面相比郭晶晶还要好,特别是她嘴巴下那颗痣

我心纵横天地间
2026-01-14 20:32:59
2026-01-27 04:24:49
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1269文章数 112关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

印度尼帕病毒现跨区域传播 世卫:或引起全球大流行

头条要闻

印度尼帕病毒现跨区域传播 世卫:或引起全球大流行

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

健康
教育
旅游
艺术
时尚

耳石脱落为何让人天旋地转+恶心?

教育要闻

武汉燃气热力学校有艺考吗?答案揭晓!

旅游要闻

本市将打造中国入境旅游首选地

艺术要闻

沙特急刹车,NEOM规模大缩水,线性摩天楼留小段

甜了10年,超多暧昧细节,全网求他俩原地结婚

无障碍浏览 进入关怀版