网易首页 > 网易号 > 正文 申请入驻

vLLM 硬核四连发!

0
分享至

大家好,我是 Ai 学习的老章

关于 vLLM,我之前写过不少:

今天再来聊聊 vLLM 在 2026 年 3 月密集发布的四个重大更新——Semantic Router v0.2 AthenaNVIDIA Nemotron 3 Super 上线P-EAGLE 并行推测解码、以及Model Runner V2 架构大重构。这一波更新可以说是从底层引擎到上层编排全面开花,让 vLLM 在 2026 年站稳了大模型推理基座的位置。

一、Semantic Router v0.2 Athena:从路由器到系统大脑

第一个登场的是vLLM Semantic Router v0.2 Athena(雅典娜)。

如果你对 Semantic Router 还不熟悉,简单说就是——它不是一个模型,它是帮你决定"这个请求该交给哪个模型处理"的智能路由层。

从 v0.1 Iris 到 v0.2 Athena,这次升级幅度相当大。

下图是 Athena 的整体架构概览,可以看到从信号提取到决策路由再到模型选择的完整流程:


Athena 整体架构 1. 模型栈全面换血

Athena 把底层基座换成了新的多语言长上下文模型mmbert-embed-32k-2d-matryoshka,支持 1800 多种语言、32K 上下文。在它之上构建了一整套分类器家族mom-multilingual-class,覆盖意图分类、越狱检测、PII 检测、事实核查和反馈检测。

下图展示了新的跨模态嵌入模型 multi-modal-embed-small,能把文本、图片、音频统一映射到同一个 384 维语义空间:


跨模态嵌入模型

性能提升立竿见影——在 AMD MI300X 上做了一组端到端测试:

请求大小

ONNX+GPU 平均延迟

ONNX+CPU 平均延迟

Candle+CPU 平均延迟

~500 tokens

22 ms

853 ms

1053 ms

~2000 tokens

31 ms

1814 ms

1805 ms

~8000 tokens

128 ms

4796 ms

1830 ms

ONNX+GPU 比 CPU 方案快了 40 倍,这不是理论测试,是走完 Envoy→ext_proc→SR 的真实路由链路。

下图是 Athena v0.2 的模型栈全景,可以直观看到新旧基座的替换:


Athena 模型栈全景 2. ClawOS:让路由器变成 AI 操作系统

这是 Athena 最大胆的尝试。ClawOS 把 Semantic Router 变成了一个可以编排多个 OpenClaw 智能体团队的操作层。你可以通过自然语言对话来创建团队、分配 Worker、实时协调——有点像给 AI 智能体搞了个"操作系统"。

下图是 ClawOS Dashboard 的多智能体编排界面——可以看到团队管理、Worker 分配和实时聊天协作的完整界面:


ClawOS 多智能体编排界面

虽然还是实验性质,但方向很清晰:**未来的 AI 推理不只是"选模型",而是"管团队"**。

3. 零配置上手 + Dashboard 驱动

以前搞 Semantic Router 得先写一堆 YAML 配置。现在一行命令搞定:

curl -fsSL https://vllm-semantic-router.com/install.sh | bash

装完自动启动 Dashboard,进去配一下模型就能用。下图是全新的 Dashboard 首次启动引导界面:


Dashboard 首次启动引导

Dashboard 现在不光能配置路由,还能可视化拓扑、回放路由决策、做评估测试。真正成了"系统大脑":


Dashboard 系统大脑 4. AMD ROCm Yes!

AMD 用户终于不是二等角色了

Athena 把 ROCm 做成了正式支持的部署路径:

vllm-sr serve --platform amd

下图展示了 AMD ROCm 端到端部署路径,包括 GPU 直通、ONNX 加速和 CK Flash Attention 支持:


AMD ROCm 部署架构

老章说:Semantic Router 的野心越来越大了。从 v0.1 的"请求路由"到 v0.2 的"系统大脑",vLLM 开始不只做推理引擎,而是做上层编排。对于需要跑多个模型的生产环境来说,这东西值得关注。
二、NVIDIA Nemotron 3 Super:为多智能体而生的 MoE 模型

NVIDIA 和 vLLM 联手推出了Nemotron 3 Super的官方支持。先来看一组惊人的数字:

  • 总参数:1200 亿

  • 激活参数:仅 120 亿(MoE 架构,Latent MoE 让 4 个专家的推理成本等于 1 个)

  • 上下文窗口:100 万 token

  • 支持 GPU:B200、H100、DGX Spark、RTX 6000

下图是 Artificial Analysis 的评测对比,Nemotron 3 Super 在同级别开源模型中智能水平和开放度都领先:


Nemotron 3 Super Artificial Analysis 对比 为什么说它是"为多智能体而生"?

多智能体系统有两个老大难问题:

  1. 上下文爆炸:多个智能体之间不停传递历史记录、工具输出和推理步骤,token 越滚越大。Nemotron 3 Super 用 100 万 token 上下文窗口直接暴力解决——历史全装得下,目标漂移大幅减少。

  2. 推理税:每个子任务都用大模型会又慢又贵。MoE 架构只激活 120 亿参数,吞吐量比前代提升最高 5 倍,NVFP4 精度在 Blackwell 上比 H100 的 FP8 还快 4 倍,且精度几乎无损。

下图展示了 Nemotron 3 Super 在效率和精度两个维度上的领先位置:


Nemotron 3 Super 效率 vs 精度 快速上手

安装 vLLM 后一条命令就能部署:

pip install vllm==0.17.1


# BF16 精度,4 卡 H100 配置
vllm serve nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16 \
--kv-cache-dtype fp8 \
--tensor-parallel-size 4 \
--trust-remote-code \
--served-model-name nemotron \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--reasoning-parser nemotron_v3

然后用标准 OpenAI SDK 就能调用:

from openai import OpenAI
client = OpenAI(base_url="http://127.0.0.1:5000/v1", api_key="null")


resp = client.chat.completions.create(
model="nemotron",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Give me 3 bullet points about vLLM"}
],
temperature=0.7,
max_tokens=256,
)
print("Reasoning:", resp.choices[0].message.reasoning_content,
"\nContent:", resp.choices[0].message.content)

值得注意的是,Nemotron 3 Super 还支持Thinking Budget,可以精细控制推理时的 token 开销——不是所有任务都需要深度思考,简单任务省着点用。

老章说:Nemotron 3 Super 的定位很精准——不追求最强单点能力,而是在"效率×精度"的帕累托前沿找到最优解。120B 总参数只激活 12B,配合百万 token 上下文,就是为多智能体工作流量身定制的。如果你在搞 Agent 编排、Tool-Calling Pipeline,这个模型值得认真评估。
三、P-EAGLE:推测解码再提速,一次前向搞定所有草稿 token

推测解码(Speculative Decoding)是目前加速大模型推理最有效的技术方向之一。EAGLE 系列是这个领域的 SOTA 方法,vLLM 也一直在深度集成。但 EAGLE 有一个绕不开的瓶颈——草稿生成是自回归的。你想预测 K 个 token,就得跑 K 次前向传播。当你想预测得更多的时候,草稿模型本身的延迟反而成了新的瓶颈。

先看效果——下图是 P-EAGLE 在 NVIDIA B200 上 SPEED-BENCH 的性能对比,一眼就能看出差距:


P-EAGLE SPEED-BENCH 性能对比

P-EAGLE 的解决方案非常直接:把自回归草稿生成改成并行生成——一次前向传播,输出全部 K 个草稿 token

怎么做到的?

下图是 P-EAGLE 的架构原理图,左侧是传统 EAGLE 的自回归方式,右侧是 P-EAGLE 的并行方式:


P-EAGLE 架构原理

P-EAGLE 在预填充阶段和普通 EAGLE 一样,捕获目标模型的隐藏状态。关键在第二步——草稿生成阶段:

  • 对于下一个 token(NTP),输入和标准 EAGLE 完全一样

  • 对于第 2 到第 K 个位置(MTP),输入的 token embedding 和隐藏状态还不存在,怎么办?P-EAGLE 引入了两个可学习参数:共享的 mask token embedding 和共享的隐藏状态h_shared,作为占位符

所有位置一起通过 N 层 Transformer,一次性输出所有草稿 token。

长序列训练的挑战

训练 P-EAGLE 面临的最大挑战是内存。下图展示了 GPT-OSS 120B 在 UltraChat 数据集上的序列长度分布——中位数 3891 token,P90 达到 10800 token:


序列长度分布

训练 K 个并行组在长度为 N 的序列上,会产生 N×K 个位置。N=8192、K=8 时,一个训练样本就有 65536 个位置,注意力矩阵要 8GB。P-EAGLE 通过序列分区算法解决了这个问题。

实测效果

三组基准测试的详细结果如下:

MT-Bench 上不同并发下的吞吐量对比,P-EAGLE 在所有并发度上都领先:


MT-Bench 吞吐量对比

HumanEval 代码合成任务,P-EAGLE 的优势在高并发时依然明显:


HumanEval 吞吐量对比

SPEED-Bench 长文本代码生成任务,P-EAGLE 在 c=1 时加速比高达 1.69x:


Speed-Bench 吞吐量对比

一个很有意思的发现:P-EAGLE 在 K=7 时达到峰值性能,而 EAGLE-3 在 K=3 时就封顶了。因为并行生成不管 K 多大,前向传播次数都是 1 次——越深的推测,P-EAGLE 的优势越大。

接受长度(AL)的对比更能说明问题。在 K=7 时:

  • HumanEval:P-EAGLE3.94vs EAGLE-3 3.03(高 30%)

  • SPEED-Bench:3.38vs 2.59(高 31%)

  • MT-Bench:3.70vs 3.27(高 13%)

使用方法

只需要两步:

  1. 下载(或训练)并行版草稿头,HuggingFace 上已有 GPT-OSS 120B、GPT-OSS 20B、Qwen3-Coder 30B 的预训练版本

  2. 加一个配置参数:

vllm serve openai/gpt-oss-20b \
--speculative-config '{"method": "eagle3", "model": "amazon/gpt-oss-20b-p-eagle", "num_speculative_tokens": 5, "parallel_drafting": true}'

就这么简单,"parallel_drafting": true一行搞定。

老章说:P-EAGLE 的思路很优雅——既然草稿模型的序列生成是瓶颈,那就不序列生成了。用可学习占位符+并行 Transformer 一次搞定。代价是需要重新训练草稿头,但 Amazon 已经放出了多个预训练版本。对于生产环境中追求极致延迟的场景,这个升级非常值得尝试。
四、Model Runner V2:vLLM 核心引擎的彻底重构

如果前面三个更新是"在 vLLM 之上做加法",那 Model Runner V2(MRV2)就是对 vLLM 核心引擎的彻底重写

这是自去年 vLLM V1 发布以来最大的架构升级。官方毫不客气地说:V1 的 model runner 积累了大量技术债,持久化状态和模型输入耦合、异步调度是后来打的补丁、CPU 端做了太多本该 GPU 干的活、代码变得越来越难维护。

MRV2 围绕三个核心原则重建:模块化、GPU 原生、异步优先

1. 更好的持久化批处理 + GPU 原生输入准备

V1 直接把持久化状态当作模型输入,导致布局约束和复杂的状态管理。下图展示了 V1 中请求顺序与 Block Table 布局紧耦合的问题:


V1 持久化批处理设计

MRV2解耦了持久化请求状态和每步输入张量——每个活跃请求在固定大小的状态表中有稳定的行,每步按当前顺序从中提取输入。下图可以清晰看到新设计如何通过 gather 操作生成正确排序的输入:


MRV2 持久化批处理设计

更关键的是,输入准备移到了 GPU 上,用 Triton Kernel 完成。input_idspositionsquery_start_locseq_lens这些张量现在直接在 GPU 上构建,不再走 CPU。

2. 异步优先设计

V1 的异步调度是"后来加上去的",MRV2 把它作为核心设计约束——目标是 CPU 和 GPU 之间零同步。

下图是标准的异步调度时序,CPU 在 step N+1 做准备的同时 GPU 执行 step N:


异步调度时序

最直接的好处:异步调度和推测解码终于可以干净地共存了。下图展示了 MRV2 如何通过 GPU 端输入准备直接消费拒绝采样结果,消除所有同步点:


MRV2 推测解码异步优化 3. Triton 原生采样器

MRV2 重写了采样逻辑:

  • Gumbel-Max 采样核,避免显式 softmax 计算

  • 更高效的 top-k logprobs,先找 top-k logits 再算 logprobs

  • 更节省内存的 prompt logprobs,支持单个 prompt 内的分块处理

  • 更好的推测解码兼容性

4. 更强的模块化

V1 的gpu_model_runner.py已经膨胀到6700 行。MRV2 引入了ModelState抽象接口:

class ModelState(ABC):
def add_request(self, ...):
def remove_request(self, ...):
def get_mm_embeddings(self, ...):
def prepare_inputs(self, ...):
def prepare_attn(self, ...):
def prepare_dummy_inputs(self, ...):
...

把模型特定逻辑(多模态嵌入、额外输入、注意力元数据)和通用执行路径分离。最大的文件现在控制在1300 行以内

这对 DeepSeek、Qwen、Kimi 等不同模型系列的开发者来说太重要了——你只需要关心自己模型的ModelState,不用读几千行无关代码。

性能实测

用小模型 Qwen3-0.6B 在 GB200 上跑(故意用小模型放大 CPU 开销的影响),吞吐量直接从 16K 飙到 25K:


MRV2 吞吐量提升 56.2%

推测解码场景:4 卡 GB200 + GLM-4.7-FP8 + MTP=1,TPOT 降低 6.3%:


MRV2 TPOT 对比

提升来自零同步设计——推测解码启用后 CPU-GPU 同步点完全消除。

现在就能试

export VLLM_USE_V2_MODEL_RUNNER=1
# 然后正常使用 vLLM,无需改任何代码

不过需要注意,MRV2 目前还是实验性质,v0.18.0 中有几项功能暂不支持:线性注意力模型(Qwen3.5、Nemotron 3 Super)、Eagle/Eagle3/MTP 之外的推测解码方法、LoRA 等。

老章说:MRV2 是一次"伤筋动骨"的重构,但方向完全正确。把输入准备搬到 GPU、实现零同步异步调度、引入 ModelState 解耦——这些改进不是"锦上添花",而是为未来异构模型+推测解码+多模态并存的复杂场景打地基。56% 的吞吐提升只是开始,随着更多特性迁移到 MRV2,收益还会继续释放。
总结:vLLM 2026 年 3 月全景

更新

发布日期

一句话概括

Semantic Router v0.2 Athena

3月10日

从路由器进化成多模型编排的系统大脑

Nemotron 3 Super

3月11日

120B 总参/12B 激活,为多智能体量身打造的 MoE 模型

P-EAGLE

3月13日

一次前向搞定所有草稿 token,推测解码不再有序列瓶颈

Model Runner V2

3月24日

vLLM 核心引擎彻底重构,GPU 原生+零同步+强模块化

这四连发放在一起看,vLLM 的战略意图非常清晰:

  • 底层——MRV2 重建引擎地基,为更复杂的推理需求做准备

  • 加速——P-EAGLE 在推测解码这个关键优化方向上再突破天花板

  • 模型——Nemotron 3 Super 补全高效 MoE 模型的生态位

  • 上层——Semantic Router Athena 开始做多模型编排和智能体调度

从"推理引擎"到"推理平台",vLLM 正在完成一次从工具到生态的跃迁。

  • Semantic Router v0.2 Athena:https://vllm.ai/blog/v0.2-vllm-sr-athena-release

  • Nemotron 3 Super:https://vllm.ai/blog/nemotron-3-super

  • P-EAGLE:https://vllm.ai/blog/p-eagle

  • Model Runner V2:https://vllm.ai/blog/mrv2

  • vLLM 官网:https://vllm.ai

  • Semantic Router GitHub:https://github.com/vllm-project/semantic-router

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
必须给中国个交代,解放军重磅发声,航母随时前出,休想蒙混过关

必须给中国个交代,解放军重磅发声,航母随时前出,休想蒙混过关

李健政观察
2026-03-28 12:51:04
意甲女主播秀脚法惊艳全场,网友:比罗马球员强多了

意甲女主播秀脚法惊艳全场,网友:比罗马球员强多了

乐道足球
2026-03-28 12:57:54
台湾地区,长期阻碍中国统一就是马英九。这个人非常之狡猾!

台湾地区,长期阻碍中国统一就是马英九。这个人非常之狡猾!

安安说
2026-03-28 11:40:47
丧夫仅5个月,49岁翁帆突传“喜讯”高调露面,状态好到出人意料

丧夫仅5个月,49岁翁帆突传“喜讯”高调露面,状态好到出人意料

冷紫葉
2026-03-24 19:12:36
于东来牵手妻子登山,不坐豪车不请保镖,怀里的老婆才是真宝藏

于东来牵手妻子登山,不坐豪车不请保镖,怀里的老婆才是真宝藏

嘴角上翘的弧度
2026-03-22 07:26:47
士兵当将军有多难?四川阿坝5000人参加红军,仅1人55年获大校衔

士兵当将军有多难?四川阿坝5000人参加红军,仅1人55年获大校衔

兴趣知识
2026-03-26 14:01:20
中方拒绝出席G7峰会,法国威胁上了:中国面临欧洲市场关闭的风险

中方拒绝出席G7峰会,法国威胁上了:中国面临欧洲市场关闭的风险

共工之锚
2026-03-28 00:29:53
女生要主动起来跟想象中完全不一样!网友:让我递毛巾 瞬间开窍了

女生要主动起来跟想象中完全不一样!网友:让我递毛巾 瞬间开窍了

另子维爱读史
2026-01-26 18:39:06
重磅!正式官宣!中科院分区表退出历史舞台!

重磅!正式官宣!中科院分区表退出历史舞台!

BioPeers
2026-03-28 06:57:34
风向变了!美国科技巨头纷纷表态,外媒:中国已经不愿意买了!

风向变了!美国科技巨头纷纷表态,外媒:中国已经不愿意买了!

王嚾晓
2026-03-28 17:10:41
周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

爆角追踪
2026-03-26 08:56:24
张庆鹏或下课!北控三大热门新帅曝光,谁能即插即用止住颓势

张庆鹏或下课!北控三大热门新帅曝光,谁能即插即用止住颓势

体育见习官
2026-03-28 17:55:54
孩子生病后买彩票中500万妈妈发声:孩子生病后家庭开支剧增,想着万一中奖能贴补点家用

孩子生病后买彩票中500万妈妈发声:孩子生病后家庭开支剧增,想着万一中奖能贴补点家用

观威海
2026-03-27 09:27:12
张雪峰猝逝后,2万家长抢购的17999元志愿卡谁来填?

张雪峰猝逝后,2万家长抢购的17999元志愿卡谁来填?

薛定谔的BUG
2026-03-28 12:04:50
贝克汉姆10亿美元球场将完工!2.6万粉色座椅,老婆维多利亚狂赞

贝克汉姆10亿美元球场将完工!2.6万粉色座椅,老婆维多利亚狂赞

仰卧撑FTUer
2026-03-27 12:35:04
“电子垃圾三件套”:收割中国男人的“智商税”?别再欺负男性了

“电子垃圾三件套”:收割中国男人的“智商税”?别再欺负男性了

有范又有料
2026-03-27 19:04:15
终于明白为啥大家都换苹果了,这5个核心优势,用过就再也回不去

终于明白为啥大家都换苹果了,这5个核心优势,用过就再也回不去

复转这些年
2026-03-15 23:05:42
普通人一生的存款标准

普通人一生的存款标准

捣蛋窝
2026-03-21 11:14:00
大衣哥直播在线人数4万,2岁孙子意外出镜,长得越来越不像朱小伟

大衣哥直播在线人数4万,2岁孙子意外出镜,长得越来越不像朱小伟

东方不败然多多
2026-03-28 14:42:17
我做风水先生40年,如今金盆洗手,有些实话不说,到死都闭不上眼

我做风水先生40年,如今金盆洗手,有些实话不说,到死都闭不上眼

千秋文化
2026-03-20 20:36:55
2026-03-28 18:47:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3293文章数 11117关注度
往期回顾 全部

科技要闻

遭中国学界"拉黑"后,这家AI顶会低头道歉

头条要闻

特朗普:北约没支持美打击伊朗 美国以后也不会帮北约

头条要闻

特朗普:北约没支持美打击伊朗 美国以后也不会帮北约

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

王一博改名上热搜!个人时代正式开启!

财经要闻

卧底"科技与狠活"培训:化工调味剂泛滥

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

数码
健康
旅游
时尚
亲子

数码要闻

绿联15W磁吸移动电源现身海外,有啥亮点?

干细胞抗衰4大误区,90%的人都中招

旅游要闻

挖兰笋、逛市集、听雅集……佘山兰笋文化季等你来打卡

龙虾来了,厌蠢症炸了

亲子要闻

爱玩沙子是孩子的天性,这套#太空沙玩具 在家就能实现玩沙子的快乐,关键比去游乐场玩干净卫生。#儿童玩...

无障碍浏览 进入关怀版