网易首页 > 网易号 > 正文 申请入驻

vLLM 赢完了:登顶开源推理引擎No1

0
分享至

vLLM 是咱们公众号的常客了,关于它我之前写过:

今天聊点新消息——vLLM 真的赢完了

Artificial Analysis 把全球推理供应商按吞吐速度做了个排行榜,DigitalOcean 用 vLLM 跑出来的部署直接登顶,三个前沿开源模型上全部第一


vLLM 登顶 Artificial Analysis 数据

上周 DigitalOcean 自己发了一篇推理基准测试,涉及三个前沿开源模型:

DeepSeek V3.2:单用户输出速度峰值 230 TPS,是大多数供应商的 4 倍以上

Qwen 3.5 397B:在 Artificial Analysis 测的 12 家供应商里第一,10,000 token prompt 的 TTFT 小于 1 秒

MiniMax-M2.5:同样登顶

底下跑的引擎是谁?vLLM

老章感受:

"开源引擎打赢闭源全家桶"这件事,以前大家觉得是理想,现在变成了榜单事实

而且关键是——这些优化全在 vLLM main 分支或正在合入,不是私有 fork

所以你拿 vLLM 自己部署,理论上能复现这些数字

vLLM 怎么做到的

按模型一一拆,每个模型一个瓶颈,一个对应解法:

1. DeepSeek V3.2:低 batch 下的内核融合

在低 batch size 下,DeepSeek V3.2 卡在 GPU kernel launch overhead,不是算力

每层 Transformer 要发 30 多个独立 kernel——归一化、rotary embedding、量化、KV cache 写入,每个 kernel 本身在 GPU 上是微秒级,但 launch 成本叠起来比计算还大

vLLM 的做法是沿 attention 路径做 op fusion,把 Q/KV 归一化、Q/KV 的 rotary embedding、indexer 的 layer norm + rotary、FP8 量化、KV cache 写入合到两个 fused kernel


DSv3.2 attention-path fusion

每层 kernel 数从 ~33 砍到 ~10,batch size 1 时 1.28× 加速(85.8 → 109.3 tok/s on 4× GB200,无 MTP)

在 8× B300 单节点 concurrency=1 下:

  • 不开 MTP(TP=8):125 tok/s

  • 开 MTP=1(TP=8):234 tok/s(draft 接受率约 90%)

  • prefill/decode disaggregation(TP=4 + TP=4 + MTP=3): 262 tok/s

外加:

  • 新的 router GEMM kernel ,专门为 DSv3 MoE routing 维度优化,batch 1 再加 6%(PR )

  • 稀疏 attention 的 TopK kernel ,按 sequence length 自动选算法,单 CUDA graph 适配所有情况,128K 上下文 decode 单 token 延迟 下降17%(PR )

这套同样喂给了 vLLM 的 DeepSeek V4 支持,Q RoPE + quant 和 QK norm 的 fusion 直接复用

下图是 Artificial Analysis 上 DeepSeek V3.2 各供应商的 output speed 对比,vLLM 那条直接拉爆:


DSv3.2 Non-Reasoning DSv3.2 Reasoning

2. MiniMax-M2.5:EAGLE3 + 定向 kernel fusion

针对 MiniMax-M2.5 自带的特殊架构,vLLM 团队做了:

  • 定向 kernel fusion

  • 自训的 EAGLE3 draft model :用开源的 TorchSpec + vLLM 训出来,虽然主模型架构独特,但 draft 模型流程是通用的

  • 关键彩蛋: 同一个 draft 也能用在 M2.7 上 ,因为架构一致

3. Qwen 3.5 397B:attention + normalization 路径融合

针对 Qwen 3.5 的 linear-attention 路径做定向 fusion,配合 attention 和 normalization 优化,吃下榜单第一

为什么这件事重要

业界常见的假设是:生产级推理性能要靠私有栈

这次 Artificial Analysis 的榜单直接打脸——一个社区驱动的开源引擎,跑在同样的 NVIDIA Blackwell Ultra 硬件上,把所有商业方案按在地上

而且优化方法完全公开——你想知道为什么快,去看 vLLM PR

总接

vLLM 这一年的进化路径大家都看在眼里:

  • 从"性能不输 TGI"

  • 到"吃下 LLaMA / Qwen / DeepSeek / MiniMax"

  • 到"Omni 全模态"

  • 到现在"Artificial Analysis 排行第一"

它做对了一件事——性能优化的代码留在主仓

任何商业方案最大的诱惑都是私有化补丁,vLLM 团队这一年顶住了这个诱惑,结果就是社区粘性越来越强,企业贡献 PR 越来越多,性能也水涨船高

如果你还在用闭源推理服务,可以认真重新评估一下了

如果你是企业自部署,这是 vLLM 的最佳时机

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重庆这一天,方媛精致土,袁咏仪拎25万包,一身朴素的周涛太吸睛

重庆这一天,方媛精致土,袁咏仪拎25万包,一身朴素的周涛太吸睛

趣文说娱
2026-05-12 21:10:58
李连杰面相骤变,换血换心传闻背后原因曝光太令人心酸

李连杰面相骤变,换血换心传闻背后原因曝光太令人心酸

梦在深巷qw
2026-05-14 16:05:44
80后家长发明“防早恋”发型,女儿面如死灰,网友都看不下去了

80后家长发明“防早恋”发型,女儿面如死灰,网友都看不下去了

妍妍教育日记
2026-04-27 09:20:13
估计我们接机的人也有点懵,马斯克,你是不是走错片场了?

估计我们接机的人也有点懵,马斯克,你是不是走错片场了?

做个平凡的轩友
2026-05-14 15:00:08
皇马训练视频疯传,“姆巴佩帮”和“维尼修斯帮”似乎泾渭分明

皇马训练视频疯传,“姆巴佩帮”和“维尼修斯帮”似乎泾渭分明

懂球帝
2026-05-14 01:38:38
坐标上海!被裁失业后的生活,引炸评论区,大家同为天涯沦落人…

坐标上海!被裁失业后的生活,引炸评论区,大家同为天涯沦落人…

慧翔百科
2026-05-13 11:30:11
小米SU7 Ultra挖孔机盖案一审宣判:小米夸大宣传但不构成欺诈,退还2万元定金

小米SU7 Ultra挖孔机盖案一审宣判:小米夸大宣传但不构成欺诈,退还2万元定金

红星新闻
2026-05-13 20:49:05
1400万妖星打脸米兰3600万水货!齐沃只用一年,把国米半成品炼成核心

1400万妖星打脸米兰3600万水货!齐沃只用一年,把国米半成品炼成核心

顺静自然
2026-05-14 18:33:53
支付宝更新,终于互通了!

支付宝更新,终于互通了!

果粉俱乐部
2026-05-14 13:10:04
刚和老公离婚,弟弟打来电话:你2万工资转给我,给我儿子交学费

刚和老公离婚,弟弟打来电话:你2万工资转给我,给我儿子交学费

千秋文化
2026-05-10 19:56:41
伊斯科泪洒赛场:率贝蒂斯时隔21年重返欧冠,昔日天才终迎救赎

伊斯科泪洒赛场:率贝蒂斯时隔21年重返欧冠,昔日天才终迎救赎

星耀国际足坛
2026-05-14 00:35:56
U17亚洲杯:中朝对决首发,日本4-0胜澳洲进决赛

U17亚洲杯:中朝对决首发,日本4-0胜澳洲进决赛

余憁搞笑段子
2026-05-14 19:10:54
美巴28亿签15年稀土协议,中国买家被终止合作

美巴28亿签15年稀土协议,中国买家被终止合作

愿你余生安好嘴角带笑
2026-05-14 07:18:51
“扶弟魔”姐姐十年买房又给钱,却被弟弟一怒砍杀:钱给的不够花

“扶弟魔”姐姐十年买房又给钱,却被弟弟一怒砍杀:钱给的不够花

莫地方
2026-05-13 00:40:03
不用中国帮忙,特朗普信誓旦旦,鲁比奥的一番话,却露了美国底牌

不用中国帮忙,特朗普信誓旦旦,鲁比奥的一番话,却露了美国底牌

无意争春
2026-05-14 19:12:23
媒体人:有几支CBA俱乐部对广州外教米切尔感兴趣 希望邀请他执教

媒体人:有几支CBA俱乐部对广州外教米切尔感兴趣 希望邀请他执教

狼叔评论
2026-05-14 15:14:03
又跌了!这类人今年投资注定很难!

又跌了!这类人今年投资注定很难!

米筐投资
2026-05-14 07:08:14
世界第1遗憾落选亚运,国乒新规曝光,最后一个名额这2人较量

世界第1遗憾落选亚运,国乒新规曝光,最后一个名额这2人较量

酷侃体坛
2026-05-14 13:13:15
国乒一天两女将离队,曾横扫日本天才,孙颖莎含泪送别

国乒一天两女将离队,曾横扫日本天才,孙颖莎含泪送别

生活新鲜市
2026-05-14 18:34:37
特朗普带大半个内阁飞北京,唯独把这个人留在空荡荡的白宫看家

特朗普带大半个内阁飞北京,唯独把这个人留在空荡荡的白宫看家

爱下厨的阿酾
2026-05-14 18:01:50
2026-05-14 19:55:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3402文章数 11151关注度
往期回顾 全部

科技要闻

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

头条要闻

外媒询问中方对鲁比奥的制裁是否已经解除 外交部回应

头条要闻

外媒询问中方对鲁比奥的制裁是否已经解除 外交部回应

体育要闻

争议抽象天王山,和季后赛最稳定中锋

娱乐要闻

何九华官宣当爸!全程不提孩子妈

财经要闻

李强会见美国工商界代表

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

家居
游戏
数码
艺术
军事航空

家居要闻

精神奢享 对话塔尖需求

LPL第二赛段:不拖的涅槃,就是好涅槃!LNG零封LGD

数码要闻

万色生辉入画屏:实拍海信UX2026款RGB-Mini LED时代旗舰电视

艺术要闻

美国务卿鲁比奥点赞中式美学,实景令人惊叹!

军事要闻

美以伊战争期间以总理密访阿联酋

无障碍浏览 进入关怀版