网易首页 > 网易号 > 正文 申请入驻

vLLM v0.19.1 补丁发布

0
分享至


vLLM 0.19.1 正式版发布了,这次是一个补丁版本,11 个 cherry-pick,主题非常集中:把 Transformers v5 正式拉进来,然后把 Gemma 4 的一堆坑填上。

v0.19.0 对 Gemma 4 做到了"发布当天可用",但"可用"和"好用"之间差着不少 bug

这次 v0.19.1 就是来还债的,可以说这是一个 Gemma 4 专项修复版本

变更

类型

一句话

Transformers v5 正式升级

生态

从兼容升级到正式依赖

Gemma 4 流式工具调用 JSON 损坏

修复

流式输出时部分分隔符导致无效 JSON

Gemma 4 流式 HTML 重复

修复

工具调用后 HTML 内容被重复输出

Gemma 4 流式布尔/数字值损坏

修复

跨 chunk 的布尔和数字值被截断

Gemma 4 推理解析 + 多轮工具调用

修复

推理解析器支持 adjust_request,修复多轮对话

Gemma 4 量化 MoE 支持

✨ 新功能

FP8 和 NVFP4 量化的 MoE 模型可以跑了

Gemma 4 Eagle3 推测解码

✨ 新功能

支持隐藏状态提取,可训练专属草稿模型

Gemma 4 LoRA 适配器加载

修复

LoRA 加载路径修正

Gemma 4 null 值转字符串

修复

裸 null 被错误转为 "null" 字符串

Gemma 4 PT 模型 token 重复

修复

预训练模型缺失 BOS token 导致输出重复

Kimi-K2.5 媒体占位符 token

修复

上游 config 和 tokenizer 的 ID 不一致

一、Transformers v5:从兼容到正式依赖

这个 PR(#30566)从 2025 年 12 月就开始做了,历时四个多月终于合入。

HuggingFace Transformers v5 是一次大版本升级,改了不少底层 API。

vLLM 作为最依赖 Transformers 生态的推理引擎,这次升级涉及面很广:

  • 模型加载方式变了 :配置注册、tokenizer 获取路径都有调整

  • 部分模型暂不兼容 :比如 XVERSE 的 tokenizer 在 v5 下会报错,暂时锁定了 transformers<=4.57

  • LoRA 加载路径修复 :适配器目录下没有 config.json 时不再报错

v0.19.0 已经做了大面积适配,但还是"兼容"状态

v0.19.1 把 Transformers v5.5.4 正式拉进依赖——如果你之前一直卡在 v4 不敢升,现在可以放心了

二、Gemma 4 工具调用:流式输出的六连修

Gemma 4 的工具调用在 v0.19.0 发布时就能用,但流式场景下问题一大堆:

Bug 1:部分分隔符导致无效 JSON(#38992)

Gemma 4 的工具调用格式用特殊分隔符标记参数

流式输出时,一个分隔符可能被拆成两个 chunk 发出去

前半截分隔符被当成普通文本输出,后半截又被正确识别,导致最终拼出来的 JSON 是坏的

修复方式:在流式输出中检测并剥离不完整的分隔符字符。

Bug 2:工具调用后 HTML 内容重复(#38909)

Gemma 4 在执行工具调用后继续生成 HTML 内容时,parser 内部会从缓冲的 delta 重建 current_text,导致已经发过的内容被重复发送。

修复方式:停止从缓冲 delta 重建文本,直接使用原始流。

Bug 3:跨 chunk 的布尔/数字值被截断(#39114)

工具调用参数如果是 truefalse 或数字,这些值可能跨两个 chunk 被拆开。比如 tru 在第一个 chunk,e 在第二个 chunk,parser 把 tru 当成了字符串。

修复方式:在流式模式下扣留冒号和后续空白字符,等值完整后再发送。

Bug 4:裸 null 被转成字符串 "null"(#39679)

_parse_gemma4_value 函数处理了 true/false 的裸值,但漏了 null。结果 param:null 被解析成 {"param": "null"} 而不是 {"param": null}

这会导致 tool_choice="auto"tool_choice=" " 产生不一致的输出——后者走了 guided decoding 能正确处理 JSON schema,前者不行。

修复方式:在值解析中补上 null 的处理。

Bug 5:多轮工具调用 + 推理模式修复(#39027)

这是最大的一个修复,解决了多个问题:

  • 新增了 Gemma 4 专用 chat template,正确编码工具结果,处理多轮对话中交替出现的工具调用和推理内容

  • 给 ReasoningParser 基类添加了 adjust_request() 方法——Gemma 4 用它来强制设置 skip_special_tokens=False ,保留边界 token

  • 修复了流式推理中 thought\n 前缀的剥离逻辑

  • 清理了 Anthropic Messages API 转换中产生的空 user 消息

Bug 6:LoRA 适配器加载失败(#38844)

Gemma4ForCausalLM 加载 LoRA 适配器时路径有误,现已修正。想在 Gemma 4 上微调+部署的同学,这个必须有。

❝ 老章说:这六个 bug 放一起看,就能理解为什么 Gemma 4 的工具调用在 v0.19.0 发布时被那么多人吐槽。流式 + 工具调用 + 特殊分隔符,这三个东西叠在一起,边界条件多到爆炸。如果你在用 Gemma 4 做 function calling,v0.19.1 是必升版本。
三、Gemma 4 量化 MoE:显存杀手终于被驯服了

Gemma 4 的 26B MoE 模型(实际激活 4B)跑起来并不重,但完整加载仍然需要不少显存。v0.19.1 正式支持了量化 MoE:

  • FP8 动态量化 (W8A8):RedHat 团队已经发布了现成的量化模型 gemma-4-26B-A4B-it-FP8-Dynamic

  • NVFP4 量化 (W4A4):更激进的压缩,gemma-4-26B-A4B-it-NVFP4

对应的 llm-compressor 也同步更新了,支持 Gemma 4 MoE 的专家级校准和量化流程。

四、Gemma 4 Eagle3 推测解码支持

上篇文章我详细讲了 vLLM v0.19.0 新增的隐藏状态提取功能

v0.19.1 把这个能力扩展到了 Gemma 4:

  • Gemma4Model 继承了 EagleModelMixin ,支持辅助隐藏状态的逐层收集

  • Gemma4ForCausalLMGemma4ForConditionalGeneration (多模态包装器)都实现了 SupportsEagle3 接口

  • 在推测解码配置验证的模型白名单中加入了 gemma4

这意味着你现在可以用上篇介绍的那套流程,为 Gemma 4 训练专属的 Eagle3 草稿模型,实现定制化的推测解码加速。

五、Gemma 4 PT 模型的 token 重复问题

这个 bug 专门针对 Gemma 4 的预训练模型(不带 -it 后缀的那些)

问题根源:预训练模型没有 chat template,走的是原始 completions 接口。但 Gemma 4 的 ProcessingInfo 默认设置了 add_special_tokens=False——这个设置对 IT(指令微调)模型是对的,因为 chat template 渲染时已经加了 BOS token。可 PT 模型没有 template,BOS token 就丢了。

缺少 BOS token 的后果:模型输出开始疯狂重复。

修复方式:动态检测模型是否有 chat_template,没有的话自动设 add_special_tokens=True,确保 BOS token 被正确注入。

六、Kimi-K2.5 媒体占位符修复

这个跟 Gemma 4 无关,但也值得提一嘴

月之暗面的 Kimi-K2.5 模型的 config.json 里,media_placeholder_token_id 写的是 163605,但 tokenizer 实际映射的 <|media_pad|> ID 是 163602

为什么不一致?因为 Kimi-K2.5 没有附带 tokenizer.json,Transformers 从 tiktoken 自动转换时,特殊 token 的 ID 被悄悄压缩了。

修复方式:在初始化时从 tokenizer 重新解析 token ID,如果和 config 不一致就自动修正。

升级建议

如果你不用 Gemma 4,v0.19.0 到 v0.19.1 的变化对你几乎没有影响,可以按需升级

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美军轰炸40天,不如美军封锁5天,伊朗主动开放霍尔木兹海峡

美军轰炸40天,不如美军封锁5天,伊朗主动开放霍尔木兹海峡

民间胡扯老哥
2026-04-18 05:11:45
英海上贸易行动办公室:霍尔木兹海峡附近发生多起船只遇袭事件

英海上贸易行动办公室:霍尔木兹海峡附近发生多起船只遇袭事件

界面新闻
2026-04-18 22:59:17
5大超巨同登一阵!NBA最恐怖时代降临,这支新王要统治未来10年!

5大超巨同登一阵!NBA最恐怖时代降临,这支新王要统治未来10年!

茅塞盾开本尊
2026-04-18 14:06:38
建国后第一个撤销的省是?平原省

建国后第一个撤销的省是?平原省

《中国国家历史》
2026-04-17 19:49:05
它靠“能忍”成为最长寿脊椎动物:青春期心脏就严重病变,也不耽误活到四百岁

它靠“能忍”成为最长寿脊椎动物:青春期心脏就严重病变,也不耽误活到四百岁

尹烨
2026-04-16 07:33:44
0-1落后,杜兰特如果率领火箭击败湖人晋级,那么将成为NBA的GOAT

0-1落后,杜兰特如果率领火箭击败湖人晋级,那么将成为NBA的GOAT

铁甲西奇
2026-04-19 14:51:51
许家印不是在宴请何小鹏,他是在演示什么叫权力

许家印不是在宴请何小鹏,他是在演示什么叫权力

超先声
2026-04-18 09:48:51
四川省副省长徐芝文,已任西藏自治区党委常委、宣传部部长

四川省副省长徐芝文,已任西藏自治区党委常委、宣传部部长

新京报
2026-04-18 16:07:30
“魔幻”接连发生,老百姓已经麻木了!

“魔幻”接连发生,老百姓已经麻木了!

胖胖说他不胖
2026-04-18 09:00:31
9岁小酒窝职业假笑浓妆营业,评论区差评一片,董璇后悔了吗?

9岁小酒窝职业假笑浓妆营业,评论区差评一片,董璇后悔了吗?

蒂蒂茱家
2026-04-17 15:28:38
定了!4月17日发改委官宣:工资假期收入全上调

定了!4月17日发改委官宣:工资假期收入全上调

夜深爱杂谈
2026-04-19 10:01:09
“不差钱”的DeepSeek要融资了?投资人:或为期权定价留人才

“不差钱”的DeepSeek要融资了?投资人:或为期权定价留人才

第一财经资讯
2026-04-19 13:10:09
老同学聚会班花阴阳我:同学中就属你混得差,我:你爸都是我员工

老同学聚会班花阴阳我:同学中就属你混得差,我:你爸都是我员工

红豆讲堂
2025-04-23 11:05:46
历经27年艰难谈判,中国最终做出让步,中吉乌铁路为何非修不可?

历经27年艰难谈判,中国最终做出让步,中吉乌铁路为何非修不可?

霁寒飘雪
2026-04-18 09:35:22
梅德韦杰夫和绍伊古威胁打击欧洲国家,这说明什么?

梅德韦杰夫和绍伊古威胁打击欧洲国家,这说明什么?

山河路口
2026-04-17 16:38:44
八千里路云和月:黄长官用孙怀义的死算计张云魁,才知丁玉娇入党

八千里路云和月:黄长官用孙怀义的死算计张云魁,才知丁玉娇入党

慢半拍sir
2026-04-19 11:19:01
再扮霸王亮相“苏超”,何润东回应为何不骑马

再扮霸王亮相“苏超”,何润东回应为何不骑马

中国日报
2026-04-19 15:09:22
她因长得漂亮,被日本兵拖进炮楼,一晚上遭受50多个鬼子的折磨

她因长得漂亮,被日本兵拖进炮楼,一晚上遭受50多个鬼子的折磨

凡人聊史
2026-04-11 03:06:57
一战成名!阿森纳弃将成曼联铁闸,200万欧身价平替6000万欧约罗

一战成名!阿森纳弃将成曼联铁闸,200万欧身价平替6000万欧约罗

体坛鉴春秋
2026-04-19 11:51:09
阿斯:皇马去年12月就想换掉阿隆索,如今认为白白浪费一个月

阿斯:皇马去年12月就想换掉阿隆索,如今认为白白浪费一个月

懂球帝
2026-04-19 04:48:55
2026-04-19 15:43:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3331文章数 11136关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

张天爱评论区沦陷!被曝卷入小三风波

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

亲子
手机
健康
时尚
房产

亲子要闻

不能隐瞒爸爸妈妈的四件事儿

手机要闻

OPPO Find X9s Pro首发天马全新天工屏:全场景1nit暗光护眼 频闪无感

干细胞抗衰4大误区,90%的人都中招

3组出游穿搭,惊艳你的假期!

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

无障碍浏览 进入关怀版