网易首页 > 网易号 > 正文 申请入驻

lmdeploy v0.10.2版本更新详解:新特性、性能优化与重要修复

0
分享至


lmdeploy v0.10.2已正式发布,本次更新带来了多个新功能、性能提升以及重要的 Bug 修复,同时在架构与依赖环境方面也进行了优化。以下为详细更新内容解析:

新功能

  1. 1.新增 /generate API
    v0.10.2版本中新增了/generateAPI,为开发者提供更便捷的文本生成接口,简化调用流程。

  2. 2.TurboMind 引擎的 xgrammar 引导解码
    更新中加入了基于xgrammar的引导解码功能,适用于 TurboMind 引擎,可更精确控制生成输出结构。

  3. 3.PyTorch 引擎的 xgrammar 引导解码重实现
    对 PyTorch 引擎的引导解码进行了重构,以统一与 TurboMind 引擎在功能逻辑上的一致性。

性能与功能改进
  1. 1.Ascend 芯片支持 aclgraph
    进一步提升在昇腾设备上的兼容性与推理性能。

  2. 2.推理引擎与异步引擎之间增量输出性能优化
    利用推理过程的增量输出能力,在推理引擎与异步引擎之间提升整体吞吐与响应速度。

  3. 3.优化 multinomial 采样
    改进采样算法,减少延迟,提高生成质量与效率。

Bug 修复
  • zmqrpc 限制为 localhost
    修复通信绑定范围问题,提高安全性。

  • 修复 dp+tp 预热问题
    消除分布式并行与张量并行预热过程中的异常。

  • 修复 dllm 长上下文问题
    改善长上下文场景的稳定性与正确性。

  • 修复 GPT-OSS 流式工具调用解析错误
    保证工具调用过程的解析与执行正确。

  • 调整资源释放逻辑至推理引擎
    优化异步与推理引擎的资源管理,避免潜在泄露。

  • 修复引导解码过程中 tokenizer 解析错误
    保证引导解码功能的稳定性。

  • 修复工具调用与多模态输入的 message content 字段处理问题
    增强多模态与工具调用消息结构的正确性。

  • 修复 kimi-k2 构建问题
    改善构建稳定性。

  • 跳过不必要的采样并修复随机偏移
    减少冗余计算并解决偏移误差。

  • 修复 ignore_special_tokens 为 False 时 stop_token_string 重复问题
    保证生成结果准确无重复。

其他更新
  • • 移除 CUDA 11.8 支持,升级 CI/CD 至CUDA 12.6/12.8

  • • 删除profile_generation.py及相关测试用例

  • • 重构评测流程,将 eval 拆分为 API 评测,并新增 h800 测试工作流

  • • 新增NVIDIA Jetson平台的 Docker 镜像

  • • 重构 API 测试为llm judger评测

  • • 检查并优化颜色日志输出

  • • 更新 API 测试集,支持 HLE 与 LCB 数据集

  • • 更新昇腾环境依赖要求

  • • 版本号提升至v0.10.2

总结

本次lmdeploy v0.10.2的更新不仅引入了用户期待的/generate API和引导解码功能,还在推理性能、采样效率以及兼容性方面都做了显著提升。同时通过系列 Bug 修复,进一步保证了在多场景下的稳定性与准确性。如果你正在使用 lmdeploy,建议尽快升级到 v0.10.2,以获得更好的体验与支持。

我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。 欢迎关注“福大大架构师每日一题”,发消息可获得面试资料,让AI助力您的未来发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今天,北京下雪了!现场视频——

今天,北京下雪了!现场视频——

首都之窗
2025-11-07 14:27:10
不雅视频被爆是周一上班时间,卫健委通报:情况基本属实,已停职

不雅视频被爆是周一上班时间,卫健委通报:情况基本属实,已停职

何慕白
2025-11-07 09:59:48
福建舰入列!搭载的歼15和歼35数量,比越南全国的四代机都多

福建舰入列!搭载的歼15和歼35数量,比越南全国的四代机都多

今墨缘
2025-11-07 13:39:47
历史第一人!马斯克锁定万亿薪酬包,但得先完成这些「不可能任务」

历史第一人!马斯克锁定万亿薪酬包,但得先完成这些「不可能任务」

爱范儿
2025-11-07 09:25:17
上海浦东生态环境局党组成员、副局长薛加良接受审查调查

上海浦东生态环境局党组成员、副局长薛加良接受审查调查

澎湃新闻
2025-11-07 15:58:06
湖南某医院的17分钟不雅视频,到底是谁拍的?

湖南某医院的17分钟不雅视频,到底是谁拍的?

麦杰逊
2025-11-07 11:38:59
太阳报:德利赫特妻子晒全裸海滩照,可能面临封号危险

太阳报:德利赫特妻子晒全裸海滩照,可能面临封号危险

懂球帝
2025-11-06 13:34:15
沙特买F35,不买歼35,其实对中国是大好事,对美国反而是大坏事

沙特买F35,不买歼35,其实对中国是大好事,对美国反而是大坏事

利刃号
2025-11-07 18:46:07
1959年黄克诚提议:炮击金门的炮弹太费钱,省点用,主席笑骂抠门

1959年黄克诚提议:炮击金门的炮弹太费钱,省点用,主席笑骂抠门

鹤羽说个事
2025-11-07 16:05:54
最新GDP!全国50强城市,又变了

最新GDP!全国50强城市,又变了

国民经略
2025-11-07 11:40:53
阿莫林回应C罗对曼联的批评

阿莫林回应C罗对曼联的批评

星耀国际足坛
2025-11-07 12:23:43
火箭灰熊或酝酿5换1交易,“双兰特”在休城合体?还让别人怎么打

火箭灰熊或酝酿5换1交易,“双兰特”在休城合体?还让别人怎么打

毒舌NBA
2025-11-06 21:22:54
凤凰记者:波克罗夫斯克没有被俄军包围

凤凰记者:波克罗夫斯克没有被俄军包围

史政先锋
2025-11-05 21:08:27
国锦赛最新战况:吴宜泽与赵心童激战4-4,晚间决战悬念迭起

国锦赛最新战况:吴宜泽与赵心童激战4-4,晚间决战悬念迭起

精彩背后
2025-11-07 16:51:09
004核航母进展太快,全面超越美国“福特”级,问鼎世界第一

004核航母进展太快,全面超越美国“福特”级,问鼎世界第一

书中自有颜如玉
2025-11-07 12:02:24
全新宝马X5要来了!谍照、渲染图均已曝光,这外形还能大卖?

全新宝马X5要来了!谍照、渲染图均已曝光,这外形还能大卖?

优视汽车
2025-11-07 16:30:43
吃相难看啊!商家们祭出“钢板”吊牌,“白嫖党”依旧招摇过市…

吃相难看啊!商家们祭出“钢板”吊牌,“白嫖党”依旧招摇过市…

火山诗话
2025-11-06 05:54:56
费尔南多:我的名字没有太深的意义,中国人也有很多四字名字

费尔南多:我的名字没有太深的意义,中国人也有很多四字名字

懂球帝
2025-11-07 12:15:03
24投22中狂砍55分9板!张子宇这2战杀疯了:无愧女篮大杀器!

24投22中狂砍55分9板!张子宇这2战杀疯了:无愧女篮大杀器!

篮球快餐车
2025-11-07 03:56:32
预算30万买新能源越野车,内外一新的坦克400,值得入手吗?

预算30万买新能源越野车,内外一新的坦克400,值得入手吗?

汽车情报
2025-11-07 18:34:30
2025-11-07 19:27:00
moonfdd incentive-icons
moonfdd
福大大架构师每日一题
1025文章数 50关注度
往期回顾 全部

科技要闻

75%赞成!特斯拉股东同意马斯克天价薪酬

头条要闻

两部门发布重磅公告 涉及超硬材料、稀土等出口管制

头条要闻

两部门发布重磅公告 涉及超硬材料、稀土等出口管制

体育要闻

是天才更是强者,18岁的全红婵迈过三道坎

娱乐要闻

王家卫的“看人下菜碟”?

财经要闻

荷兰政府:安世中国将很快恢复芯片供应

汽车要闻

美式豪华就是舒适省心 林肯航海家场地试驾

态度原创

旅游
游戏
亲子
家居
公开课

旅游要闻

“青睐绵阳 悠游周末”文旅品牌发布 绵阳拟打造周末微度假新体验

又送百万奖金?为什么厂商都开始“撒钱”给二创

亲子要闻

嘴唇干得像树皮?中医给你讲明白!

家居要闻

现代自由 功能美学居所

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版