![]()
lmdeploy v0.10.2已正式发布,本次更新带来了多个新功能、性能提升以及重要的 Bug 修复,同时在架构与依赖环境方面也进行了优化。以下为详细更新内容解析:
新功能
1.新增 /generate API
v0.10.2版本中新增了/generateAPI,为开发者提供更便捷的文本生成接口,简化调用流程。2.TurboMind 引擎的 xgrammar 引导解码
更新中加入了基于xgrammar的引导解码功能,适用于 TurboMind 引擎,可更精确控制生成输出结构。3.PyTorch 引擎的 xgrammar 引导解码重实现
对 PyTorch 引擎的引导解码进行了重构,以统一与 TurboMind 引擎在功能逻辑上的一致性。
1.Ascend 芯片支持 aclgraph
进一步提升在昇腾设备上的兼容性与推理性能。2.推理引擎与异步引擎之间增量输出性能优化
利用推理过程的增量输出能力,在推理引擎与异步引擎之间提升整体吞吐与响应速度。3.优化 multinomial 采样
改进采样算法,减少延迟,提高生成质量与效率。
•zmqrpc 限制为 localhost
修复通信绑定范围问题,提高安全性。•修复 dp+tp 预热问题
消除分布式并行与张量并行预热过程中的异常。•修复 dllm 长上下文问题
改善长上下文场景的稳定性与正确性。•修复 GPT-OSS 流式工具调用解析错误
保证工具调用过程的解析与执行正确。•调整资源释放逻辑至推理引擎
优化异步与推理引擎的资源管理,避免潜在泄露。•修复引导解码过程中 tokenizer 解析错误
保证引导解码功能的稳定性。•修复工具调用与多模态输入的 message content 字段处理问题
增强多模态与工具调用消息结构的正确性。•修复 kimi-k2 构建问题
改善构建稳定性。•跳过不必要的采样并修复随机偏移
减少冗余计算并解决偏移误差。•修复 ignore_special_tokens 为 False 时 stop_token_string 重复问题
保证生成结果准确无重复。
• 移除 CUDA 11.8 支持,升级 CI/CD 至CUDA 12.6/12.8
• 删除
profile_generation.py及相关测试用例• 重构评测流程,将 eval 拆分为 API 评测,并新增 h800 测试工作流
• 新增NVIDIA Jetson平台的 Docker 镜像
• 重构 API 测试为llm judger评测
• 检查并优化颜色日志输出
• 更新 API 测试集,支持 HLE 与 LCB 数据集
• 更新昇腾环境依赖要求
• 版本号提升至v0.10.2
本次lmdeploy v0.10.2的更新不仅引入了用户期待的/generate API和引导解码功能,还在推理性能、采样效率以及兼容性方面都做了显著提升。同时通过系列 Bug 修复,进一步保证了在多场景下的稳定性与准确性。如果你正在使用 lmdeploy,建议尽快升级到 v0.10.2,以获得更好的体验与支持。
我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。 欢迎关注“福大大架构师每日一题”,发消息可获得面试资料,让AI助力您的未来发展。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.