网易首页 > 网易号 > 正文 申请入驻

SGLang原生支持昇腾,新模型一键拉起无需改代码

0
分享至

  • henry 发自 凹非寺
    量子位 | 公众号 QbitAI

当Agent在应用侧不断加速,推理系统能否承受随之而来的真实负载,正在成为行业关注的焦点。

这是12月20日在杭州收官的SGLang AI 金融 π 对上,被反复提及的一个背景。



在这场聚焦大模型推理效率的“π对”上——

Agent的Vibe被暂时搁到一边,真正摆上桌面的,是推理系统在真实负载中的工程问题:高并发请求长上下文窗口多轮推理内存管理,以及在具体金融agent场景下的一致性生成问题。

同时,在活动讨论中,昇腾作为算力平台也被多次提及。

当前,昇腾已作为SGLang原生支持的后端之一进入主仓库,随着 SGLang推理引擎的更新,DeepSeek、Qwen、GLM等模型可以在不调整模型参数、不引入额外插件的情况下直接运行,HiCache、Mooncake等系统能力也在对应版本中引入。

可以说,这次SGLang AI金融π对呈现的,并非零散技术点,而是一条清晰的推理工程演进路径——从缓存与内存体系,到权重更新、强化学习效率,再到算力与模型生态的协同。

接下来,我们具体来看。

面向Agent的推理系统工程解法

这次SGLang活动由SGLangAtomGit社区联合发起,于12月20日在杭州举办,活动围绕大模型推理架构、Agent、强化学习及其在金融场景的落地展开讨论。

在嘉宾方面,活动由来自推理系统、模型与算力一线的工程团队共同参与,包括华为高级项目群总监薛曜,SGLang开发者黄章衡尚旭春,华为“小巧灵”突击队工程师荆升航,昇腾高级研发工程师镇亮,以及GLM技术布道师张昱轩

整体来看,Agent相较于以往的问答式LLM,在深度研究、代码生成、工具调用等应用以及强化学习训练中,对高并发请求、长上下文窗口、多轮推理和内存管理的效率提出了更高要求。

而在特定的部署场景,如金融Agent中,则对低延迟、响应稳定性、一致性及成本控制的要求则更为严苛。

本次Meetup正是围绕这些Agent原生的系统变化,给出了工程实践层面的集中回应。

首先,针对高并发长上下文场景下KV cache重复计算、显存需求大的问题。

SGlang通过最新引入的HiCache体系,将KV cache扩展到CPU和远端存储,由Cache Controller自动管理KV卸载填装,并结合流水线化异步预取,显著降低了显存占用,提升了上下文推理的稳定性与吞吐。



此外,针对Qwen3-Next、Kimi Linear这类具备不同计算逻辑和内存管理方式的混合模型。

SGLang通过Mamba Radix Tree实现前缀统一管理,并借助Elastic Memory Pool弹性调度KV Cache与Mamba State,在长上下文、多并发场景下提供高效推理和显存优化能力。

其次,为应对强化学习中策略权重频繁更新导致GPU空转、冷启动耗时过长的瓶颈。

Mooncake基于Transfer Engine,采用异步预读、pipeline并行设计,显著压缩权重加载和模型启动时间,实现热更新与弹性扩容。



实测效果显示:Kimi K2万亿参数模型的权重更新准备时间被压缩至20秒以内,63B模型的冷启动时间更是从85秒降至9秒。

此外,由于强化学习rollout不再是一次性推理,而是异步、多阶段、长度不可预测的过程。

换句话说,rollout中的长尾请求可能拖慢90%的训练时间,甚至可能出现跑了一整夜仍未完成任何step的情况。

针对这一问题,SGLang通过Server化+全异步执行、oversample与 partial rollout机制控制长尾请求,大幅缓解Agentic RL中的长尾问题,提高了训练效率。

最后,针对DeepSeek、GLM-4.5等MoE模型的fuse MoE、内存调度和负载均衡问题,SGLang持续重构执行路径与内存管理机制。

同时,Slime强化学习系统针对大规模GRPO与多阶段RL训练定制,实现训练系统与推理引擎的深度协同。



一个值得注意的细节是,这些推理系统级能力,并非只停留在某一类算力平台上。这些实践中的HiCache、Mooncake、GLM都均已能够在昇腾平台上直接运行,并进入实际推理流程。

而这些不约而同的支持,恰恰从侧面印证了当前昇腾硬件在推理系统生态的角色转变——

它已作为主流推理工作流中的后端之一,被自然纳入系统设计与工程实现之中。

昇腾 × SGLang:大模型推理的高效实践

在上述共性问题之下,活动中也展示了SGLang在昇腾平台上的最新进展,覆盖模型适配、性能优化及系统加速能力模块化沉淀。

主要亮点如下:

  • 模型优化:针对DeepSeek、Qwen系列等开源模型进行适配与性能提升,支持稠密、稀疏、多模态等架构,并支持Flux、Qwen-Image等多模态生成模型。
  • 系统特性:HiCache L1/L2/L3直通缓存机制已落地,MTP完全适配昇腾平台,兼容GPU与NPU后端。
  • 量化能力:推进昇腾侧量化与开源框架协同,支持压缩张量等多种量化方案。
  • 推理模式:完善图模式支持,实现DeepSeek V3.2、Qwen-Next、Longcat等新模型的day0支持。
  • 强化学习:支持SGLang VeRL等强化学习相关模型的推理与部署。



在具体的模型上,昇腾此次实现了对DeepSeek V3.2Day 0支持,在PD分离、64K输入、3K输出场景下,推理吞吐达15TPS / 卡,TTFT约4秒,PD传输(HCCS)< 8ms,TPOT ≈ 20毫秒。

为实现上述性能,团队在系统层面进行了多项优化:负载均衡方面,通过重新分配计算任务,使各CP rank计算量均衡。

融合算子方面,减少计算过程中的内存访问次数和Kernel启动开销。将多个连续的小算子合并为一个复合算子,使中间结果保留在高速缓存中,从而显著提升计算效率。

多流并行方面,通过Cube与Vector计算单元并行执行算子,提升计算资源利用率。

同时,在Cube计算路径中引入权重预取机制,实现数据搬运与计算阶段的重叠,减少访存等待带来的性能损耗。

这些优化让昇腾平台在大规模、高复杂度推理场景中,实现了高吞吐、低延迟、资源高效利用的表现。



针对Qwen的优化则包括通用能力增强(图模式、W8A8 量化、EAGLE3),为不同规模和形态等模型提供基础性能支撑。

同时,引入昇腾亲和性专项优化:利用多流并行,并在大EP(Expert Parallelism)场景中通过Dispatch/Combine流程将GMM计算融合处理,减少算子切换和中间调度开销,提升整体执行效率。



除DeepSeek、Qwen外,SGLang在昇腾硬件上也已覆盖KimiLongChat等模型,新模型可在不改代码的前提下直接运行。

同时就像开头所说的,这些模型的所有代码均已合入SGLang主社区仓,开发者无需额外安装插件,直接拉取主仓代码即可使用。

昇腾表示这里的核心理念是尽量不动Models层,仅在底层完成硬件亲和与性能提升

而这一系列进展背后,是昇腾与SGLang主仓的深度共建逻辑,也意味着AI算力与开源推理框架的融合进入新阶段:

从架构层面看,昇腾相关优化已下沉到SGL-kernel-NPU算子库,亲和算子能力与代码实现均在此集中维护演进。

Engine层作为核心优化区,支持EPLB、Graph Runner与MTP,覆盖GPU与NPU等多硬件后端以实现统一推理能力。

缓存与通信则依托HiCache完成L1/L2及L3-L1直通优化,最底层的SGL-kernel-NPU则承载昇腾加速算子、量化算子及传输接口,实现开源能力与昇腾性能的双向赋能。

整体来看,这些进展体现了昇腾与SGLang开源社区在推理系统层面的持续协同,也为后续更复杂推理与强化学习场景提供了稳定的工程基础。

全面拥抱开源

在这次活动中,我们了解到,昇腾是今年七月份才正式启动与SGLang的适配工作。薛曜表示,这一工作的目标很明确——全面拥抱开源、加速昇腾生态建设

在过去5个多月里,昇腾不仅补齐了多类主流模型的推理支持,还覆盖了强化学习训练、多模态理解与生成等关键场景,并在PD传输等系统层面持续优化,将SGLang on Ascend的整体性能推到了“可打”的水平

此外,据现场披露,昇腾已基于SGLang已在真实业务场景中,对DeepSeek V3.2完成了灰度测试。这意味着相关能力已不再停留在实验或Demo阶段,而是进入了真实生产环境的验证周期。

从roadmap来看,昇腾接下来的演进方向也并非泛化扩展,而是明确围绕“推理系统”展开的系统性工程投入

一方面,通过Zero Buffer、昇腾亲和加速库等机制,持续压榨单机与多机推理吞吐,服务高并发、低时延的真实业务负载;

另一方面,在基础软件层构建昇腾版Triton生态,与SGLang、vllm等开源引擎保持接口与演进节奏对齐,使模型上线、算子开发与性能调优形成可复用路径。

这些动作共同指向了一个清晰变化:昇腾不再只是“能否支持某个模型”的硬件选项,而是开始以推理系统为核心,被纳入开源工程的主线讨论与默认方案评估之中

当模型、推理引擎与算力平台在工程层形成稳定协作,AI算力真正需要回答的问题,也将不再是“能不能跑”,而是“系统能不能长期跑、规模化、稳定地跑”。

因为说到底,高性能、易用性、开箱即用才是真道理。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女演员回应曝光片酬后登上热搜:演完这8天,可能一年都接不到戏

女演员回应曝光片酬后登上热搜:演完这8天,可能一年都接不到戏

韩小娱
2026-02-09 12:00:58
突然,飙涨90%!芯片,利好突袭!

突然,飙涨90%!芯片,利好突袭!

证券时报
2026-02-09 20:42:02
小年,除了吃饺子,这6种食物也要备一点!寓意:马年好运连连

小年,除了吃饺子,这6种食物也要备一点!寓意:马年好运连连

简食记工作号
2026-02-09 00:12:38
超越自我!中国速滑1000米排名+数据超北京,对手两破奥运纪录!

超越自我!中国速滑1000米排名+数据超北京,对手两破奥运纪录!

篮球资讯达人
2026-02-10 01:50:40
中方考虑拒绝特朗普访华,英媒曝料:已警告美国,越过红线别想来

中方考虑拒绝特朗普访华,英媒曝料:已警告美国,越过红线别想来

梦在深巷aqa
2026-02-07 22:58:03
河北搜爆器入户排查烟花爆竹,搜到没收罚款

河北搜爆器入户排查烟花爆竹,搜到没收罚款

记录刘杰
2026-02-09 14:38:41
她是最干净的女演员,出道25年戏红人不红,女儿像她颜值超高

她是最干净的女演员,出道25年戏红人不红,女儿像她颜值超高

枫尘余往逝
2026-02-10 03:47:07
她在柬埔寨7天被轮奸9次,被大陆解救,回台湾后立马抹黑大陆

她在柬埔寨7天被轮奸9次,被大陆解救,回台湾后立马抹黑大陆

吴王旅行ing
2026-02-10 02:44:28
农村重磅变局!2026中央一号文件敲定, 14亿人聚焦,别划走!

农村重磅变局!2026中央一号文件敲定, 14亿人聚焦,别划走!

现代小青青慕慕
2026-02-09 19:32:08
具俊晔韩综风波升级!节目组证实获本人授权,指责汪小菲造谣大S

具俊晔韩综风波升级!节目组证实获本人授权,指责汪小菲造谣大S

萌神木木
2026-02-07 14:26:57
男子欲结清分期还款却还不了,平台客服:分期还款提前结清须单独申请

男子欲结清分期还款却还不了,平台客服:分期还款提前结清须单独申请

极目新闻
2026-02-09 18:09:59
外资车1月份大获成功后,果然强化价格战,国产车压力更大了

外资车1月份大获成功后,果然强化价格战,国产车压力更大了

柏铭锐谈
2026-02-07 16:47:51
东体:阿马杜在冬训后半段已被雪藏,有关方面曾问过归化意向

东体:阿马杜在冬训后半段已被雪藏,有关方面曾问过归化意向

懂球帝
2026-02-09 12:58:17
输球不到24小时,张本智和再迎3大噩耗,个个戳他心窝

输球不到24小时,张本智和再迎3大噩耗,个个戳他心窝

罗纳尔说个球
2026-02-10 00:51:25
特朗普通知所有国家,禁止减持美国债,中国手里6830亿,不再奉陪

特朗普通知所有国家,禁止减持美国债,中国手里6830亿,不再奉陪

华人星光
2026-02-09 11:03:04
李显龙说对了!特朗普兵分两路,收割中国资产,要与中国硬刚?

李显龙说对了!特朗普兵分两路,收割中国资产,要与中国硬刚?

焦点集结号
2026-02-10 02:22:33
2月9日人民币对美元中间价调升67个基点

2月9日人民币对美元中间价调升67个基点

证券时报
2026-02-09 09:47:14
54岁汪峰形象大变,带醒醒三亚度假,近照发量稀少已有谢顶迹象!

54岁汪峰形象大变,带醒醒三亚度假,近照发量稀少已有谢顶迹象!

娱乐团长
2026-02-09 15:42:22
太平年:司马浦撞柱赴死才看透,他从始至终都是赵匡胤的太平利剑

太平年:司马浦撞柱赴死才看透,他从始至终都是赵匡胤的太平利剑

怂熊剧场
2026-02-10 04:02:34
3-2!国安击败中超新土豪,球队大腿连场进球,主力边卫又受重伤

3-2!国安击败中超新土豪,球队大腿连场进球,主力边卫又受重伤

体坛鉴春秋
2026-02-09 22:10:48
2026-02-10 05:07:00
量子位 incentive-icons
量子位
追踪人工智能动态
12141文章数 176381关注度
往期回顾 全部

科技要闻

实测|字节新模型带着音效和复杂运镜杀疯了

头条要闻

人民日报评"南博事件":无论涉及到什么人 绝不放任

头条要闻

人民日报评"南博事件":无论涉及到什么人 绝不放任

体育要闻

不会打篮球,如何入选詹娜前男友第一阵容

娱乐要闻

央视电影活动名场面!明星站位太讲究

财经要闻

沪深北交易所优化再融资 释放3个信号

汽车要闻

长安将搭钠电池 好比汽车要装柴油机?

态度原创

家居
本地
房产
游戏
公开课

家居要闻

山院焕新 雅聚悦亲朋

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

房产要闻

海南又一千亿级赛道出现,京东、华润、中石化等巨头率先杀入!

推出“黑命贵”DLC后,《我的世界》被骂“洗脑儿童”"/> 主站 商城 论坛 自运营 登录 注册 推出“黑命贵”DLC后,《我的世界》被骂“洗脑儿童” ...

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版