网易首页 > 网易号 > 正文 申请入驻

趋境&清华开源项目KTransformers让「异构」成为推理新范式

0
分享至

允中 发自 凹非寺
量子位 | 公众号 QbitAI

全球AI基础设施快速演进的浪潮中,一个诞生自中国的开源项目,正在被世界看见。

它就是KTransformers,由趋境科技与清华大学KVCache.AI团队联合研发,聚焦大模型推理阶段的系统创新。

这是一个高性能异构推理框架,专注于高效利用底层GPU、CPU、内存等多样化算力,让大模型在更低算力、更灵活的硬件架构上高效运行,项目论文《KTransformers: Unleashing the Full Potential of CPU/GPU Hybrid Inference for MoE Models》入选了刚刚落幕的“计算机系统领域奥斯卡” SOSP 2025



SOSP是计算机系统领域最具影响力的国际顶会之一。过去几十年间,从虚拟化到分布式文件系统,无数里程碑式的技术成果都曾首次亮相于此。

如今,KTransformers也在这个舞台上获得了全球系统学术界的最高背书。



几乎在同一时间,KTransformers宣布与主流推理框架SGLang合作,双方架构合入同一分支。这次合作意味着全GPU推理与异构推理的融合,推动大模型推理架构变得更加完善,将迈向更广泛的产业落地。

在更远的未来,它即将成为更多AI产品背后能跑得起大模型的底层路径。

加入核心创新“专家延迟机制”,异构架构实现MoE模型高效推理

大模型推理领域,算力瓶颈正在成为全球技术界的核心问题。

尤其是当MoE(Mixture of Experts,专家混合)架构成为主流后,这个瓶颈更显突出。MoE模型以“稀疏激活”为特征,每次推理只会调用部分专家子网络,从而在不牺牲模型能力的前提下降低计算负担。

问题随之而来,如何高效调度这些专家从而避免资源浪费与设备空转,成了产学研三界共同的新挑战。

《KTransformers: Unleashing the Full Potential of CPU/GPU Hybrid Inference for MoE Models》正是在这一背景下诞生的。它提出了一条不同以往的道路:一套面向CPU+GPU异构架构的MoE推理系统方案,让原本只能依赖昂贵多卡GPU的大模型,能在CPU参与的硬件环境中实现接近同等性能的推理体验。

KTransformers的初衷是通过创新的异构推理的架构,充分释放底层所有的硬件算力资源,优化计算调度,摆脱对单一硬件的依赖,从而实现更普惠、更高效的大模型部署与应用。



技术层面上,它通过一系列系统级创新,让GPU负责注意力和主干网络的高并行计算,CPU则承担稀疏专家模块的推理任务,实现了高效的CPU+GPU协同执行。



KTransformers的核心创新首先体现在底层算子优化上。

通过针对Intel AMX指令集开发的高吞吐计算核,结合自定义的tile-aware内存布局,KTransformers在单路Xeon上实现了PyTorch实现近4倍的提速,极大释放了CPU在专家计算中的性能。至此,CPU成为推动系统吞吐提升的关键一环。

此外,KTransformers在异构任务协调方面也进行了系统性重构,为减少CPU与GPU之间的协调成本,KTransformers引入了NUMA感知张量并行和基于CUDA Graph的调度,以确保两个设备以最小的同步延迟运行。

值得一提的是,在论文中KTransformers还提出了另一个创新技术——Expert Deferral(专家延迟机制)。

传统MoE推理严格遵循层级顺序,GPU必须等待CPU完成专家计算后才能继续下一步,这种串行依赖导致了大量性能浪费。KTransformers打破了这一限制。

KTransformers研究团队发现,Transformer模型的残差连接具有一定的延迟容忍性,部分中间结果的计算并不需要严格同步完成。于是团队提出让部分专家计算延迟执行——也就是在GPU执行注意力模块时,CPU专家仍在计算上一层结果,两者并行推进。



这样就使得CPU与GPU的负载得以动态重叠,模型吞吐提升约1.45倍,单卡decode速度最高超过30+ tokens/s,而模型精度变化低于0.5%,几乎无损。

Expert Deferral是MoE推理异构化落地的关键突破,真正让CPU与GPU实现了平等协作。

得益于这些设计,KTransformers能够在一台RTX 4080+双路Xeon的单机环境中成功运行DeepSeek-V3-671B模型,单路性能接近多卡GPU集群水准。

推动推理架构融合,助力全球开发者高效创新

到今天,论文的全部思想已被完整工程化,衍生为开源系统KTransformers

这其实是推理生态流变分化的一个具象化体现:一边是以SGLang为代表的高吞吐、高并发全GPU路线;另一边,则是仍在探索中的让CPU与GPU协同工作的异构路线,尝试用更灵活、成本更低的方式支持大模型运行。

KTransformers正是后者的代表之一。

KTransformers与SGLang的合作,是双方基于各自推理引擎能力展开深度对接,联合推动大模型推理向更高性能、更低成本的方向演进。

SGLang,全称Structured Generation Language,是一种专为大型语言模型(LLM)和视觉语言模型(VLM)设计的高效推理与服务框架,它通过联合设计前端语言和后端运行时来提升模型推理的速度和灵活性。

由于在多轮对话、复杂任务规划和结构化输出方面表现突出,在当下的大模型推理框架生态中,SGLang成为了最主流、最具工程实用性的开源推理引擎之一。



SGLang的优势在于通用性和工程落地能力,全GPU推理思路也更适用于高吞吐量高并发等需求,KTransformers作为算子库合入SGLang之后,双方互为补充,开发者用户可以直接获得全GPU推理与异构推理两种能力,不再需要手动集成、单独调用。尤其是在GPU资源受限但本地CPU富余的场合,许多原本无法落地的模型都有了新的可行路径。

例如通过KTransformers与SGLang合作实现的Multi-GPU+CPU混合推理能力,将更多专家放置在GPU上,这减少了带宽瓶颈下的CPU内存访问,相对单GPU的场景极大提升吞吐量。

此次合作实现了异构推理方案与主流推理框架的深度融合。这推动了双方底层架构的协同进化,使其迈向更成熟、更工程化的新阶段;同时使开发者能够更便捷地调用各类模型,在硬件选择上也更具灵活性。

KTransformers,想做的不止是“在本地跑得动”

技术成果背后,是持续构建生态的决心。

如今的KTransformers已成为一个被开发者、厂商与开源社区广泛复用的共建式底层框架。

目前,其GitHub Star数已突破15.2K,成为全球Star数排名前列的大模型推理框架。

全球头部开源模型方,如Qwen、Kimi、智谱 AI等多个主流大模型,都在模型发布首日就推荐KTransformers作为推理引擎支持;其工程实践与兼容性也被多家一体机产品线采纳。



在这条异构路线逐渐成型的过程中,趋境科技始终是最核心的推动者之一。

在KTransformers的架构设计、核心实现、算子优化、框架适配以及社区维护等多个关键层面,趋境科技始终处于一线角色——

在与清华大学KVCache.AI团队联合研发的基础上,趋境负责了项目中的大量底层开发、接口对接、系统调度和社区推广工作。

这一次与SGLang的对接合作中,趋境科技也作为主要实现方与维护贡献者,完成了从对接设计、功能联调,到主分支合入的全部工程闭环。

对趋境来说,KTransformers输出的是一种价值理念的承载,更是一个更长期的目标:

在大模型时代,需要有人站出来为推理基础设施提供新的可能性。大模型落地不能只有精英算力路径,也需要一条更广谱的路线:以异构协同释放本地硬件的潜力,以开源能力帮助更多团队和组织用得起、调得动、融得进自己的业务中。

正因此,趋境已经与多个国产CPU、GPU硬件平台合作,共同推进全国产高性价比方案;为数十家行业开发伙伴提供算力底座,逐步实现算力普惠,让大模型真正能够为业务所用。

今天的KTransformers,已经让大模型推理不再专属于高端算力;未来,趋境希望让AI能力也不再专属于少数企业。

Gossip time

KTransformers已经可以在一张消费级GPU上稳定运行千亿参数大模型。那么,下一步呢?

给大家附上一个圈内人最近才刚知道的小道消息:

研究团队好像已经有人在内部试水微调了。而且是在不扩卡、不改架构的前提下来做轻量调优。

从KTransformer的设计思路来看,确实是顺理成章的一步:

既然推理已经解决了,那接下来的方向,不就是能跑也能调么。

大家期待的小手手可以随时搓起来了哈!

论文链接:

https://madsys.cs.tsinghua.edu.cn/publication/ktransformers-unleashing-the-full-potential-of-cpu/gpu-hybrid-inference-for-moe-models/SOSP25-chen.pdf

技术细节详见SGLang博客:

https://lmsys.org/blog/2025-10-22-KTransformers/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3-1,博洛尼亚7轮不败反超AC米兰,曼城旧将贝尔纳韦发威难换1分

3-1,博洛尼亚7轮不败反超AC米兰,曼城旧将贝尔纳韦发威难换1分

侧身凌空斩
2025-11-03 03:00:35
印媒指出福建舰严重设计缺陷! 这回没瞎说: 福建舰确实存在这个问题

印媒指出福建舰严重设计缺陷! 这回没瞎说: 福建舰确实存在这个问题

Ck的蜜糖
2025-11-03 04:02:54
特朗普下令战争部做好准备

特朗普下令战争部做好准备

澎湃新闻
2025-11-02 22:01:03
27分大胜!火箭击退凯尔特人3连胜,杜兰特26分申京16+10+9

27分大胜!火箭击退凯尔特人3连胜,杜兰特26分申京16+10+9

湖人崛起
2025-11-02 10:18:53
比同龄郑钦文更强!中国15岁网球天才惊艳世界,豪取10连胜连夺两冠

比同龄郑钦文更强!中国15岁网球天才惊艳世界,豪取10连胜连夺两冠

体坛小二哥
2025-11-02 22:07:25
你见过最狠的人有多狠?网友:好家伙,这么狠的人超乎我的想象力

你见过最狠的人有多狠?网友:好家伙,这么狠的人超乎我的想象力

带你感受人间冷暖
2025-11-02 00:15:03
张柏芝合照也太夸张了吧!宁静,刘嘉玲都被她比下去了

张柏芝合照也太夸张了吧!宁静,刘嘉玲都被她比下去了

手工制作阿歼
2025-11-02 13:43:13
加帅不敢相信:罚丢点球,无缘登顶,迪巴拉成为大罪人

加帅不敢相信:罚丢点球,无缘登顶,迪巴拉成为大罪人

足球狗说
2025-11-03 06:15:25
“继承权”不用争了!2026年新规下:父母的房子全部将这样处理

“继承权”不用争了!2026年新规下:父母的房子全部将这样处理

白马惊天剑
2025-10-30 18:09:01
马卡:维尼修斯抢罚点球破坏了姆巴佩戴帽的机会,后者无表示

马卡:维尼修斯抢罚点球破坏了姆巴佩戴帽的机会,后者无表示

懂球帝
2025-11-02 09:26:05
参加蔡英文、赖清德就职,却不出席郑丽文就职,卢秀燕真面目曝光

参加蔡英文、赖清德就职,却不出席郑丽文就职,卢秀燕真面目曝光

蛙斯基娱乐中
2025-11-02 16:27:24
王艺迪夺冠颁奖!赛后举手怒吼,与温特有爱沟通,冠军自拍笑开花

王艺迪夺冠颁奖!赛后举手怒吼,与温特有爱沟通,冠军自拍笑开花

篮球资讯达人
2025-11-03 00:28:44
3日凌晨,辛纳重返世界第一!2-0横扫夺大师赛第5冠,刷爆纪录

3日凌晨,辛纳重返世界第一!2-0横扫夺大师赛第5冠,刷爆纪录

大秦壁虎白话体育
2025-11-03 00:43:13
惋惜!前中超冠军陨落:7年后再降级,季末7轮不胜+3次崩盘被绝平

惋惜!前中超冠军陨落:7年后再降级,季末7轮不胜+3次崩盘被绝平

我爱英超
2025-11-02 17:29:43
王家卫拍《东邪西毒》集体PC被抓!

王家卫拍《东邪西毒》集体PC被抓!

八卦疯叔
2025-11-02 09:10:03
郑丽文:尊重2300万台湾人意愿,绝不能武统!洪秀柱:当然可以打

郑丽文:尊重2300万台湾人意愿,绝不能武统!洪秀柱:当然可以打

刚哥说法365
2025-11-01 17:15:20
雷军这波“自杀式公关”,暴露了小米的流量焦虑

雷军这波“自杀式公关”,暴露了小米的流量焦虑

热点菌本君
2025-11-02 15:26:23
一击制胜!惊艳3连胜!中超意外之战,邵佳一:无愧国足看重的人

一击制胜!惊艳3连胜!中超意外之战,邵佳一:无愧国足看重的人

话体坛
2025-11-02 22:11:15
官方已确认!75岁张艺谋,突传消息!

官方已确认!75岁张艺谋,突传消息!

好叫好伐
2025-11-01 18:19:38
张文宏院士:糖尿病可以吃的食物排名,不知道的糖友太亏了

张文宏院士:糖尿病可以吃的食物排名,不知道的糖友太亏了

荷兰豆爱健康
2025-11-02 07:55:38
2025-11-03 06:56:49
量子位 incentive-icons
量子位
追踪人工智能动态
11617文章数 176320关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

教育
亲子
数码
本地
公开课

教育要闻

背诵很多遍依旧写不出来,要让自己根据真题练习模拟写作

亲子要闻

我发现一个带娃永远不生气的理论

数码要闻

麒麟9030处理器突然曝光:1+4+4六核狂飙,可惜工艺不详!

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版