“在Python的惯性中，为何要用C++重走一遍推理引擎的长路？”对话xLLM负责人刘童璇|编程|正式版模型|python

分享至

采访 | 张红月嘉宾｜刘童璇

出品 | CSDN（ID：CSDNnews）

2025 年，AI 基础设施（AI Infra）告别了技术概念的空谈模式，转入了由成本和效率定义的残酷现实。

在 3 月，DeepSeek 抛出了一个极具冲击力的事实：基于其 MoE 架构与系统级优化，整体推理业务实现了 545% 的利润率。这一数字清晰地揭示了一个趋势：当模型能力趋同，真正拉开差距的，不再是参数规模，而是底层推理系统对算力的极致压榨效率。

这种转变背后，是整个行业面临的双重压力：一方面，大模型从“能用”走向“规模化可用”，推理延迟与吞吐效率成为企业落地的核心瓶颈；另一方面，高企的 GPU 成本与国产算力的全面登场，使得“如何把算力榨干”从优化问题升级为生存问题。

AI Infra 的战场，正从“框架之争”全面转向“系统能力之争”。

正是在这场系统能力的比拼中，诞生于 2025 年的国产推理引擎 xLLM，以一个“破局者”的姿态崭露头角。它没有选择在现有框架上做增量优化，而是毅然决然地走上了一条从零开始、以 C++ 为核的“hard mode”之路。这背后是怎样的技术判断与战略考量？

在 2025 全球 C++ 及系统软件技术大会现场，我们独家专访了京东零售集团智能平台部算法总监，开源大模型推理引擎 xLLM 负责人刘童璇。他不仅揭示了 xLLM 在国产芯片上实现超预期性能背后的秘密，更分享了他对于技术路线、未来 AI Infra 终局的深刻洞见。

右：张红月左：刘童璇

其核心观点有：

C++ 依然是高性能 AI Infra 的“底层语言”：当大模型推理进入毫秒、微秒级竞争阶段，性能瓶颈不再藏在算子里，而是暴露在调度与系统层。以 Python 为核心的上层框架正在触碰性能天花板，而真正决定 AI Infra 上限的，仍然是对底层系统能力的掌控。
从零构建是自由，而非负担：真正的创新无法在既有框架的“地基”上发生，另起炉灶意味着不受技术天花板的束缚，能将对 AI 推理的独特理解直接注入架构灵魂；
性能即成本，稳定是基石：在昂贵的算力时代，优化的每一微秒都直接转化为商业价值；而稳定性，是所有技术理想能够服务于业务的唯一前提；
业务驱动，走向统一：引擎的生命力源于真实、复杂的业务场景。未来的 AI Infra 将是一个统一的模型服务平台，用不同引擎服务不同模型是当下最大的资源浪费；
技术壁垒，源于学术：顶尖的工程项目必须有顶尖的学术研究作为支撑，将业务问题升华为SOTA（State-of-the-Art）研究，是构建长期护城河的关键。

以下是采访的全部内容：

CSDN：首先我们从您的个人和团队先谈起。首先想了解一下刘老师是如何与编程结缘成为一名开发者的？

刘童璇：其实我本身就是计算机专业，跟 C++ 很早就结缘了。我的编程生涯一直是跟 C++ 这个语言打交道的。即使到现在为止，我的书架里面还有一些 C++ 的书，包括像《Effective C++》、《More Effective C++》，还有《Ruminations on C++》等。

CSDN：C++ 的应用领域非常广泛，请问您是如何进入 AI 这个领域的？

刘童璇：这源于我职业生涯中的一个契机。2016 年底，我获得了一个参与深度学习框架项目的机会。当时，TensorFlow 正崭露头角，我便投身于其性能优化工作。可以说，我从那时起正式进入了 AI 领域。

CSDN：您与 C++ 有着深厚的渊源，这是否也是您决定基于 C++ 打造 xLLM 的一个主要原因呢？

刘童璇：可以这么说。一方面，尽管近年来涌现出许多新兴编程语言，它们在 AI 领域的生态也十分火热，但 C++ 在工业级应用中，尤其是在对性能和吞吐量有严苛要求的场景下，其地位依然不可替代，主流方案仍以 C++ 为主。

xLLM 从立项之初就定位于高性能，因此，追求极致性能是我们选择 C++ 最直接的原因。在大模型推理领域，坚持使用 C++ 构建底层引擎，代表了我们团队对技术性能的更高标准和不懈追求。

CSDN：您曾提到，xLLM 团队在创立之初面临一个“悬崖边的问题”：是基于现有的 vLLM 和 SGLang 进行迭代，还是另起炉灶从头构建。最终你们选择了后者。能否分享一下当时的考量因素？回顾 2025 这一年，从零起步的决策为 xLLM 带来了哪些核心优势？

刘童璇：这背后是我们对技术趋势的核心判断。首先，vLLM 和 SGLang 这类框架，虽然底层核心（Kernel）由 C++ 实现，但上层调度和启动（Launch）仍依赖 Python。我们预见到，随着模型对性能要求日益严苛，Python 层的开销将逐渐成为性能瓶颈。

其次，大模型推理技术尚处于早期发展阶段，远未成熟。未来，业界对延迟的优化将深入到毫秒、微秒甚至更精细的级别。在这样的趋势下，底层语言的选择对性能的影响至关重要。此外，我们认为对于经验丰富的团队而言，使用 C++ 开发的难度和效率并非不可逾越的障碍。

最后一点，当时国内市场，特别是针对国产芯片的推理引擎领域，存在明显的空白。我们看到了填补这一空白的机会和责任。

回顾 2025 年，从零开始的最大优势在于技术选型和架构设计上的完全自由，使我们不受既有框架的束缚。这让我们能够将团队对大模型推理的深刻理解直接融入到核心实现中。虽然团队和项目尚处起步阶段，但我们已经开展了多项前沿研究并取得了初步成果。可以说，2025 年是我们的开局之年，未来可期，一切都在稳步推进。

CSDN：之前你在采访中说你们的团队平均年龄不到 30 岁，是一群 95 后的工程师。在一年之内完成 xLLM 的核心引擎打造，您作为舵手是如何激发这支年轻的战斗团队？

刘童璇：我非常荣幸能跟他们在一起。我们这帮同学们很年轻，可能比我要年轻得多。从一开始做 xLLM 大家可能有些信心不足，到后面我们把这个事情做得还不错，一直到现在，大家是满怀激情来做这件事情的。非常感谢这个团队的同学过往一年的风雨同舟和不懈拼搏。

我们团队的一大特色是吸纳了大量优秀的实习生，他们做出了卓越的贡献。我们与清华、北大、中科大、北航等顶尖高校建立了深入的合作关系，这些合作不仅为项目注入了新鲜血液，也为我们带来了宝贵的学术资源和支持。例如，我们近期一篇投向顶会的论文，其核心工作就是由一位大二的实习同学主导完成的。这种高素质的人才储备，是我们项目能够在学术前沿和技术领先性上不断突破的关键资产，也是我们行稳致远的保障。

CSDN：您在演讲中提到了动态图融合、全局 KV 缓存、动态 PT 分解等技术。这些优化背后的共同思想是什么？以及您如何平衡性能、成本、稳定性这个“三角关系”？

刘童璇：这些功能很多时候源自于我们实际场景的洞察。我们从实际的业务场景、集群里面看到问题，把这些问题提炼。一方面我们把这个功能做下来，另一方面我们会把对应的论文做下来。这也是我们团队做事情的一个风格。其实我跟我们团队的每个同学在交流的时候，也是跟大家定下的一个默契。如果想把 xLLM 打造成最顶尖的大模型推理引擎，意味着我们一定要有很多壁垒性的工作在里面。我们将业务场景中的问题抽象成论文解决的问题，同时把这个工作去落地，其实就是能够形成一个非常好的闭环。一方面解决我们业务的问题，另一方面能够让我们有更好的影响力，在 xLLM 这个引擎上有很强的壁垒。

关于平衡，在大模型推理领域里面，性能就意味着成本。只要性能越好，你节省的成本是非常非常多的。因为 GPU 卡很贵。

另一方面就是稳定性，其实这三个没有矛盾。包括在 xLLM 这个项目上，我们做任何的功能上线，要给业务带来效果，首先第一点要保证稳定性。稳定性是一个基础。

此外，对于性能的追求是我们项目一直不停追逐的目标。应该说这三个其实都是我们“既要又要”的。

CSDN：xLLM 不仅做推理引擎，还开放了推理服务。您是如何定义二者之间的关系？这种闭环方案对企业级的 AIGC 部署来说实际解决了哪些痛点？

刘童璇：这同样源于我们在企业内部的实践。当模型部署规模达到成百上千张卡时，仅有引擎是远远不够的，必须有一个强大的服务层来进行资源管理、任务调度和高可用保障。

因此，推理引擎和推理服务是密不可分、相辅相成的。将它们割裂开发，会牺牲整体性能。我们之所以将二者一同开源，就是希望传递这一理念。

企业级部署的核心痛点之一是资源碎片化和管理复杂性。如果使用不同的引擎来部署不同类型的模型（如大语言模型、文生图模型），会导致资源无法共享，调度困难。xLLM 的目标是成为一个统一的模型服务平台。通过将各类 AIGC 模型统一纳入管理，我们可以在一张卡或一个进程内实现混合部署和协同调度，极大地提升资源利用率。

CSDN：您一直强调功能和方向源于业务实践。目前 xLLM 在京东内部有哪些具体的落地案例？

刘童璇：在京东内部，xLLM 已广泛应用于零售业务的各类 To C 产品中，覆盖了大模型、多模态和文生图等多种应用场景，部署规模相当可观。其中，生成式推荐是我们今年下半年重点打造的方向。我们提供的解决方案能够在 xLLM 上高效执行生成式推荐模型，将推理延迟控制在极低水平，完全满足“搜推广”（搜索、推荐、广告）这类对实时性要求极高的场景。

CSDN：接下来聊聊在与国产芯片的合作过程中，你们有没有一些工程上的挑战？以及 xLLM 在国产芯片上这种超预期的性能表现背后，做了哪些关键的技术因素？

刘童璇：我们对国产芯片的优化，是一个源于实践、持续迭代的过程。我们从执行引擎、显存管理、算子优化到分布式策略，都进行了大量针对性的优化。

CSDN：能不能具体以某个例子来讲一讲？方便讲吗？

刘童璇：举个简单的例子。大模型推理是逐个 Token 生成，在两个 Token 生成之间，存在调度和计算的间隙（Gap）。我们通过深度优化，实现了调度与计算的高度重叠（Overlap）。

在 xLLM 中，我们将这个间隙压缩到了百微秒甚至更低的级别，这是许多其他框架难以企及的。此外，我们还构建了多级流水线机制，包括通信与计算的重叠、算子内部数据加载与计算的重叠等，这些技术共同确保了国产芯片的算力得到最大限度的利用。

CSDN：xLLM 是从 9 月份发布及开源以来，您收到的来自开源社区以及用户案例方面，有没有让你惊喜或者印象深刻的可以跟我们分享？

刘童璇：说到这个我想到一个故事。有一次在杭州的时候，有一个公司负责人很兴奋地跟我分享，他们把 xLLM 集成到一体机中，成功部署到了新疆的一座电站里。

这件事情让我特别感动。作为一名在互联网行业工作多年的技术人，我们很少有机会直观地感受到自己的工作如何影响国计民生。但在那一刻，我真切地感受到，我们所做的事情正在为国家的基础设施贡献力量，这让我倍感自豪。这也让我意识到，xLLM 开源的意义，远不止于一个技术项目，它承载了让国产芯片用得更好、国产算力得到更充分释放的使命。

CSDN：下一个部分聊聊全球 AI Infra 的格局。2025 年是百花齐放的一年，无论是 vLLM、TensorRT-LLM 还是 xLLM，我想问一下你如何看待它们与 xLLM 的关系？是直接的竞争，还是生态位场景化的差异互补？在这个开源社区又在其中扮演了怎样的角色？

刘童璇：当前大模型推理领域仍处于发展的早期阶段，百花齐放、百家争鸣是健康且必然的。xLLM的独特之处在于，它诞生于大型互联网公司的真实业务需求。我们的功能迭代和场景覆盖，是由内部海量、多样的需求驱动的，这与其他研究驱动或纯社区驱动的项目有所不同。

此外，我们坚信AI领域需要持续的技术深度挖掘。因此，我们不仅关注工程实现，更致力于通过发表顶会论文等方式，构建项目的技术壁垒和学术影响力。当然，我们非常乐意与其他开源项目交流合作，共同推动技术进步。

CSDN：在过去一年的 AI 推理技术当中，有哪些业界被普遍认可的路线、技术理念被证明是行不通的？那又有哪些能力反而成了长期的护城河？

刘童璇：直接评判哪些技术路线“行不通”可能过于武断。许多学术研究的价值在于思想启发，而非直接的落地应用。有些研究在当时看可能难以落地，但其思想却可能在未来某个节点爆发出巨大的应用价值。因此，即使是那些看似难以直接转化的研究，也为我们提供了宝贵的思路，帮助我们更深入地思考问题。

CSDN：xLLM 已经公布了 2026 年的一些路线图，其中提到了场景纵深、模型联盟和芯片协同的“三箭齐发”策略。您认为哪一项挑战最大？一旦突破，可能会带来怎样的代际提升？

刘童璇：这三条路径都极具挑战性，但我们决心同步推进。

首先是模型联盟，我们与模型厂商的合作正在积极推进。真正的挑战在于，我们需要拿出足够亮眼的性能表现，来证明xLLM的价值，从而赢得他们的信任并展开合作。我们与智谱AI合作首发支持 GLM4.6V和 GLM4.7，就是我们迈出的第一步。归根结底，xLLM对高性能的追求是不变的，我们的目标就是让所有国产模型都能在我们平台上发挥出极致性能。

其次是芯片协同。我们在这方面有一个天然优势：xLLM是C++项目。这意味着我们可以通过编译能力，非常便捷地将不同芯片的底层实现整合进来。这是我们与许多Python项目最根本的区别之一，也是我们能够高效统一支持各类硬件的基础。

最后是场景纵深，我们的终极目标是打造一个数据中心级的智能操作系统。这个想法并非空中楼阁，而是由内部需求驱动的——我们需要解决数千个独立部署带来的巨大资源浪费。未来的系统应当能将所有模型和服务统一管理，实现资源互通和智能调度，最终形成一个自适应的整体。这是我们规划的演进路径，也是一个必然的方向。

CSDN：非常感谢刘总今天带来的精彩分享，也期待 xLLM 在未来成长为全球 AI 推理的智能操作系统，驱动下一个 AI 十年的创新。再次感谢刘总，刘老师。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.