网易首页 > 网易号 > 正文 申请入驻

英伟达力荐,小团队两个月开源一款「光速级」智能体推理引擎

0
分享至

机器之心编辑部

智能体时代的核心是算力。

尤其是在 Coding Agent 爆发之后,算力问题变得前所未有地尖锐。Claude Code、Codex、Cursor 等产品正在把 AI 从「问答工具」变成「持续运行的软件协作者」,单次会话轻松突破 50K tokens,系统负载转向了更极端、更复杂的智能体负载。

最近有关算力的大新闻层出不穷。今天的最新消息:马斯克的 SpaceX 与 Anthropic 宣布达成了重磅协议,超过 22 万块英伟达 GPU 将为 Anthropic 所用。而 Anthropic 对与 SpaceX 合作开发未来的太空算力体系「表示有兴趣」。

在如此庞大的算力需求下,除了开源还有节流。也是今天的最新消息:OpenAI 发布了多路径可靠连接 (MRC),可帮助大型 AI 训练集群更快、更可靠地运行,并减少 GPU 时间的浪费。

我们知道,即便只是单 GPU 吞吐率上的微小提升,一旦应用到生产级集群中,也能够在服务持续增长需求的同时,节约相当可观的算力。

来自 LightSeek Foundation 的一个小团队,在两个月时间内打造了一个全新的,号称「光速」的大模型推理引擎 TokenSpeed。


这一引擎拥有TensorRT LLM 级别的性能,vLLM 级别的易用性。并且拥有 NVIDIA Blackwell 上最快的 MLA 注意力内核。

一经发布,TokenSpeed 就受到了英伟达发推文力荐。


目前,该引擎已经开源。让我们参阅其技术博客,来深入了解「光速」引擎的技术细节。


  • 博客标题:TokenSpeed: A Speed-of-Light LLM Inference Engine for Agentic Workloads

  • 博客链接:https://lightseek.org/blog/lightseek-tokenspeed.html

  • Github 链接:https://github.com/lightseekorg/tokenspeed

TokenSpeed 技术简介

TokenSpeed 从第一性原理出发,专门为智能体推理场景设计。它为智能体负载提供接近「光速级」的推理能力,核心包括:基于编译器的并行建模机制、高性能调度器、安全的 KV 资源复用约束、支持异构加速器的可插拔分层 kernel 系统,以及用于低开销 CPU 侧请求入口的 SMG 集成。

建模层采用本地 SPMD(Single Program, Multiple Data,单程序多数据)设计,在性能与易用性之间取得平衡。TokenSpeed 允许开发者在模块边界指定 I/O placement 注解。随后,一个轻量级静态编译器会在模型构建过程中自动生成所需的 collective operation,从而无需手动实现通信逻辑。

TokenSpeed 调度器将控制平面(control plane)与执行平面(execution plane)解耦。

控制平面使用 C++ 实现,并被构建为一个有限状态机(FSM),结合类型系统,在编译期而非运行期强制执行安全资源管理,包括 KV cache 状态转移与使用。请求生命周期、KV cache 资源以及重叠执行时序,都通过显式 FSM 状态迁移与所有权语义进行表示,因此系统正确性并非依赖约定,而是由一个可验证的控制系统来保证。

执行平面则使用 Python 实现,以保持开发效率,使研究人员与工程师能够更快进行功能迭代,并降低整体认知负载。

TokenSpeed 的 kernel 层将 kernel 从核心引擎中解耦,并将其视为一级模块化子系统。它提供了可移植的公共 API、集中的注册与选择机制、组织良好的实现结构、面向异构加速器的可扩展插件机制、经过整理的依赖体系,以及统一的快速迭代基础设施。

与此同时,团队还针对 NVIDIA Blackwell 架构进行了大量性能优化。例如,他们构建了当前智能体负载场景下速度最快的 MLA(Multi-head Latent Attention,多头潜在注意力)kernel 之一。在 decode kernel 中,由于部分场景下「num_heads」较小,团队通过对「q_seqlen」与「num_heads」进行分组,以更充分利用 Tensor Core 的计算能力。而 binary prefill kernel 则包含了经过精细调优的 softmax 实现。

目前,TokenSpeed MLA 已被 vLLM 采用。

TokenSpeed 性能预览

Coding Agents(编码智能体)带来了异常严苛的推理工作负载,上下文通常会超过 50K tokens,对话也经常跨越数十轮。大多数公开基准测试并不能充分捕捉这种行为。

研发团队与 EvalScope 团队一起,基于 SWE-smith 轨迹对 TokenSpeed 进行评估,这些轨迹密切反映了生产环境中 Coding Agents 的流量情况。由于生成速度对 Agent 的用户体验至关重要,因此,团队的目标是在维持单用户 TPS(每秒 token 数)下限的同时,最大化单 GPU 的 TPM(每分钟 token 数)—— 通常是 70 TPS,有时是 200 TPS 或更高。

此外,研发团队针对 TensorRT-LLM(目前 NVIDIA Blackwell 平台上的最高水平)对这一设计进行了基准测试,并在认为针对 Agentic workloads 存在更好权衡的地方,采取了与之不同的设计方案。

下图展示了在不同部署配置下(无 PD 解耦),TokenSpeed 与 TensorRT-LLM 的 Kimi K2.5 性能帕累托曲线(Pareto curves)。

每条曲线都以 TPS/User(横轴)作为延迟指标,以 TPM/GPU(纵轴)作为吞吐指标,并通过扫描并发数绘制而成。对于 Coding Agents(高于 70 TPS/User),最佳配置是 Attention TP4 + MoE TP4。

在这一配置下,TokenSpeed 在整个帕累托前沿上均优于 TensorRT-LLM:在最低延迟场景下(batch size 1)大约快 9%,在 100 TPS/User 附近吞吐量大约高 11%。


团队表示,他们的核心优化之一是 TokenSpeed MLA。下图对比了 TokenSpeed MLA 与 TensorRT-LLM 的 MLA,后者是目前 NVIDIA Blackwell 上的 SoTA。


可以看出来,优化后的二进制版本预填充内核(prefill kernel),使用 NVIDIA 内部旋钮来微调 softmax 实现,在 Coding Agents 的五种典型预填充工作负载(带长前缀 KV cache 的 prefill)中,都超过了 TensorRT-LLM 的 MLA。解码内核则将查询序列轴折叠进头轴,以更好地填充 BMM1 的 M tile,从而提升 Tensor Core 利用率。

结合其他优化,在带有 speculative decoding 的典型解码工作负载中(batch size 为 4、8、16,且带长前缀 KV cache),这使得相对于 TensorRT-LLM 来说,延迟几乎降低了一半。

最后,研发团队也表示,该项目于 2026 年 3 月中旬启动开发,虽然目前展示了惊人的性能,但仍有大量底层代码(如 PD 分离、KV 存储等)正在合并和完善中,接下来将继续推进。

从上述性能表现来看,不难看出,TokenSpeed 的出现旨在通过更现代化的架构设计,打破传统推理框架在易用性与极致性能之间的平衡点,为大规模 Agent 部署提供了一个高性能、开源的底座。而英伟达的力荐,也说明推理引擎正在成为 Agent 时代基础设施竞争的一个新焦点。

更多信息,请参阅原博客!

https://x.com/lightseekorg/status/2052048105412141376

https://x.com/NVIDIAAI/status/2052061195381911806

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国际足联真急了 重量级高管访问中国 国内赞助商已砸5亿美元+逼宫

国际足联真急了 重量级高管访问中国 国内赞助商已砸5亿美元+逼宫

风过乡
2026-05-06 21:59:24
今夜,利好!全线暴涨!

今夜,利好!全线暴涨!

中国基金报
2026-05-07 00:18:39
一嫁日本,二嫁美国,三嫁法国,绝不嫁中国人的李勤勤,咋样了?

一嫁日本,二嫁美国,三嫁法国,绝不嫁中国人的李勤勤,咋样了?

傲傲讲历史
2026-03-09 10:19:52
讲真,这是我本周见过的唯一满分户型,没有之一

讲真,这是我本周见过的唯一满分户型,没有之一

首席楼盘分析师
2026-05-06 19:17:27
老人财产转给独生子女:3个最佳时间,早知道少走弯路

老人财产转给独生子女:3个最佳时间,早知道少走弯路

小鹿姐姐情感说
2026-05-05 10:43:52
韩媒力挺央视:中国男足都没进世界杯,国际足联以为中国好对付吗?

韩媒力挺央视:中国男足都没进世界杯,国际足联以为中国好对付吗?

砚底沉香
2026-05-07 10:42:21
不欢迎中国人的7个国家,不待见写在脸上,中国游客仍蜂拥而至

不欢迎中国人的7个国家,不待见写在脸上,中国游客仍蜂拥而至

番外行
2026-04-23 07:54:08
你在无意中发现别人什么秘密?网友爆料,电视剧都不敢这样演

你在无意中发现别人什么秘密?网友爆料,电视剧都不敢这样演

夜深爱杂谈
2026-03-16 22:21:03
难绷...懂王做了中转站,提供稳定的 Claude,还踏马七折

难绷...懂王做了中转站,提供稳定的 Claude,还踏马七折

赛博禅心
2026-05-06 17:54:46
两任书记皆落马!“最牛风投之城”合肥急需从“大树至上”走向“草本主义”

两任书记皆落马!“最牛风投之城”合肥急需从“大树至上”走向“草本主义”

吾球商业地理
2026-05-07 12:09:56
雷霆这么猛也有烦恼,今夏薪资爆炸,这些人恐怕留不住了

雷霆这么猛也有烦恼,今夏薪资爆炸,这些人恐怕留不住了

兵哥篮球故事
2026-05-06 19:15:30
6月1日起全国医院统一新规,看病再也不用愁,谁都不能例外

6月1日起全国医院统一新规,看病再也不用愁,谁都不能例外

老特有话说
2026-05-07 15:20:09
中纪委划红线:严查公务员出现这5种行为,触碰将一律严肃处理

中纪委划红线:严查公务员出现这5种行为,触碰将一律严肃处理

细说职场
2026-05-06 14:21:03
央视硬刚国际足联拒掏20亿,背后一明一暗3000亿资本操控

央视硬刚国际足联拒掏20亿,背后一明一暗3000亿资本操控

大猫财经Pro
2026-05-07 17:25:02
五一北京突现三大反常现象,太出人意料

五一北京突现三大反常现象,太出人意料

三农老历
2026-05-07 15:41:16
《妻旅2026》第四期:8人一顿饭花了1.5万!网友:挥霍惯了!

《妻旅2026》第四期:8人一顿饭花了1.5万!网友:挥霍惯了!

糊咖娱乐
2026-05-06 19:07:50
改期!只剩曼联和利物浦两场未定,其中一场英超提前开赛

改期!只剩曼联和利物浦两场未定,其中一场英超提前开赛

嗨皮看球
2026-05-07 17:23:53
妈妈带3岁儿子送外卖不幸遭遇车祸,孩子满脸伤痕不哭不闹一直守在身旁,网友:这一刻他就是妈妈的“守护天使”

妈妈带3岁儿子送外卖不幸遭遇车祸,孩子满脸伤痕不哭不闹一直守在身旁,网友:这一刻他就是妈妈的“守护天使”

洪观新闻
2026-05-06 11:24:50
亏损超1.5亿!《寒战1994》票房崩塌,我感慨:这块金字招牌砸了

亏损超1.5亿!《寒战1994》票房崩塌,我感慨:这块金字招牌砸了

靠谱电影君
2026-05-05 10:40:44
《人民的名义》最讽刺的地方,就是对底层群众和天龙人的刻画了

《人民的名义》最讽刺的地方,就是对底层群众和天龙人的刻画了

剧有梗
2026-05-05 07:42:28
2026-05-07 18:16:49
我不叫阿哏
我不叫阿哏
分享有趣、有用的故事!
368文章数 6717关注度
往期回顾 全部

科技要闻

月之暗面完成20亿美元融资,估值突破200亿

头条要闻

周喜安被判死缓:在两省共受贿过亿 被指学术成就丰富

头条要闻

周喜安被判死缓:在两省共受贿过亿 被指学术成就丰富

体育要闻

巴黎再进欧冠决赛,最尴尬的情况还是发生了

娱乐要闻

小S阿雅重返大S母校,翻看大S毕业照

财经要闻

金融“风暴”,AI制造

汽车要闻

雷克萨斯全新纯电三排SUV 全新TZ全球首发

态度原创

健康
家居
手机
亲子
数码

干细胞治烧烫伤面临这些“瓶颈”

家居要闻

破茧成蝶 土味精装房爆改

手机要闻

三星手机中国正常销售背后:去年投放13款机型 销量至少百万

亲子要闻

宝蓝趁爸爸睡着了,把爸爸的薯片都拿走偷吃,突然被爸爸发现了

数码要闻

肯辛通扩充USB-C GaN充电头产品线,新推70W三口、140W四口

无障碍浏览 进入关怀版