网易首页 > 网易号 > 正文 申请入驻

英伟达力荐,小团队两个月开源一款「光速级」智能体推理引擎

0
分享至



机器之心编辑部

智能体时代的核心是算力。

尤其是在 Coding Agent 爆发之后,算力问题变得前所未有地尖锐。Claude Code、Codex、Cursor 等产品正在把 AI 从「问答工具」变成「持续运行的软件协作者」,单次会话轻松突破 50K tokens,系统负载转向了更极端、更复杂的智能体负载。

最近有关算力的大新闻层出不穷。今天的最新消息:马斯克的 SpaceX 与 Anthropic 宣布达成了重磅协议,超过 22 万块英伟达 GPU 将为 Anthropic 所用。而 Anthropic 对与 SpaceX 合作开发未来的太空算力体系「表示有兴趣」。

在如此庞大的算力需求下,除了开源还有节流。也是今天的最新消息:OpenAI 发布了多路径可靠连接 (MRC),可帮助大型 AI 训练集群更快、更可靠地运行,并减少 GPU 时间的浪费。

我们知道,即便只是单 GPU 吞吐率上的微小提升,一旦应用到生产级集群中,也能够在服务持续增长需求的同时,节约相当可观的算力。

来自 LightSeek Foundation 的一个小团队,在两个月时间内打造了一个全新的,号称「光速」的大模型推理引擎 TokenSpeed。



这一引擎拥有TensorRT LLM 级别的性能,vLLM 级别的易用性。并且拥有 NVIDIA Blackwell 上最快的 MLA 注意力内核。

一经发布,TokenSpeed 就受到了英伟达发推文力荐。



目前,该引擎已经开源。让我们参阅其技术博客,来深入了解「光速」引擎的技术细节。



  • 博客标题:TokenSpeed: A Speed-of-Light LLM Inference Engine for Agentic Workloads
  • 博客链接:https://lightseek.org/blog/lightseek-tokenspeed.html
  • Github 链接:https://github.com/lightseekorg/tokenspeed

TokenSpeed 技术简介

TokenSpeed 从第一性原理出发,专门为智能体推理场景设计。它为智能体负载提供接近「光速级」的推理能力,核心包括:基于编译器的并行建模机制、高性能调度器、安全的 KV 资源复用约束、支持异构加速器的可插拔分层 kernel 系统,以及用于低开销 CPU 侧请求入口的 SMG 集成。

建模层采用本地 SPMD(Single Program, Multiple Data,单程序多数据)设计,在性能与易用性之间取得平衡。TokenSpeed 允许开发者在模块边界指定 I/O placement 注解。随后,一个轻量级静态编译器会在模型构建过程中自动生成所需的 collective operation,从而无需手动实现通信逻辑。

TokenSpeed 调度器将控制平面(control plane)与执行平面(execution plane)解耦。

控制平面使用 C++ 实现,并被构建为一个有限状态机(FSM),结合类型系统,在编译期而非运行期强制执行安全资源管理,包括 KV cache 状态转移与使用。请求生命周期、KV cache 资源以及重叠执行时序,都通过显式 FSM 状态迁移与所有权语义进行表示,因此系统正确性并非依赖约定,而是由一个可验证的控制系统来保证。

执行平面则使用 Python 实现,以保持开发效率,使研究人员与工程师能够更快进行功能迭代,并降低整体认知负载。

TokenSpeed 的 kernel 层将 kernel 从核心引擎中解耦,并将其视为一级模块化子系统。它提供了可移植的公共 API、集中的注册与选择机制、组织良好的实现结构、面向异构加速器的可扩展插件机制、经过整理的依赖体系,以及统一的快速迭代基础设施。

与此同时,团队还针对 NVIDIA Blackwell 架构进行了大量性能优化。例如,他们构建了当前智能体负载场景下速度最快的 MLA(Multi-head Latent Attention,多头潜在注意力)kernel 之一。在 decode kernel 中,由于部分场景下「num_heads」较小,团队通过对「q_seqlen」与「num_heads」进行分组,以更充分利用 Tensor Core 的计算能力。而 binary prefill kernel 则包含了经过精细调优的 softmax 实现。

目前,TokenSpeed MLA 已被 vLLM 采用。

TokenSpeed 性能预览

Coding Agents(编码智能体)带来了异常严苛的推理工作负载,上下文通常会超过 50K tokens,对话也经常跨越数十轮。大多数公开基准测试并不能充分捕捉这种行为。

研发团队与 EvalScope 团队一起,基于 SWE-smith 轨迹对 TokenSpeed 进行评估,这些轨迹密切反映了生产环境中 Coding Agents 的流量情况。由于生成速度对 Agent 的用户体验至关重要,因此,团队的目标是在维持单用户 TPS(每秒 token 数)下限的同时,最大化单 GPU 的 TPM(每分钟 token 数)—— 通常是 70 TPS,有时是 200 TPS 或更高。

此外,研发团队针对 TensorRT-LLM(目前 NVIDIA Blackwell 平台上的最高水平)对这一设计进行了基准测试,并在认为针对 Agentic workloads 存在更好权衡的地方,采取了与之不同的设计方案。

下图展示了在不同部署配置下(无 PD 解耦),TokenSpeed 与 TensorRT-LLM 的 Kimi K2.5 性能帕累托曲线(Pareto curves)。

每条曲线都以 TPS/User(横轴)作为延迟指标,以 TPM/GPU(纵轴)作为吞吐指标,并通过扫描并发数绘制而成。对于 Coding Agents(高于 70 TPS/User),最佳配置是 Attention TP4 + MoE TP4。

在这一配置下,TokenSpeed 在整个帕累托前沿上均优于 TensorRT-LLM:在最低延迟场景下(batch size 1)大约快 9%,在 100 TPS/User 附近吞吐量大约高 11%。



团队表示,他们的核心优化之一是 TokenSpeed MLA。下图对比了 TokenSpeed MLA 与 TensorRT-LLM 的 MLA,后者是目前 NVIDIA Blackwell 上的 SoTA。



可以看出来,优化后的二进制版本预填充内核(prefill kernel),使用 NVIDIA 内部旋钮来微调 softmax 实现,在 Coding Agents 的五种典型预填充工作负载(带长前缀 KV cache 的 prefill)中,都超过了 TensorRT-LLM 的 MLA。解码内核则将查询序列轴折叠进头轴,以更好地填充 BMM1 的 M tile,从而提升 Tensor Core 利用率。

结合其他优化,在带有 speculative decoding 的典型解码工作负载中(batch size 为 4、8、16,且带长前缀 KV cache),这使得相对于 TensorRT-LLM 来说,延迟几乎降低了一半。

最后,研发团队也表示,该项目于 2026 年 3 月中旬启动开发,虽然目前展示了惊人的性能,但仍有大量底层代码(如 PD 分离、KV 存储等)正在合并和完善中,接下来将继续推进。

从上述性能表现来看,不难看出,TokenSpeed 的出现旨在通过更现代化的架构设计,打破传统推理框架在易用性与极致性能之间的平衡点,为大规模 Agent 部署提供了一个高性能、开源的底座。而英伟达的力荐,也说明推理引擎正在成为 Agent 时代基础设施竞争的一个新焦点。

更多信息,请参阅原博客!

https://x.com/lightseekorg/status/2052048105412141376

https://x.com/NVIDIAAI/status/2052061195381911806

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
某金融机构全国销冠被警方带走!高净值客户集体踩坑,卷入超 4 亿“庞氏骗局”,公司背书竟是陷阱?

某金融机构全国销冠被警方带走!高净值客户集体踩坑,卷入超 4 亿“庞氏骗局”,公司背书竟是陷阱?

新浪财经
2026-05-07 00:06:03
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
三星离开了!网友预言国产必涨价,各种广告跳转,开机麻烦还得贵

三星离开了!网友预言国产必涨价,各种广告跳转,开机麻烦还得贵

眼光很亮
2026-05-07 06:41:53
她早知丈夫出轨,直到节目结束才离婚,拿下9成财产后华丽翻盘

她早知丈夫出轨,直到节目结束才离婚,拿下9成财产后华丽翻盘

手工制作阿歼
2026-05-07 17:03:51
张军被查创下多个尴尬“纪录”,18年前曾因酒驾被查

张军被查创下多个尴尬“纪录”,18年前曾因酒驾被查

元芳有看法
2026-04-30 09:25:44
打工人天塌了,老乡鸡、肯德基全都涨价了!

打工人天塌了,老乡鸡、肯德基全都涨价了!

新10亿商业参考
2026-05-07 18:18:04
张兰力挺马筱梅,称呼小孙子为汪宝,晒一家三口合影,幸福满满!

张兰力挺马筱梅,称呼小孙子为汪宝,晒一家三口合影,幸福满满!

老吴教育课堂
2026-05-07 17:21:23
杭州富豪为瘫痪女儿招婿,穷小伙咬牙接受,新婚当晚他却傻眼了

杭州富豪为瘫痪女儿招婿,穷小伙咬牙接受,新婚当晚他却傻眼了

牛魔王与芭蕉扇
2025-03-10 11:10:01
瀑布秋千亲历者:“没绑紧”不是遇难女孩说的

瀑布秋千亲历者:“没绑紧”不是遇难女孩说的

中国新闻周刊
2026-05-06 22:12:01
卖一张亏一张!AMD全系显卡价格倒挂加剧:RX 7650 GRE卖1740元还赔钱

卖一张亏一张!AMD全系显卡价格倒挂加剧:RX 7650 GRE卖1740元还赔钱

快科技
2026-05-07 16:12:15
离开国家队后,她帮意大利实现八连冠,如今31岁绯闻不断仍是单身

离开国家队后,她帮意大利实现八连冠,如今31岁绯闻不断仍是单身

林轻吟
2026-04-28 14:25:49
李赛凤的乱伦,床缝摸出个用过的套,衣柜里还藏着个半裸的干儿子

李赛凤的乱伦,床缝摸出个用过的套,衣柜里还藏着个半裸的干儿子

西楼知趣杂谈
2026-04-26 10:18:11
挖出戴手铐的女遗骨,鉴定后确定,她就是中央苦苦寻找的人!

挖出戴手铐的女遗骨,鉴定后确定,她就是中央苦苦寻找的人!

小莜读史
2026-05-04 00:01:32
“不给6套房加1个亿,不搬”,钉子户张新国坚守14年,终败给现实

“不给6套房加1个亿,不搬”,钉子户张新国坚守14年,终败给现实

红梦史说
2025-07-11 11:23:39
油价大变天!5月8日国内油价调整最新消息,预计油价大涨460元/吨

油价大变天!5月8日国内油价调整最新消息,预计油价大涨460元/吨

有料财经
2026-05-06 22:24:47
乌克兰:中国曾"榨干"苏联遗产,我们图纸没看懂,他们造出2.0

乌克兰:中国曾"榨干"苏联遗产,我们图纸没看懂,他们造出2.0

叹知
2026-05-07 13:44:03
泰国一天批了290亿美元,TikTok独占250亿

泰国一天批了290亿美元,TikTok独占250亿

薛定谔的BUG
2026-05-06 19:11:34
久别重逢!94岁姐姐跨省探望82岁患病弟弟,弟弟泪流满面

久别重逢!94岁姐姐跨省探望82岁患病弟弟,弟弟泪流满面

极目新闻
2026-05-06 21:20:39
酒局持续4小时,从下厨招待到拿刀拼命,妻子到底经历了什么

酒局持续4小时,从下厨招待到拿刀拼命,妻子到底经历了什么

笑谈历史阿晡
2026-05-04 12:02:08
【现场】又被狡猾恩里克骗了!变色龙巴黎给拜仁上课

【现场】又被狡猾恩里克骗了!变色龙巴黎给拜仁上课

体坛周报
2026-05-07 11:37:12
2026-05-07 19:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12939文章数 142644关注度
往期回顾 全部

科技要闻

月之暗面完成20亿美元融资,估值突破200亿

头条要闻

媒体:不是中国离不开世界杯 是世界杯更需要中国

头条要闻

媒体:不是中国离不开世界杯 是世界杯更需要中国

体育要闻

巴黎再进欧冠决赛,最尴尬的情况还是发生了

娱乐要闻

孙杨强迫拉张豆豆手那一幕,我看笑了,也看怒了

财经要闻

金融“风暴”,AI制造

汽车要闻

雷克萨斯全新纯电三排SUV 全新TZ全球首发

态度原创

数码
亲子
本地
健康
公开课

数码要闻

华为MatePad Pro Max平板海外首发,预装HarmonyOS 4.3系统

亲子要闻

三岁女儿在高铁上给妈妈送祝福,温暖又治愈

本地新闻

用青花瓷的方式,打开西溪湿地

干细胞治烧烫伤面临这些“瓶颈”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版