网易首页 > 网易号 > 正文 申请入驻

并行革命,32倍吞吐量跃升!英伟达Helix架构突破百万Token推理瓶颈

0
分享至

新智元报道

编辑:peter东 英智

【新智元导读】长期以来,大模型受限于有限的上下文窗口,在处理长任务或对话时不得不忘记早期信息,英伟达近日推出的Helix并行技术受DNA结构启发,分割显存和处理任务,显著提升大模型的上下文长度,并发能力,并可降低响应延迟。

想象一个使用大模型的任务,需要一次处理百万字符的文档,例如从百科全书中获取信息,或是分析数百页的法律卷宗,异或追踪持续数月的对话记录,都需要越来越长的上下文。

而大模型生成的每个词都需要扫描存储在所谓的KV缓存中存储的过去标记。

反复读取这个缓存会消耗GPU内存带宽。大模型还需要从内存中重新加载大量的前馈网络(FFN)权重来处理每个新词。

这个过程会减慢效应速度,从而导致用户与大模型对话时出现卡顿。

传统的解决方案,是使用张量并行(Tensor Parallelism, TP)将此负载分散到多个GPU上。但这仅能起到一定作用。

当规模超过一定限度后,GPU开始复制KV缓存,导致内存压力进一步增大。

而Helix这一英伟达针对其最新的Blackwall开发的并行策略,通过将模型Transformer层的注意力机制和前馈网络部分分开处理来解决卡顿问题。

Helix受DNA双螺旋结构的启发,Helix将KV、张量和专家等多个维度的并行性交织到一个统一的执行循环中。

每个阶段在其自身的瓶颈配置下运行,同时复用相同的GPU池。

论文链接:https://d1qx31qr3h6wln.cloudfront.net/publications/Helix_0.pdf

Helix是怎么做到百万上下文不卡顿

在注意力阶段,Helix使用一种名为KV并行(KVP)的新方法,将庞大的KV缓存分散到多个GPU上。

当TP超过KV头的数量时,张量并行会进行复制,从而增加了内存和带宽开销,如图1a到c描述的过程。

Helix通过将TP=2与KVP=2相结合,形成2D布局来避免内存和带宽开销的增加,对应图1d。

图1:传统的张量并行(TP)与Helix的不同注意力分片策略KVP的对比示意图

同时,由于KVP GPU持有与其本地KV头相关联的所有查询头,并冗余地计算QKV投影。

这使得每个KV分片能够进行完全本地的FlashAttention,确保了模型的推理精度。

之后KVP GPU之间沿着查询头维度进行单对单的全连接通信,通信的成本和KV缓存的大小无关,因此大模型的上下文长度即使扩展到百万token,也不会影响查询效率。

此外,Helix还通过重叠通信和计算,一旦计算出一个token的注意力输出,Helix就会启动该token的全对全交换,同时计算下一个token的注意力。

这种紧密的重叠将通信延迟隐藏在有用的工作之后,保持GPU利用率高,并进一步加速实时解码。

图2中上图的八个请求会同步执行注意力计算。随后进行顺序的全对全通信。

图2表底部对应使用HOP-B时,一个请求的通信与下一个请求的计算重叠,通过细粒度流水线减少了token间的延迟。

图2:Helix通过细粒度流水线技术加速大模型的响应

引入Helix带来的高并发和低延迟

根据英伟达官网给出的计算,使用DeepSeek-R1 671B模型,在给定延迟下,当并发的用户数增大时,Helix相比传统方法体现出优势。

而到了图中第一个箭头标注的点时,其单GPU产出的token数是传统方法的32倍,这意味着可以将并发用户数量提高高达32倍。

图3:使用100万上下文长度的DeepSeek-R1,评估使用经过最新NVIDIA GB200 NVL72(Blackwell)在固定延迟下的并发能力

在低并发设置下,Helix可以通过减token与token间的最低延迟时间,来提高用户交互体验,如图3右下方的对比所示。

该研究的参与者St-Maurice指出「Helix正在重塑我们处理LLM交互和设计的方式。」

他指出,Helix并行处理和优化的KV缓存分片正在为大模型提供可扩展的显存外挂,这与开发者改进旧处理器(如奔腾)的方式高度相似。

该技术能允许大模型应用扩展其用户规模的同时,保证其快速响应。

对于虚拟助手、法律机器人以及AI Copolit等应用,Helix的引入可以做到既处理大量工作负载,同时还保持低延迟响应能力。

Helix是否为画靶射箭的争论

对于这项技术突破,西北人工智能咨询公司的首席执行官兼联合创始人Wyatt Mayham表示:「英伟达的数百万个token的上下文窗口是一项令人印象深刻的工程里程碑,但对于大多数公司来说,它是一个寻找问题的解决方案,它解决了现有模型如长上下文推理和二次扩展等真实限制,但技术可能性和实际实用性之间存在差距。」

Mayham承认Helix在特定领域中很有用,例如需要完整文档保真度的合规性强的行业,或医疗系统一次性分析患者终身病史。

但这只是部分特例,大多数组织最好是构建更智能的流水线,而不是购买helix所需的Blackwell架构下的GB200机架。

且通常情况下,检索增强生成(RAG)系统能够在百万个token的范围内,表现的比将上下文长度提升到100k更好。

而Info-Tech研究集团技术顾问Justin St-Maurice则指出:在当今世界,为人类生成百科全书大小的回答并不是胜利。

相反,关键在于使大模型的输出对其他人工智能相关且可用。

这种能力可能成为未来智能体进步的推手。

有了当大模型的输出能具有对应的认知框架,智能体可以保持更丰富的内部状态,参与更复杂、更长时间的聊天,并执行更深入文档分析。

St-Maurice指出:Helix带来的长上下文窗口,能够支持context engineer(上下文工程)在庞大的上下文窗口中管理和优化信息,以最大限度地提高智能体的有效性和可靠性。

凭借在扩展的上下文窗口中处理和交换更大数据量的能力,AI智能体可以以以前不切实际的方式沟通和协作,从而改变多智能体应用的设计框架。

参考资料:

https://research.nvidia.com/publication/2025-07_helix-parallelism-rethinking-sharding-strategies-interactive-multi-million

https://www.computerworld.com/article/4019170/new-nvidia-technology-provides-instant-answers-to-encyclopedic-length-questions.html

https://d1qx31qr3h6wln.cloudfront.net/publications/Helix_0.pdf

https://interestingengineering.com/innovation/nvidia-helix-breakthrough-long-context-ai?utm_source=chatgpt.com

https://developer.nvidia.com/blog/asking-an-encyclopedia-sized-question-how-to-make-the-world-smarter-with-multi-million-token-real-time-inference/?utm_source=chatgpt.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
蒋介石未必是位合格的领导,但追随他到底的将领,大多能安享晚年

蒋介石未必是位合格的领导,但追随他到底的将领,大多能安享晚年

小院之观
2026-03-20 08:00:12
课本上猛夸的4个历史人物,长大后却发现:他们坏到骨子里

课本上猛夸的4个历史人物,长大后却发现:他们坏到骨子里

长风文史
2026-03-19 14:01:22
高市刚到美国,特朗普就给她定性,将日本列入“全球威胁报告”

高市刚到美国,特朗普就给她定性,将日本列入“全球威胁报告”

健身狂人
2026-03-21 00:32:23
邯郸三姐妹上坟被炸死后续!家属发声,怀疑有共犯,被死亡威胁

邯郸三姐妹上坟被炸死后续!家属发声,怀疑有共犯,被死亡威胁

180视角
2026-03-20 14:24:32
中共中央批准,马震任重庆市委常委

中共中央批准,马震任重庆市委常委

观察者网
2026-03-20 20:14:23
联盟第1+联盟第4!湖人八连胜仍靠进攻破局 詹皇贡献被大大低估

联盟第1+联盟第4!湖人八连胜仍靠进攻破局 詹皇贡献被大大低估

颜小白的篮球梦
2026-03-21 08:54:41
判处抗议者绞刑伊朗法官被击毙,巴斯基司令躲帐篷中被杀

判处抗议者绞刑伊朗法官被击毙,巴斯基司令躲帐篷中被杀

移光幻影
2026-03-20 10:18:00
浙江迎来第三所“985”?家长:杭州还有第二所吗

浙江迎来第三所“985”?家长:杭州还有第二所吗

19楼
2026-03-20 20:21:18
悬在民营经济头上的达摩克利斯之剑

悬在民营经济头上的达摩克利斯之剑

生命可以承受之轻
2026-03-20 07:15:52
 黄仁勋:年薪50万的工程师没用掉25万美元的token,我会极度恐慌

黄仁勋:年薪50万的工程师没用掉25万美元的token,我会极度恐慌

顶级大佬思维
2026-03-20 11:40:46
美国国债出事了:突遭大量抛售!美债突破39万亿美元,每月利息可造900架F-35,美联储加息概率大增!再加2000亿军费打伊朗?特朗普:小钱

美国国债出事了:突遭大量抛售!美债突破39万亿美元,每月利息可造900架F-35,美联储加息概率大增!再加2000亿军费打伊朗?特朗普:小钱

每日经济新闻
2026-03-21 00:17:17
男子蹭饭260顿后续:拒拿2000赔偿硬刚,正脸曝光,同学认出社死

男子蹭饭260顿后续:拒拿2000赔偿硬刚,正脸曝光,同学认出社死

奇思妙想草叶君
2026-03-20 14:13:32
钱没到位就翻脸?伊朗总统公开喊话中国,背后藏着三个鬼主意!

钱没到位就翻脸?伊朗总统公开喊话中国,背后藏着三个鬼主意!

Hi科普啦
2026-03-20 11:57:18
5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

叮当当科技
2026-03-20 03:29:51
美国防官员已为向伊朗部署地面部队制定详尽方案

美国防官员已为向伊朗部署地面部队制定详尽方案

大象新闻
2026-03-21 06:57:04
4S店卖一辆亏一辆?杭州经销商:一辆官方指导价12.59万元的车,成交价已击穿8.4万元

4S店卖一辆亏一辆?杭州经销商:一辆官方指导价12.59万元的车,成交价已击穿8.4万元

都市快报橙柿互动
2026-03-20 19:36:04
女子网上吐槽海底捞“点炮”制度遭跨省执法,要求到四川配合调查

女子网上吐槽海底捞“点炮”制度遭跨省执法,要求到四川配合调查

Mr王的饭后茶
2026-03-20 20:17:32
击中以色列最大炼油厂,不再拦截这类伊朗导弹!以色列人现在咋样

击中以色列最大炼油厂,不再拦截这类伊朗导弹!以色列人现在咋样

鹰眼Defence
2026-03-20 18:08:06
通胀之下,无牛市

通胀之下,无牛市

柏年说政经
2026-03-20 18:19:29
特朗普让日本开始行动,高市早苗沉默48小时,说了他最不想听的话

特朗普让日本开始行动,高市早苗沉默48小时,说了他最不想听的话

策略述
2026-03-20 21:17:40
2026-03-21 09:11:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14768文章数 66701关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

伊朗使用一连串重型导弹和无人机 袭击波及以色列全境

头条要闻

伊朗使用一连串重型导弹和无人机 袭击波及以色列全境

体育要闻

6年前的一场悲剧,造就了“法国瓦尔迪”

娱乐要闻

总台首届电影盛典,“沈马”CP再合体

财经要闻

拆解宇树:一年营收17亿 机器人卖给了谁

汽车要闻

何小鹏坦白局:每月3亿的“慌”与通向L4的坚定

态度原创

本地
艺术
数码
房产
公开课

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

艺术要闻

叶浅予的白描舞蹈人物

数码要闻

MacBook Neo充电实测:哪款苹果充电器最快?

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版