网易首页 > 网易号 > 正文 申请入驻

NVIDIA Dynamo 开源库加速并扩展 AI 推理模型

0
分享至

NVIDIA Dynamo 提高了推理性能,同时降低了扩展测试时计算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理优化将 DeepSeek-R1 上的吞吐量提高了 30 倍

美国加利福尼亚州圣何塞 —— GTC —— 太平洋时间 2025 年 3 月 18 日 —— NVIDIA 今日发布了开源推理软件 NVIDIA Dynamo,旨在以高效率、低成本加速并扩展 AI 工厂中的 AI 推理模型。

高效地编排和协调大量 GPU 上的 AI 推理请求,对确保 AI 工厂实现运行成本最小化、token 收益最大化来说至关重要。

随着 AI 推理逐渐变为主流,AI 模型在处理每个提示时都会生成数以万计的 token 用于“思考”。提高推理性能的同时不断降低推理成本,可加速服务提供商的增长并增加收入机会。

作为 NVIDIA Triton™ 推理服务器的后续产品,NVIDIA Dynamo 是一款全新的 AI 推理服务软件,旨在为部署推理 AI 模型的 AI 工厂最大化其 token 收益。它协调并加速数千个 GPU 之间的推理通信,并使用分离服务将大语言模型 (LLM) 的处理阶段和生成阶段在不同 GPU 上分离开来。这使得每个阶段的特定需求可以进行单独优化,并确保更大程度地利用 GPU 资源。

“全世界各行业都在训练 AI 模型以不同的方式进行思考和学习,从而使模型复杂度持续升级。”NVIDIA 创始人兼首席执行官黄仁勋表示,“为了实现自定义推理 AI 的未来,NVIDIA Dynamo 可以在这些模型上进行规模化部署,从而为 AI 工厂实现降本增效”。

在 GPU 数量相同的情况下,Dynamo 可将 NVIDIA Hopper™ 平台上运行 Llama 模型的 AI 工厂性能和收益翻倍。在由 GB200 NVL72 机架组成的大型集群上运行 DeepSeek-R1 模型时,NVIDIA Dynamo 的智能推理优化也可将每个 GPU 生成的 token 数量提高 30 倍以上。

为了提升这些推理性能,NVIDIA Dynamo 加入了一些功能,使其能够提高吞吐量的同时降低成本。它可以根据不断变化的请求数量和类型,动态添加、移除和重新分配 GPU,并精确定位大型集群中的特定 GPU,从而更大限度地减少响应计算和路由查询。此外,它还可以将推理数据卸载到成本更低的显存和存储设备上,并在需要时快速检索这些数据,最大程度地降低推理成本。

NVIDIA Dynamo 完全开源并支持 PyTorch、SGLang、NVIDIA TensorRT™-LLM 和 vLLM,使企业、初创公司和研究人员能够开发和优化在分离推理时部署 AI 模型的方法。这将使用户加速采用 AI 推理,包括亚马逊云科技、Cohere、CoreWeave、戴尔科技、Fireworks、谷歌云、Lambda、Meta、微软 Azure、Nebius、NetApp、OCI、Perplexity、Together AI 和 VAST。

推理性能提升

NVIDIA Dynamo 可将推理系统在处理过往请求时于显存中保存的知识(称为 KV 缓存),映射到潜在的数千个 GPU 中。

然后,它会将新的推理请求路由到与所需信息匹配度最高的 GPU 上,从而避免昂贵的重新计算,并释放 GPU 来响应新的请求。

Perplexity AI 首席技术官 Denis Yarats 表示:“为了处理每月数以亿计的请求,我们依靠 NVIDIA GPU 及推理软件来提供业务和用户所需的性能、可靠性和拓展性。我们期待通过 NVIDIA Dynamo 及其增强的分布式服务能力,进一步提高推理服务效率,满足全新 AI 推理模型的计算需求。”

代理式 AI

AI 提供商 Cohere 计划使用 NVIDIA Dynamo 为其 Command 系列模型中的代理式 AI 功能提供支持。

Cohere 工程部门高级副总裁 Saurabh Baji 表示:“扩展先进的 AI 模型需要复杂的多 GPU 调度、无缝协调和低延迟通信库,以便在显存和存储中无缝传输推理上下文。我们期待 NVIDIA Dynamo 能帮助我们为企业客户提供卓越的用户体验。”

分离服务

NVIDIA Dynamo 推理平台还支持分离服务,将 LLM 的不同计算阶段(包括建立对用户查询的理解,然后生成最佳响应)分配给不同的 GPU。这种方法非常适合推理模型,例如全新的 NVIDIA Llama Nemotron 模型系列,它们使用高级推理技术来改进上下文理解和响应生成。分离服务使得每个阶段可以进行单独的微调和资源调配,从而提高吞吐量并更快地响应用户。

Together AI (AI Acceleration Cloud) 正在寻求将其专有的 Together Inference Engine 与 NVIDIA Dynamo 集成,以便推理工作负载实现跨 GPU 节点的无缝扩展。这也让 Together AI 能够动态地解决模型管线各个阶段的流量瓶颈。

Together AI 首席技术官 Ce Zhang 表示:“经济高效地扩展推理模型需要新的先进推理技术,包括分离服务和上下文感知路由。借助我们专有的推理引擎,Together AI 可提供行业领先的性能。NVIDIA Dynamo 的开放性和模块化使我们能够将其组件无缝嵌入引擎,以满足更多请求,同时优化资源利用率,从而最大化我们在加速计算方面的投资。我们很高兴能够利用该平台的突破性功能,经济高效地为用户提供开源推理模型。”

NVIDIA Dynamo 组成结构

NVIDIA Dynamo 包含四项关键创新,可降低推理服务成本并改善用户体验:

· GPU 规划器 (GPU Planner):一种规划引擎,可动态地添加和移除 GPU,以适应不断变化的用户需求,从而避免 GPU 配置过度或不足。

· 智能路由器 (Smart Router):一个具备大语言模型 (LLM) 感知能力的路由器,它可以在大型 GPU 集群中引导请求的流向,从而最大程度减少因重复或重叠请求而导致的代价高昂的 GPU 重复计算,释放出 GPU 资源以响应新的请求。

· 低延迟通信库 (Low-Latency Communication Library):推理优化库,支持先进的 GPU 到 GPU 通信,并简化异构设备之间的复杂数据交换,从而加速数据传输。

· 显存管理器 (Memory Manager):一种可在不影响用户体验的情况下,以智能的方式在低成本显存和存储设备上卸载及重新加载推理数据的引擎。

NVIDIA Dynamo 将作为 NVIDIA NIM™ 微服务推出,并在未来版本中由 NVIDIA AI Enterprise 软件平台提供支持,具有生产级的安全性、支持和稳定性。

如需了解更多信息,请观看 NVIDIA GTC 大会主题演讲、阅读 Dynamo 博客,以及注册参与持续至 3 月 21 日的由 NVIDIA 和行业领导者主持的会议。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发!人类首次创造出具有生命大部分特征的细胞

突发!人类首次创造出具有生命大部分特征的细胞

风向观察
2026-07-02 07:34:42
因祸得福?巴洛贡一张红牌,为美国球迷带来六万张披萨

因祸得福?巴洛贡一张红牌,为美国球迷带来六万张披萨

懂球帝
2026-07-02 12:08:07
紫牛头条|父亲带着 9 岁女儿在清华门口拍了张照,17 年后父女俩复刻了这张照片

紫牛头条|父亲带着 9 岁女儿在清华门口拍了张照,17 年后父女俩复刻了这张照片

扬子晚报
2026-07-01 22:55:08
清华大学拟退学一名本科生,穷尽各种方式都无法联系到学生?

清华大学拟退学一名本科生,穷尽各种方式都无法联系到学生?

文忆天下
2026-07-02 09:49:44
李谷一大胆开麦,揭露宋祖英走上高位的真相,观众:原来如此!

李谷一大胆开麦,揭露宋祖英走上高位的真相,观众:原来如此!

妙知
2026-07-01 04:32:57
火爆欧洲的中国空调,曾被提醒“别贴Made in China”

火爆欧洲的中国空调,曾被提醒“别贴Made in China”

极目新闻
2026-07-02 08:46:13
定价直逼百万!全尺寸情感陪伴男性人形机器人比女性贵了11万,官方:功能完全一致

定价直逼百万!全尺寸情感陪伴男性人形机器人比女性贵了11万,官方:功能完全一致

可达鸭面面观
2026-07-01 22:21:03
世界杯残忍一幕:49岁主帅被淘汰后参加发布会,被告知父亲刚去世

世界杯残忍一幕:49岁主帅被淘汰后参加发布会,被告知父亲刚去世

风过乡
2026-07-02 08:25:16
道歉之后,韩红基金会被全民“抓特务”

道歉之后,韩红基金会被全民“抓特务”

木蹊说
2026-07-01 21:34:33
突发!以色列宣布:打死伊斯梅尔·马斯里

突发!以色列宣布:打死伊斯梅尔·马斯里

每日经济新闻
2026-06-30 11:36:05
两年前叫嚣“击落歼-20”的台军女飞行员郭文静,现在怎样了?

两年前叫嚣“击落歼-20”的台军女飞行员郭文静,现在怎样了?

每日一段历史
2026-07-02 08:44:21
美国2比0战胜波黑,东道主齐进美加墨世界杯16强

美国2比0战胜波黑,东道主齐进美加墨世界杯16强

澎湃新闻
2026-07-02 10:08:28
重回世界第一,中国亮出底牌

重回世界第一,中国亮出底牌

南风窗
2026-07-02 13:01:31
重磅!凯尔特人与76人达成1换5交易 布朗乔治互换东家

重磅!凯尔特人与76人达成1换5交易 布朗乔治互换东家

罗说NBA
2026-07-02 06:20:21
头条世界杯|英格兰比利时双双逆转:落后不可怕,谁菜谁尴尬

头条世界杯|英格兰比利时双双逆转:落后不可怕,谁菜谁尴尬

澎湃新闻
2026-07-02 07:24:27
黄仁勋“抠门三件套”曝光!英伟达没有免费午餐,连咖啡都收钱

黄仁勋“抠门三件套”曝光!英伟达没有免费午餐,连咖啡都收钱

雷科技
2026-07-01 18:33:15
从疯狂翻表到群里直接@AI:飞书来了个新同事,把脏活累活全包了

从疯狂翻表到群里直接@AI:飞书来了个新同事,把脏活累活全包了

爱范儿
2026-07-01 15:39:25
义乌9.42平方米商铺拍出1700万元,仅含使用权且只能经营饰品,商城:位置好人流量高

义乌9.42平方米商铺拍出1700万元,仅含使用权且只能经营饰品,商城:位置好人流量高

极目新闻
2026-07-01 18:30:15
7月1日起信访新规:进京上访,须持省级“通行证”,否则不登记

7月1日起信访新规:进京上访,须持省级“通行证”,否则不登记

混沌录
2026-07-01 18:10:39
黄有龙澳洲赌债案落槌:2.8亿输光、2.7亿本金偿还、亿元利息主张

黄有龙澳洲赌债案落槌:2.8亿输光、2.7亿本金偿还、亿元利息主张

阿讯说天下
2026-07-02 09:56:50
2026-07-02 15:35:00
NVIDIA英伟达中国 incentive-icons
NVIDIA英伟达中国
英伟达(中国)官方账号
3590文章数 1459关注度
往期回顾 全部

科技要闻

奥特曼的新算盘:给白宫5%股权 换政策绿灯

头条要闻

中国超级计算机时隔9年重回世界第一 中方亮出底牌

头条要闻

中国超级计算机时隔9年重回世界第一 中方亮出底牌

体育要闻

世界杯硬核球迷,把自己变成了雕像

娱乐要闻

霍震霆回应霍启山娜然结婚传闻

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

小鹏MONA L03 智能化水平拉满 还有玩法多样的巧思大空间

态度原创

教育
房产
亲子
艺术
公开课

教育要闻

两大名校集团联手,朝阳北部教育大变脸

房产要闻

海口安居房,重大利好来了!

亲子要闻

城市套路深,我要回农村

艺术要闻

光辉历程 时代丹青——庆祝中国共产党成立105周年美展 油画选

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版