网易首页 > 网易号 > 正文 申请入驻

一年后,DeepSeek-R1的每token成本降到了原来的1/32

0
分享至

来源:市场资讯

(来源:机器之心)

编辑 | 杜伟、泽南

几天前,DeepSeek 毫无预兆地更新了 R1 论文,将原有的 22 页增加到了现在的 86 页。


DeepSeek-R1 是在 2025 年 1 月 20 日发布的开源推理大模型,它拥有 6710 亿参数、单 Token 激活参数为 370 亿,并采用了 MoE 架构,训练效率得到了显著提升。

R1 在去年的推出震动了全球 AI 领域,其高效率的模型架构、训练方法、工程优化和蒸馏方法在之后成为了全行业的趋势。

没想到在不到一年之后的今天,R1 模型的每 token 成本竟已降低了到了 1/32!

今天,英伟达发表了一篇长文博客,展示了其如何在 Blackwell GPU 上通过软硬协同对 DeepSeek-R1 进一步降本增效。


随着 AI 模型智能程度的不断提升,人们开始依托 AI 处理日益复杂的任务。从普通消费者到大型企业,用户与 AI 交互的频率显著增加,这也意味着需要生成的 Token 数量呈指数级增长。为了以最低成本提供这些 Token,AI 平台必须实现极高的每瓦特 Token 吞吐量。

通过在 GPU、CPU、网络、软件、供电及散热方案上的深度协同设计,英伟达持续提升每瓦特 Token 吞吐量,从而有效降低了每百万 Token 的成本。此外,英伟达不断优化其软件栈,从现有平台中挖掘更强的性能潜力。

那么,英伟达是怎样协同利用运行在 Blackwell 架构上的推理软件栈,以实现 DeepSeek-R1 在多种应用场景中的性能增益呢?我们接着往下看。

最新 NVIDIA TensorRT-LLM 软件大幅提升推理性能

NVIDIA GB200 NVL72 是一个多节点液冷机架级扩展系统,适用于高度密集型的工作负载。该系统通过第五代 NVIDIA NVLink 互连技术和 NVLink Switch 芯片连接了 72 个 NVIDIA Blackwell GPU,为机架内的所有芯片提供高达 1800 GB/s 的双向带宽。

这种大规模的「扩展域」(Scale-up Domain)专为稀疏 MoE 架构优化,此类模型在生成 Token 时需要专家之间频繁的数据交换。

Blackwell 架构还加入了对 NVFP4 数据格式的硬件加速。这是英伟达设计的一种 4 位浮点格式,相比其他 FP4 格式能更好地保持精度。此外,解耦服务(Disaggregated Serving)这类优化技术也充分利用了 NVL72 架构和 NVLink Switch 技术。简单来解释一下解耦服务,即在一组 GPU 上执行 Prefill(预填充)操作,在另一组 GPU 上执行 Decode(解码)操作。

这些架构创新使得 NVIDIA GB200 NVL72 在运行 DeepSeek-R1 时,能够提供行业领先的性能。

得益于最新 NVIDIA TensorRT-LLM 软件和 GB200 NVL72 的协同,DeepSeek-R1 在 8K/1K 输入 / 输出序列长度下的 Token 吞吐量大幅提升。


同样地,得益于最新 NVIDIA TensorRT-LLM 软件与 GB200 NVL72 的协同,在 1K/1K 序列长度下,DeepSeek-R1 Token 吞吐量同样大幅提升。


另外,在 8K/1K、1K/1K 两种输入 / 输出序列长度的吞吐量与交互性曲线上,GB200 NVL72 也展现出了领先的单 GPU 吞吐能力。

而 TensorRT-LLM 开源库(用于优化 LLM 推理)的最新增强功能,在同一平台上再次大幅增强了性能。在过去三个月中,每个 Blackwell GPU 的吞吐量提升高达 2.8 倍(这里指的是在 8k/1k 输入 / 输出序列长度下,去年 10 月到今年 1 月的 Token 吞吐量变化)。

这些优化背后的核心技术包括:

  • 扩大 NVIDIA 程序化依赖启动 (PDL) 的应用:降低核函数启动延迟,有助于提升各种交互水平下的吞吐量;

  • 底层核函数优化:更高效地利用 NVIDIA Blackwell Tensor Core;

  • 优化的 All-to-all 通信原语:消除了接收端的额外中间缓冲区。

有业内人士对英伟达放出的一系列图表进行了直观的解读,用一组数据来总结就是,「通过软硬件的深度协同,自 2025 年 1 月以来,英伟达已经将 DeepSeek-R1 (671B) 的吞吐量提升了约 36 倍,这意味着单 Token 的推理成本降低到了约 1/32。」



利用多 token 预测和 NVFP4 技术加速 NVIDIA HGX B200 性能

NVIDIA HGX B200 平台由八个采用第五代 NVLink 互连和 NVLink Switch 连接的 Blackwell GPU 组成,在风冷环境下也能实现强大的 DeepSeek-R1 推理性能。

两项关键技术使 HGX B200 上的 DeepSeek-R1 推理性能大幅提升。第一项技术是使用多 token 预测 (MTP),它可以显著提高各种交互级别下的吞吐量。在所有三种测试的输入 / 输出序列组合中都观察到了这一现象。


在 HGX B200 平台上,使用 1K/1K 序列长度和聚合服务模式下,FP8(不带 MTP)、FP8(带 MTP)和 NVFP4(带 MTP)的吞吐量与交互性曲线对比。

第二种方法是使用 NVFP4,充分利用 Blackwell GPU 计算能力来提升性能,同时保持精度。


在 HGX B200 平台上,使用 8K/1K 序列长度和聚合服务模式下,FP8(不含 MTP)、FP8(含 MTP)和 NVFP4(含 MTP)的吞吐量与交互性曲线对比。

NVFP4 使用在完整的 NVIDIA 软件栈上(包括 TensorRT-LLM 和 NVIDIA TensorRT 模型优化器),以确保高性能并保持精度。这使得在给定交互级别下能够实现更高的吞吐量,并且在相同的 HGX B200 平台上,可以实现更高的交互级别。


在 HGX B200 平台上,FP8(无 MTP)、FP8(有 MTP)和 NVFP4(有 MTP)的吞吐量与交互性曲线,序列长度分别为 1K 和 8K,并采用聚合服务模式。

英伟达表示,其正在不断提升整个技术堆栈的性能,可以帮助用户基于现有硬件产品,持续提升大语言模型的工作负载效率,提升各种模型的 token 吞吐量。

博客地址:

https://developer.nvidia.com/blog/delivering-massive-performance-leaps-for-mixture-of-experts-inference-on-nvidia-blackwell/


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大反转,安东尼突爆争议发言!詹姆斯很意外,球迷:不给兄弟面子

大反转,安东尼突爆争议发言!詹姆斯很意外,球迷:不给兄弟面子

阿泰希特
2026-01-16 09:16:48
多哈挑战赛32强产生:女单下半区或失守,男单强势

多哈挑战赛32强产生:女单下半区或失守,男单强势

午夜搭车a
2026-01-16 09:43:52
聂卫平离世1天后,才发现儿女名字取得暗藏深意,字字都有来头

聂卫平离世1天后,才发现儿女名字取得暗藏深意,字字都有来头

八斗小先生
2026-01-15 16:39:33
佛山停车运营单位为追欠费“奇招”频出:从“自动升板”到“立牌占位”

佛山停车运营单位为追欠费“奇招”频出:从“自动升板”到“立牌占位”

齐鲁壹点
2026-01-16 06:49:11
苍天好轮回!徐帆回应离婚5个月后,冯小刚终于迎来'反噬'

苍天好轮回!徐帆回应离婚5个月后,冯小刚终于迎来'反噬'

浮光惊掠影
2026-01-14 03:53:42
三重底线的全面失守,携程被查给谁敲响警钟?

三重底线的全面失守,携程被查给谁敲响警钟?

财经作家华祥名
2026-01-15 11:00:46
是否后悔?ESPN:灰熊认为狄龙对年轻核心产生了不良影响因此放弃他

是否后悔?ESPN:灰熊认为狄龙对年轻核心产生了不良影响因此放弃他

懂球帝
2026-01-16 09:50:09
A股:昨日深夜传来2大核弹级利空!周五或将要迎更大级别大行情?

A股:昨日深夜传来2大核弹级利空!周五或将要迎更大级别大行情?

股市皆大事
2026-01-16 08:49:54
鲍威尔神经刀,于德豪连续两场挂零,山东高速男篮排名进一步提升

鲍威尔神经刀,于德豪连续两场挂零,山东高速男篮排名进一步提升

余飩搞笑段子
2026-01-16 11:22:22
51票反对50票赞成!美投票结果出炉,特朗普下令撤兵?美航母出动

51票反对50票赞成!美投票结果出炉,特朗普下令撤兵?美航母出动

梦史
2026-01-16 11:12:52
访华一结束,芯片立刻涨价70%还断供,中国何时能追上韩国水平?

访华一结束,芯片立刻涨价70%还断供,中国何时能追上韩国水平?

鲸探所长
2026-01-15 14:25:19
大局已定!2026年天津将全面爆发!1386万天津人的身价将暴涨!

大局已定!2026年天津将全面爆发!1386万天津人的身价将暴涨!

糖逗在娱乐
2026-01-16 06:56:31
新一轮货币宽松到来

新一轮货币宽松到来

泽平宏观展望
2026-01-16 00:07:16
47岁贺娇龙抢救细节太催泪,生前曾一语成谶,和丈夫常分隔两地

47岁贺娇龙抢救细节太催泪,生前曾一语成谶,和丈夫常分隔两地

古希腊掌管松饼的神
2026-01-15 11:14:09
医生含泪提醒:男性若戒掉吸烟,用不了半年,身体或会有5个改变

医生含泪提醒:男性若戒掉吸烟,用不了半年,身体或会有5个改变

小童历史
2026-01-12 14:49:57
开棋牌店朋友酒后曝内幕,此地比按摩店 KTV 关系更乱

开棋牌店朋友酒后曝内幕,此地比按摩店 KTV 关系更乱

初见音乐吧
2026-01-15 15:00:03
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
财政与社保联合发文:有条件的单位应给员工缴纳「企业年金」!

财政与社保联合发文:有条件的单位应给员工缴纳「企业年金」!

闻号说经济
2026-01-16 11:01:39
广州宜家结业清货首日,进场队伍排了一公里,大件商品秒空……

广州宜家结业清货首日,进场队伍排了一公里,大件商品秒空……

羊城攻略
2026-01-15 23:23:01
快碎掉了,公司恐将关停,解散式大裁员!

快碎掉了,公司恐将关停,解散式大裁员!

黯泉
2026-01-15 23:22:35
2026-01-16 12:11:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2054754文章数 5274关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

"装死"小羊身价飙至30万元 专家:可以人工繁殖更多只

头条要闻

"装死"小羊身价飙至30万元 专家:可以人工繁殖更多只

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

从 "商务" 变 "潮酷" 全新一汽奥迪A6L首秀亮相

态度原创

时尚
本地
手机
数码
艺术

年度最扎心电影,看得中年男女坐立难安

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

手机要闻

荣耀Magic8 RSR官宣搭载第五代骁龙8至尊版+24GB LPDDR5X至尊版

数码要闻

罗马仕被曝正亏本清理库存充电宝:27000mAh型号售价45元

艺术要闻

300亿!341米!迪拜将建全球首个奔驰品牌城市

无障碍浏览 进入关怀版