网易首页 > 网易号 > 正文 申请入驻

英伟达下场,首次优化DeepSeek-R1!B200性能狂飙25倍,碾压H100

0
分享至

新智元报道

编辑:好困 犀牛

【新智元导读】最近,英伟达开源了首个在Blackwell架构上优化的DeepSeek-R1,实现了推理速度提升25倍,和每token成本降低20倍的惊人成果。同时,DeepSeek连续开源多个英伟达GPU优化项目,共同探索模型性能极限。

当FP4的魔法与Blackwell的强大算力相遇,会碰撞出怎样的火花?

答案是:推理性能暴涨25倍,成本狂降20倍!

随着DeepSeek-R1本地化部署的爆火,英伟达也亲自下场,开源了首个基于Blackwell架构的优化方案——DeepSeek-R1-FP4。

在新模型的加持下,B200实现了高达21,088 token每秒的的推理吞吐量,相比于H100的844 token每秒,提升了25倍。

与此同时,每token的成本也实现了20倍的降低。

通过在Blackwell架构上应用TensorRT DeepSeek优化,英伟达让具有FP4生产级精度的模型,在MMLU通用智能基准测试中达到了FP8模型性能的99.8%。

DeepSeek-R1首次基于Blackwell GPU优化

目前,英伟达基于FP4优化的DeepSeek-R1检查点现已在Hugging Face上开源。

模型地址:https://huggingface.co/nvidia/DeepSeek-R1-FP4

后训练量化

模型将Transformer模块内的线性算子的权重和激活量化到了FP4,适用于TensorRT-LLM推理。

这种优化将每个参数从8位减少到4位,从而让磁盘空间和GPU显存的需求减少了约1.6倍。

使用TensorRT-LLM部署

要使用TensorRT-LLM LLM API部署量化后的FP4权重文件,并为给定的提示生成文本响应,请参照以下示例代码:

硬件要求:需要支持TensorRT-LLM的英伟达GPU(如B200),并且需要8个GPU来实现tensor_parallel_size=8的张量并行。

性能优化:代码利用FP4量化、TensorRT引擎和并行计算,旨在实现高效、低成本的推理,适合生产环境或高吞吐量应用。

from tensorrt_llm import SamplingParams
from tensorrt_llm._torch import LLM

def main():

prompts = [
"Hello, my name is",
"The president of the United States is",
"The capital of France is",
"The future of AI is",
]
sampling_params = SamplingParams(max_tokens=32)

llm = LLM(model="nvidia/DeepSeek-R1-FP4", tensor_parallel_size=8, enable_attention_dp=True)

outputs = llm.generate(prompts, sampling_params)

# Print the outputs.
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")


# The entry point of the program need to be protected for spawning processes.
if __name__ == '__main__':
main()

对于此次优化的成果,网友表示惊叹。

「FP4魔法让AI未来依然敏锐!」网友Isha评论道。

网友algorusty则声称,有了这次的优化后,美国供应商能够以每百万token 0.25美元的价格提供R1。

「还会有利润。」

网友Phil则将这次的优化与DeepSeek本周的开源5连发结合了起来。

「这展示了硬件和开源模型结合的可能性。」他表示。

DeepSeek全面开源

如今DeepSeek持续5天的「开源周」已经进行到了第3天。

周一,他们开源了FlashMLA。这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核,特别针对变长序列进行了优化,目前已正式投产使用。

周二开源了DeepEP,这是一个专为混合专家系统(MoE)和专家并行(EP)设计的通信库。

周三开源的是DeepGEMM。这是一个支持稠密和MoE模型的FP8 GEMM(通用矩阵乘法)计算库,可为V3/R1的训练和推理提供强大支持。

总的来说,不管是英伟达开源的DeepSeek-R1-FP4,还是DeepSeek开源的三个仓库,都是通过对英伟达GPU和集群的优化,来推动AI模型的高效计算和部署。

参考资料:

https://x.com/NVIDIAAIDev/status/1894172956726890623

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
年轻人基本都不会花重金抢救脑梗的父母,住进了ICU也会很快拔管

年轻人基本都不会花重金抢救脑梗的父母,住进了ICU也会很快拔管

深度报
2026-03-10 22:51:03
你卡过最厉害的bug是什么?网友:就这样大妈变成了大姐

你卡过最厉害的bug是什么?网友:就这样大妈变成了大姐

另子维爱读史
2026-03-08 21:17:33
新款奥迪A6L预售价公布:32.3万元起

新款奥迪A6L预售价公布:32.3万元起

界面新闻
2026-03-10 15:38:51
国防部回应美以打击伊朗:武力不是解决国际争端的正确方式

国防部回应美以打击伊朗:武力不是解决国际争端的正确方式

界面新闻
2026-03-11 15:08:45
赛季3度换帅?曝热刺周末前解雇47岁图多尔!上任仅25天率队4连败

赛季3度换帅?曝热刺周末前解雇47岁图多尔!上任仅25天率队4连败

我爱英超
2026-03-11 09:36:28
河北男子十年前购入限量黄金鸟巢,如今急售却无人问津

河北男子十年前购入限量黄金鸟巢,如今急售却无人问津

别人都叫我阿腈
2026-03-11 01:14:53
“养虾热”席卷全球,光谷已有企业养出200多只“龙虾”

“养虾热”席卷全球,光谷已有企业养出200多只“龙虾”

极目新闻
2026-03-11 10:23:07
千古仁君宋仁宗

千古仁君宋仁宗

尚曦读史
2024-10-06 07:39:06
37岁把公司卖给马云,套现300亿全部用来造车,何小鹏究竟有多牛

37岁把公司卖给马云,套现300亿全部用来造车,何小鹏究竟有多牛

云舟史策
2026-03-10 11:58:03
伊朗伊斯兰革命卫队:不会允许美国和以色列从该地区出口哪怕一升石油

伊朗伊斯兰革命卫队:不会允许美国和以色列从该地区出口哪怕一升石油

俄罗斯卫星通讯社
2026-03-11 15:13:23
第30轮反击!几桶颜料骗瞎美以,导弹全打空,伊朗新领袖直接开干

第30轮反击!几桶颜料骗瞎美以,导弹全打空,伊朗新领袖直接开干

小樾说历史
2026-03-10 14:06:27
外甥住我家17年考上清华,我退休卖房旅游,外甥:我的房子凭什么卖

外甥住我家17年考上清华,我退休卖房旅游,外甥:我的房子凭什么卖

周哥一影视
2026-03-11 05:49:56
中国反击来了!约谈马士基集团负责人:敢动巴拿马运河后果自负!

中国反击来了!约谈马士基集团负责人:敢动巴拿马运河后果自负!

吕醿极限手工
2026-03-11 11:55:18
恐怖!深圳一男子被确诊艾滋病,传染他的,是在上高中的17岁男生

恐怖!深圳一男子被确诊艾滋病,传染他的,是在上高中的17岁男生

火山詩话
2026-03-09 09:07:09
我调到县财政局工作后,局长打我的主意,有一天我哥调任纪委书记

我调到县财政局工作后,局长打我的主意,有一天我哥调任纪委书记

刺头体育
2026-03-11 07:19:03
彩票中奖1000万别慌!现金支票和转账支票,选错一步麻烦不断

彩票中奖1000万别慌!现金支票和转账支票,选错一步麻烦不断

蜉蝣说
2026-03-09 11:05:04
亚马尔绝平救主+欧冠历史第1人!巴萨1-1纽卡,交手3连胜戛然而止

亚马尔绝平救主+欧冠历史第1人!巴萨1-1纽卡,交手3连胜戛然而止

钉钉陌上花开
2026-03-11 06:02:39
中俄联手,废掉美国“毒计”,伊朗稳了!

中俄联手,废掉美国“毒计”,伊朗稳了!

戎评
2026-03-08 19:45:40
15分+12分+10分!湖人奇兵成3连胜幕后英雄,东契奇:他被低估了

15分+12分+10分!湖人奇兵成3连胜幕后英雄,东契奇:他被低估了

球盲姐
2026-03-11 15:19:44
小米YU9“闪现”!揽胜“辗转反侧”

小米YU9“闪现”!揽胜“辗转反侧”

手机评测室
2026-03-09 11:50:20
2026-03-11 15:52:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14693文章数 66682关注度
往期回顾 全部

科技要闻

腾讯急了急了,微信绝密AI智能体首度曝光

头条要闻

上海女子的保险箱被偷痛哭报警 怕现男友误会隐瞒真相

头条要闻

上海女子的保险箱被偷痛哭报警 怕现男友误会隐瞒真相

体育要闻

郭艾伦重伤,CBA下半赛季还能期待些什么

娱乐要闻

杨幂连续五年为刘诗诗庆生,刘诗诗回应

财经要闻

油价大转头?一天,从末日到曙光!

汽车要闻

莲花纠偏, 冯擎峰的“收”与“守”

态度原创

艺术
家居
游戏
公开课
军事航空

艺术要闻

这组剪纸太美了!

家居要闻

中式风格 人间朝与暮

《羊蹄山》奇谭模式上线!多人合作畅快战斗

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

朝鲜"崔贤"号驱逐舰进行战略巡航导弹试射

无障碍浏览 进入关怀版