网易首页 > 网易号 > 正文 申请入驻

英伟达下场,首次优化DeepSeek-R1!B200性能狂飙25倍,碾压H100

0
分享至

新智元报道

编辑:好困 犀牛

【新智元导读】最近,英伟达开源了首个在Blackwell架构上优化的DeepSeek-R1,实现了推理速度提升25倍,和每token成本降低20倍的惊人成果。同时,DeepSeek连续开源多个英伟达GPU优化项目,共同探索模型性能极限。

当FP4的魔法与Blackwell的强大算力相遇,会碰撞出怎样的火花?

答案是:推理性能暴涨25倍,成本狂降20倍!

随着DeepSeek-R1本地化部署的爆火,英伟达也亲自下场,开源了首个基于Blackwell架构的优化方案——DeepSeek-R1-FP4。

在新模型的加持下,B200实现了高达21,088 token每秒的的推理吞吐量,相比于H100的844 token每秒,提升了25倍。

与此同时,每token的成本也实现了20倍的降低。

通过在Blackwell架构上应用TensorRT DeepSeek优化,英伟达让具有FP4生产级精度的模型,在MMLU通用智能基准测试中达到了FP8模型性能的99.8%。

DeepSeek-R1首次基于Blackwell GPU优化

目前,英伟达基于FP4优化的DeepSeek-R1检查点现已在Hugging Face上开源。

模型地址:https://huggingface.co/nvidia/DeepSeek-R1-FP4

后训练量化

模型将Transformer模块内的线性算子的权重和激活量化到了FP4,适用于TensorRT-LLM推理。

这种优化将每个参数从8位减少到4位,从而让磁盘空间和GPU显存的需求减少了约1.6倍。

使用TensorRT-LLM部署

要使用TensorRT-LLM LLM API部署量化后的FP4权重文件,并为给定的提示生成文本响应,请参照以下示例代码:

硬件要求:需要支持TensorRT-LLM的英伟达GPU(如B200),并且需要8个GPU来实现tensor_parallel_size=8的张量并行。

性能优化:代码利用FP4量化、TensorRT引擎和并行计算,旨在实现高效、低成本的推理,适合生产环境或高吞吐量应用。

from tensorrt_llm import SamplingParams
from tensorrt_llm._torch import LLM

def main():

prompts = [
"Hello, my name is",
"The president of the United States is",
"The capital of France is",
"The future of AI is",
]
sampling_params = SamplingParams(max_tokens=32)

llm = LLM(model="nvidia/DeepSeek-R1-FP4", tensor_parallel_size=8, enable_attention_dp=True)

outputs = llm.generate(prompts, sampling_params)

# Print the outputs.
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")


# The entry point of the program need to be protected for spawning processes.
if __name__ == '__main__':
main()

对于此次优化的成果,网友表示惊叹。

「FP4魔法让AI未来依然敏锐!」网友Isha评论道。

网友algorusty则声称,有了这次的优化后,美国供应商能够以每百万token 0.25美元的价格提供R1。

「还会有利润。」

网友Phil则将这次的优化与DeepSeek本周的开源5连发结合了起来。

「这展示了硬件和开源模型结合的可能性。」他表示。

DeepSeek全面开源

如今DeepSeek持续5天的「开源周」已经进行到了第3天。

周一,他们开源了FlashMLA。这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核,特别针对变长序列进行了优化,目前已正式投产使用。

周二开源了DeepEP,这是一个专为混合专家系统(MoE)和专家并行(EP)设计的通信库。

周三开源的是DeepGEMM。这是一个支持稠密和MoE模型的FP8 GEMM(通用矩阵乘法)计算库,可为V3/R1的训练和推理提供强大支持。

总的来说,不管是英伟达开源的DeepSeek-R1-FP4,还是DeepSeek开源的三个仓库,都是通过对英伟达GPU和集群的优化,来推动AI模型的高效计算和部署。

参考资料:

https://x.com/NVIDIAAIDev/status/1894172956726890623

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
关闭全部门店,盒马创始人又失败了

关闭全部门店,盒马创始人又失败了

邱处机
2025-11-17 19:06:09
大学生投身业界——Casey Calvert

大学生投身业界——Casey Calvert

吃瓜党二号头目
2025-11-18 10:26:21
国防部:已向美方提出严正交涉!

国防部:已向美方提出严正交涉!

新京报
2025-11-17 21:45:58
普京不想再打了,俄军打下来的领土,足够给1亿俄罗斯人一个交待

普京不想再打了,俄军打下来的领土,足够给1亿俄罗斯人一个交待

博览历史
2025-10-27 08:20:12
热议快船近9战8负!名记怒斥球队已是烂摊子 美媒调侃为雷霆争夺状元签

热议快船近9战8负!名记怒斥球队已是烂摊子 美媒调侃为雷霆争夺状元签

烟浔渺渺
2025-11-18 14:39:37
王长庆回应“摘桃”:启蒙不是我带的就算摘桃?我们考察了200多人

王长庆回应“摘桃”:启蒙不是我带的就算摘桃?我们考察了200多人

懂球帝
2025-11-18 09:29:18
全运会最新金牌榜!山东40金,浙江单日狂揽10金反超江苏逼近广东

全运会最新金牌榜!山东40金,浙江单日狂揽10金反超江苏逼近广东

老吴说体育
2025-11-18 00:56:22
落袋为安!90岁老人套现10个亿跑了,能卖的全卖,不能卖的全质押

落袋为安!90岁老人套现10个亿跑了,能卖的全卖,不能卖的全质押

来科点谱
2025-11-17 09:05:36
柯文哲结局已定,岛内曝退党潮,大陆判断没错,两岸统一大势所趋

柯文哲结局已定,岛内曝退党潮,大陆判断没错,两岸统一大势所趋

军机Talk
2025-11-18 10:32:40
《四喜》剧情再次反转!沈明珠顺利拿回房产,是大倪在背后帮了忙

《四喜》剧情再次反转!沈明珠顺利拿回房产,是大倪在背后帮了忙

妙知
2025-11-18 12:23:24
秦基伟将军86年重返上甘岭之后:把黄继光侄女调到北京,大校退休

秦基伟将军86年重返上甘岭之后:把黄继光侄女调到北京,大校退休

墨兰史书
2025-11-18 02:30:03
俄乌战场告急,泽连斯基与希腊签完大单后赶赴法国拿下100架“阵风”战斗机

俄乌战场告急,泽连斯基与希腊签完大单后赶赴法国拿下100架“阵风”战斗机

上观新闻
2025-11-17 22:08:07
憋屈的国宝:用七千斤名玉打造,被当腌菜缸,装了300年咸菜

憋屈的国宝:用七千斤名玉打造,被当腌菜缸,装了300年咸菜

鹤羽说个事
2025-11-13 10:49:43
吴建豪谈F4:真正让我们分道扬镳的,不是泄密,是嫉妒

吴建豪谈F4:真正让我们分道扬镳的,不是泄密,是嫉妒

不八卦掌门人
2025-11-15 16:53:06
剑桥学霸诞生!谢氏家族迎来高光时刻,三代逆袭:从戏子到科学家

剑桥学霸诞生!谢氏家族迎来高光时刻,三代逆袭:从戏子到科学家

荆楚寰宇文枢
2025-11-16 21:12:28
猛龙过去9场8胜,升至东部第三!莺歌27分6板,黄蜂3人空砍20+

猛龙过去9场8胜,升至东部第三!莺歌27分6板,黄蜂3人空砍20+

无术不学
2025-11-18 12:22:06
苏提达枣红造型雍容华贵,尽显王室风范

苏提达枣红造型雍容华贵,尽显王室风范

述家娱记
2025-11-18 10:33:27
现在找工作已经不是工资的问题了。

现在找工作已经不是工资的问题了。

爱吃糖的猫cat
2025-11-17 20:37:54
从10秒08到9秒83:李泽洋破纪录的“细节密码”与概率推演

从10秒08到9秒83:李泽洋破纪录的“细节密码”与概率推演

KD说球
2025-11-18 14:47:46
刚果金一架飞机坠毁起火:载有矿业部长,视察49死矿难现场后乘机返航

刚果金一架飞机坠毁起火:载有矿业部长,视察49死矿难现场后乘机返航

极目新闻
2025-11-18 10:55:02
2025-11-18 16:07:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13895文章数 66259关注度
往期回顾 全部

科技要闻

OPPO Reno15系列深评:实况封神+颜值暴击

头条要闻

女子投诉借剪刀被保安限时20分钟还疑遭威胁 酒店回应

头条要闻

女子投诉借剪刀被保安限时20分钟还疑遭威胁 酒店回应

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

曝喻恩泰离婚2年前转移走300箱茅台?

财经要闻

青云租陷兑付危机 集资与放贷的双面生意

汽车要闻

更加豪华 更加全地形 极石ADAMAS

态度原创

艺术
时尚
旅游
数码
本地

艺术要闻

优雅浪漫的绘画,美到让人想直接住进去!

大风降温,就穿羊羔毛!

旅游要闻

新疆昌吉:天山天池风景区宛如冰雪童话世界

数码要闻

Noctua预热黑化新品,预计为chromax.black版NH-D15 G2风冷

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

无障碍浏览 进入关怀版