网易首页 > 网易号 > 正文 申请入驻

老黄给H100打鸡血:英伟达推出大模型加速包,Llama2推理速度翻倍

0
分享至

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

大模型的推理速度,仅仅一个月就提高了一倍!

英伟达近日官宣给H100推出了“鸡血包”——专用于LLM推理的加速程序。

或许这下可以不用空等明年才能交付的GH200了(手动狗头)。

GPU的运算能力一直影响着大模型的表现,无论是硬件提供者还是使用者都希望能算得更快些。

而作为大模型背后硬件的最大供应商,英伟达一直在研究怎么给大模型硬件加速。

通过与多家AI公司合作,英伟达终于推出了大模型推理优化程序TensorRT-LLM(暂且简称TensorRT)。

TensorRT不仅能让大模型的推理速度翻番,使用起来也十分方便。

无需深入了解C++和CUDA,也能快速定制优化策略,在H100上更快地跑大模型。

英伟达科学家范麟熙(Jim Fan)转发并评论称,英伟达的“另一项优势”就是可以最大化利用GPU性能的配套软件。

英伟达通过软件给产品打鸡血,仿佛在实践老黄的那句“买的越多省的越多”,但这也并不妨碍有人嫌贵:

除了价格,也有网友对其运行效果提出了质疑:

我们总是看到(宣传中的)多少倍的性能提升,但自己运行Llama 2的时候每秒还是只能处理几十个token。

到底是不是真的有效可能还需要继续检验,我们先来具体了解一下TensorRT。

大模型推理速度翻倍

TensorRT-LLM优化之后的H100,跑大模型到底有多快呢?

英伟达的通告中给出了Llama 2和GPT-J-6B两种模型的数据。

在优化后的H100上,跑Llama 2的推理速度则是A100的4.6倍、八月份未优化版H100的1.77倍。

而GPT-J-6B的推理速度是A100上的8倍、八月未优化版的2倍

TensorRT还提供了开源的模块化Python API,根据不同LLM的需求,可以快速定制优化方案。

这个API将深度学习编译器、内核优化、预/后处理和多节点通信功能集成到了一起。

其中针对GPT(2/3)、Llama等常见模型,还有已经定制好的版本,可以“开箱即用”

通过TensorRT中最新的开源AI内核,开发者还可以对模型自身进行优化,其中就包括了让Transformer大大提速的注意力算法FlashAttention。

那么TensorRT又是如何对LLM推理速度进行优化的呢?

首先要得益于TensorRT对多节点协同工作方式进行了优化

像Llama这样庞大的模型,在单卡上是跑不起来的,需要多块GPU一起跑才能带动。

过去,这一工作需要人们手工把模型拆开来实现。

而有了TensorRT,系统可以自动化地对模型进行拆分,并通过NVLink在多GPU间高效运行。

其次,TensorRT还利用了一种名为动态批处理的优化调度技术。

LLM在推理过程中,实际上是在多次执行模型迭代。

动态批处理技术会将已完成的序列立即踢出,而不是等待整批任务完成后再处理下一组请求。

实际测试中,动态批处理将LLM的GPU请求吞吐量减少了一半,大大降低了运行成本。

另一个关键点则是将16位精度浮点数转换为8位精度,从而降低内存消耗。

FP8与训练阶段的FP16相比消耗的资源更低,同时精确度又高于INT-8,在提高性能的同时不影响模型的准确性。

通过Hopper Transformer引擎,FP16到FP8的转化编译由系统自动完成,无需人工对模型中的任何代码进行修改。

目前,TensorRT-LLM的早鸟版已经可以下载,正式版将于几周内推出并集成到NeMo框架中。

One More Thing

每当大事件出现,总少不了“列文虎克”的身影。

英伟达的公告中提到了“在与Meta等AI头部公司合作”,但没有提及OpenAI。

从这则通告中,就有网友发现了这个华点,并发到了OpenAI论坛上:

让我康康是谁没被老黄cue到(手动狗头)

你还期待老黄带给我们什么样的“惊喜”呢?

参考链接:
https://developer.nvidia.com/blog/nvidia-tensorrt-llm-supercharges-large-language-model-inference-on-nvidia-h100-gpus/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
忙时吃干,闲时吃稀:谁让我们吃饱饭

忙时吃干,闲时吃稀:谁让我们吃饱饭

安安小小姐姐
2024-06-13 10:13:35
这次,陈妍希"要完"!执意离婚的陈晓,终于实锤了她私下里玩挺花

这次,陈妍希"要完"!执意离婚的陈晓,终于实锤了她私下里玩挺花

风起云间
2024-06-20 21:56:20
后续!继央视力挺俞莉后,党媒、各大媒体纷纷下场,都在为其发声

后续!继央视力挺俞莉后,党媒、各大媒体纷纷下场,都在为其发声

娱乐洞察点点
2024-06-20 21:56:06
阿不都沙拉木亮相巴黎,时装走秀力压欧美模特,可球迷不买账了!

阿不都沙拉木亮相巴黎,时装走秀力压欧美模特,可球迷不买账了!

疯子谈体育
2024-06-20 16:07:31
爆冷!郑钦文0-2遭NO.30横扫无缘八强 连续两年草地赛输对手

爆冷!郑钦文0-2遭NO.30横扫无缘八强 连续两年草地赛输对手

醉卧浮生
2024-06-20 19:57:44
真被张召忠说中了?掏空国库建造的2艘航母,如今彻底沦为废铁

真被张召忠说中了?掏空国库建造的2艘航母,如今彻底沦为废铁

高山非凡创作
2024-05-16 07:48:51
创新低,人民币闷声下跌!

创新低,人民币闷声下跌!

暴财经
2024-06-20 11:56:34
詹俊:可以想象南门要面临怎样口诛笔伐,中前场到底以谁为核心?

詹俊:可以想象南门要面临怎样口诛笔伐,中前场到底以谁为核心?

直播吧
2024-06-21 02:16:10
老旧小区电动车充电难有望破局!上海首个电动车集成式光储充换一体化充电站落成

老旧小区电动车充电难有望破局!上海首个电动车集成式光储充换一体化充电站落成

新民晚报
2024-06-18 11:54:08
数据出来了,全面下跌

数据出来了,全面下跌

翔哥说地产
2024-06-20 13:01:12
专家:对俄战争已然失败

专家:对俄战争已然失败

俄罗斯卫星通讯社
2024-01-22 15:13:11
21年四川女子起夜,发现丈夫在12岁女儿屋中,愤怒下误将丈夫打死

21年四川女子起夜,发现丈夫在12岁女儿屋中,愤怒下误将丈夫打死

飞花文史
2024-06-20 12:18:24
小米空调销量暴涨!京东配送:送10台空调有7台是小米

小米空调销量暴涨!京东配送:送10台空调有7台是小米

手机中国
2024-06-20 09:46:13
0-3惨败日本,女排就3人能昂首离开!没丁霞郑益昕,奥运资格洗牌

0-3惨败日本,女排就3人能昂首离开!没丁霞郑益昕,奥运资格洗牌

嘴炮体坛
2024-06-20 20:09:02
自摆乌龙,卡拉菲奥里是第二位大赛打入乌龙球的意大利球员

自摆乌龙,卡拉菲奥里是第二位大赛打入乌龙球的意大利球员

懂球帝
2024-06-21 04:34:09
李玟雕像武汉揭幕惹众怒,网友炮轰:她算老几,竟霸占英雄城地盘

李玟雕像武汉揭幕惹众怒,网友炮轰:她算老几,竟霸占英雄城地盘

皖声微言
2024-06-19 09:21:03
课本里被夸上天的3个名人,其实都坏到了骨子里,却骗过了很多人

课本里被夸上天的3个名人,其实都坏到了骨子里,却骗过了很多人

长风文史
2024-06-20 08:16:29
上海两家Manner咖啡门店内,两顾客同一天分别被扇耳光和泼咖啡粉?官方回应

上海两家Manner咖啡门店内,两顾客同一天分别被扇耳光和泼咖啡粉?官方回应

极目新闻
2024-06-20 18:50:58
姜萍家院子成“网红打卡地”,村民称正常生活受影响

姜萍家院子成“网红打卡地”,村民称正常生活受影响

上游新闻
2024-06-20 12:05:18
中国女排为什么打不过日本队?张常宁一席话,直接戳中要害

中国女排为什么打不过日本队?张常宁一席话,直接戳中要害

懂球哥评球
2024-06-20 20:23:52
2024-06-21 04:46:44
量子位
量子位
追踪人工智能动态
9556文章数 175386关注度
往期回顾 全部

科技要闻

小米SU7流量泼天,富贵却被蔚来接住了

头条要闻

欧洲杯:凯恩破门 英格兰1-1丹麦

头条要闻

欧洲杯:凯恩破门 英格兰1-1丹麦

体育要闻

千夫所指的关系户 成了拯救葡萄牙的英雄

娱乐要闻

叶舒华参加柯震东生日聚会,五毒俱全

财经要闻

楼市新“王炸”!释放何信号?

汽车要闻

售价11.79-14.39万元 新一代哈弗H6正式上市

态度原创

手机
数码
旅游
教育
公开课

手机要闻

真我GT7再次被确认:超声波指纹+新等深超微曲,一加13要有压力了

数码要闻

AMD 发布 ROCm 6.1.3,支持 RX 7900 GRE 显卡及 TensorFlow

旅游要闻

铁路儿童票新规 已有超4900万小旅客免费出行

教育要闻

学霸的题目,当然要学霸来做了!学渣挤眉弄眼一个字都没写出来

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版