网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

2024-08-28 13:01:39　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：桃子好困

【新智元导读】LLM若以每秒1000+token高速推理，当前最先进的GPU根本无法实现！Cerebras Inference一出世，推理速度赶超英伟达GPU，背靠自研的世界最大芯片加持。而且，还将推理价格打了下来。

LLM若想高速推理，现如今，连GPU都无法满足了？

曾造出世界最大芯片公司Cerebras，刚刚发布了全球最快的AI推理架构——Cerebras Inference。

运行Llama3.1 8B时，它能以1800 token/s的速率吐出文字。

不论是总结文档，还是代码生成等任务，响应几乎一闪而过，快到让你不敢相信自己的眼睛。

如下图右所示，以往，微调版Llama3.1 8B推理速度为90 token/s，清晰可见每行文字。

而现在，直接从90 token/s跃升到1800 token/s，相当于从拨号上网迈入了带宽时代。

左边Cerebras Inference下模型的推理速度，只能用「瞬间」、「疯狂」两字形容。

这是什么概念？

比起英伟达GPU，Cerebras Inference的推理速度快20倍，还要比专用Groq芯片还要快2.4倍。

另外，对于70B参数的Llama3.1，可达到450 token/s及时响应。

值得一提的是，Cerebras并没有因为提高LLM的速度，而损失其精度。

测试中，使用的Llama3.1模型皆是采用了Meta原始16位权重，以便确保响应高精度。

最关键的是，价格还实惠。

根据官方API定价，Llama 3.1 8B每百万token仅需10美分，Llama 3 70B每百万token仅需60美分。

如此之高的性价比，更是打破了业界纪录——

不仅远超之前的保持者Groq，而且和其他平台相比，甚至是隔「坐标轴」相望了。

Artificial Analysis

正是因为Cerebras Inference背后，是由自研的第三代芯片Wafer Scale Engine助力，才得以1/5价格快速推理Llama3.1。

看到自家模型推理如此神速，LeCun、Pytorch之父纷纷动手转发起来。

还有网友看后表示，我想要！

推理很慢，英伟达GPU也不中用？

为什么LLM的响应，就像拨号上网加载网页一样，一个字一个字慢慢地吐出？

关键原因所在，大模型自身的顺序特性，以及需要大量的GPU内存和带宽。

由于GPU的内存带宽限制，如今推理速度为每秒几十个token，而不是数千个。

更进一步说，大模型每个生成的单词，都必须通过整个模型进行处理，即所有参数必须从内存投入到计算中。

而每生成一个单词，就需要一次处理，以此循环往复。

也就是，生成100个单词需要100次处理，因为「下一词」的预测，皆需要依赖前一个单词，而且这个过程无法并行。

那么，想要每秒生成100个单词，就需要所有模型参数，每秒投入计算100次。

由此，这对GPU内存带宽提出了高要求。

以社区流行的Llama3.1-70B模型为例。

模型有700亿参数，每个参数是16位，需要2字节的存储，那整个模型便需要140GB的内存。

想要模型输出一个token，那700亿参数必须从内存，移动到计算核心，以执行前向推理计算。

由于GPU只有约200MB的片上内存，模型无法存储在芯片。

因此，每次生成的token输出时，需将整个占用140GB内存的模型，完整传输到计算中。

再细算下来，为了实现10 token/s，则需要10*140=1.4 TB/s的内存带宽。

那么，一个H100有3.3 TB/s的内存带宽，足以支持这种缓慢的推理。

而若要实现即时推理，需要达到1000 token/s或140 TB/s，这远远超过任何GPU服务器/系统内存带宽。

或许，你想到了一种「暴力」解决方案，将多个GPU串联搭建DGX系统。

这完全是大错特错，更多的处理器只会增加系统的吞吐量（给出更长响应），并不会加速单个查询的响应时间。

自研世界最大芯片，打破推理想象

那么，Cerebras如何打破这一困局呢？

一直以来，这家公司就致力于打造世界上最大芯片，希望将整个模型存储在一个晶片上，以此来解决内存带宽瓶颈。

凭借独特的晶圆设计，WSE-3单个芯片上便集成了44GB SRAM，具备21 PB/s的内存带宽。

单个芯片拥有如此大内存，便消除了对外部内存的需求，以及将外部内存连接到计算的慢速通道。

总的来说，WSE-3的总内存带宽为21PB/s，是H100的7000倍。

它是唯一一款同时具有PB级计算和PB级内存带宽的AI芯片，使其成为高速推理的近乎理想设计。

Cerebras推理不仅速度超快，而且吞吐量巨大。

与小型AI芯片相比，芯片上内存多了约200倍，支持从1-100的批大小，使其在大规模部署时，具有极高的成本效益。

正是有了如此强大的芯片，Cerebras Inference的快速推理得以实现。

它的出现，是为了实现数十亿到万亿参数模型的推理。

如果模型参数超过单个晶圆的内存容量时，研究人员将在「层边界」将其拆分，并映射到多个CS-3系统上。

20B模型适合单个CS-3，而70B模型则至少需要4个这样的系统。

官方表示，未来几周，将会测试更大参数版本的模型，比如Llama3-405B、Mistral Large。

16位精度，不做取舍

推理速率高，并非在模型权重上，做了取舍。

业界中，一些公司试图将模型权重精度，从16位减少到8位，来克服内存带宽的瓶颈。

这样方法，通常会造成模型精度损失，也就是响应结果的准确性、可靠性不如以前。

Cerebras Inference之所以强就强在了，速率和原始权重，皆要顾及。

正如开篇所述，他们采用了原始16位权重运行了Llama3.1 8B和70B。

通过评估，16位模型准确率比8位模型，高出多达5%。尤其是在，多轮对话、数学和推理任务中表现更好。

最优性价比，百万token免费送

目前，Cerebras Inference可通过聊天平台，以及API访问，任何一个人可随时体验。

体验传送门：https://cerebras.ai/blog/introducing-cerebras-inference-ai-at-instant-speed

基于熟悉的OpenAI Chat Completions格式，开发者只需更换API密钥即可集成强大的推理功能。

Cerebras Inference API提供最佳的性能、速度、精度和成本组合。

它是唯一能即时运行Llama3.1-70B的方案，可实现450 token/s，同样使用的是原始16位模型权重。

在此，Cerebras送上大福利，每天为开发者们提供100万个免费token。对于大规模部署，其定价只是H100云的一小部分。

首次推出时，Cerebras提供了Llama3.1 8B和70B模型，而且有能力每天为开发者和企业，提供数千亿token。

接下来几周，他们将增加对更大模型的支持，如Llama3 405B、Mistral Large 2。

有开发者问道，你们提供的rpm（每分钟请求次数）和tpm（每分钟处理token数）是多少？

Cerebras提供了一张针对Llama 3.1 8B和70B模型完整的请求/token处理数的图。

快速推理，不只为速度

最后，让我们来聊聊，为什么快速推理非常重要？

通常，LLM会即刻输出自己的全部想法，而不考虑最佳答案。而诸如scaffolding（脚手架）这类的新技术，则如同一个深思熟虑的智能体，会在作出决定前探索不同的可能解决方案。

这种「先思考后发言」的方式在代码生成等严苛任务中，可以带来超过10倍的性能提升，从根本上提升了AI模型的智能，且无需额外训练。

但这些技术在运行时，需要多达100倍的token。

因此可见，如果我们能大幅缩短处理时间，那么就可以实现更为复杂的AI工作流程，进而实时增强LLM的智能。

速度爆表，但上下文只有8K

虽然在价格和延迟上，Cerebras都不是最低的。

但极致的速度，确实为Cerebras带来了极致的速度-价格和速度-延迟比。

不过，值得注意的是，在Cerebras上跑的Llama 3.1，上下文只有8k……

相比之下，其他平台都是128K。

具体数据如下：

Llama 3.1 70B

Llama 3.1 8B

参考资料：

https://cerebras.ai/blog/introducing-cerebras-inference-ai-at-instant-speed

https://x.com/CerebrasSystems/status/1828464491677524311

https://artificialanalysis.ai/models/llama-3-1-instruct-70b/providers

责任编辑：郜雪丹_NT5097

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

博主“硬刚”稻城亚丁景区“截断近40公里省道收费”，多方回应

上游新闻 2026-05-25 14:46:47
36440 跟贴 36440
幼儿园运动会混入职业选手，国家运动员孔令微石佳男夫妇，接力赛上演降维打击

南阳日报 2026-05-25 19:10:39
66 跟贴 66

骑马造势的车企原董事长落马 2个月前曾公开出席活动

中国新闻周刊 2026-05-24 23:46:09
4003 跟贴 4003

行车视频55公里/小时，监控抓拍却是121公里/小时；两张抓拍照间隔0.081秒，记者现场测算发现疑点

大风新闻 2026-05-25 22:28:10
0 跟贴 0
燃油车齐降价捷豹路虎打对折网友：感觉燃油车又香了

大象新闻 2026-05-25 22:13:17
762 跟贴 762

极目帮办车租给一女子后对方失联，重庆车主求助媒体寻车

极目新闻 2026-05-25 21:42:20
0 跟贴 0

媒体：地方耗资2000万装的最先进摄像头被一棵树破功

中国新闻周刊 2026-05-25 07:42:52
1973 跟贴 1973
百栋别墅违建有人加盖两三层不少业主"打不过便加入"

大象新闻 2026-05-25 17:18:26
20 跟贴 20

浙江嘉兴市监局回应“一水果市场禁止经营户赴安徽滁州营业”：已派人了解处理

澎湃新闻 2026-05-25 10:48:32
266 跟贴 266
23岁男生考研成功:父亲早逝母亲患病工地"搬砖"挣钱

极目新闻 2026-05-25 15:15:13
141 跟贴 141
每瓶仅含0.01克，喝几千瓶才抵一个桃！“饮料一哥”也翻车了？杭州多家超市在售，你可能也喝过

都市快报橙柿互动 2026-05-24 20:48:16
69 跟贴 69
从早忙到晚，一天50000斤都不够卖！杭州这口酸甜，不少人已安排！今年品质特别好

环球网资讯 2026-05-24 15:00:44
360 跟贴 360
集中爆发！宁波多地惊现罕见景观！有人半夜11点刷到立马起床出发，连夜奔赴

上观新闻 2026-05-23 11:46:10
817 跟贴 817
毒性堪比砒霜！正大量上市，一旦发苦赶紧吐掉！医生：煮熟也有毒

中吴网 2026-05-25 22:42:39
14 跟贴 14
中国沙地奇迹让赛考斯震惊了：Amazing

央视新闻 2026-05-24 21:56:14
564 跟贴 564
“都是卖猪食的”，腾讯字节吵起来了？抖音副总裁李亮：我没说过，也没有其他“字节副总裁”说过

都市快报橙柿互动 2026-05-25 09:28:26
1138 跟贴 1138
外媒：美空军一架C-17运输机在欧洲上空发出紧急代码7700，随后在德国降落

环球网资讯 2026-05-25 13:24:44
262 跟贴 262
武契奇在华获颁“友谊勋章”：我的眼泪在眼眶打转

澎湃新闻 2026-05-25 23:23:43
335 跟贴 335
巴西总统被诊断出患有早期皮肤癌

新华社 2026-05-25 22:41:05
149 跟贴 149
打通公平正义“最后一公里”，我国已设立人民法庭11035个

澎湃新闻 2026-05-25 11:00:04
544 跟贴 544
住房城乡建设部：我国已基本实现垃圾分类全覆盖

新京报 2026-05-25 17:17:11
102 跟贴 102
女子在MUJI无印良品拿试用指甲油涂脚门店回应：已增加人手会避免这种情况

板扎在线 2026-05-26 07:32:55
0 跟贴 0

陌生男子当街殴打16岁女孩，西安警方通报

陌生男子当街殴打16岁女孩，西安警方通报

界面新闻

2026-05-26 07:08:55

杀人诛心！弗洛伦蒂诺坑死穆里尼奥！皇马或创 70 年队史耻辱

杀人诛心！弗洛伦蒂诺坑死穆里尼奥！皇马或创 70 年队史耻辱

奶盖熊本熊

2026-05-26 04:09:10

乐极生悲，莫斯科斯巴达球员在夺得俄罗斯杯庆祝时不慎打碎奖杯

乐极生悲，莫斯科斯巴达球员在夺得俄罗斯杯庆祝时不慎打碎奖杯

懂球帝

2026-05-26 00:52:34

高超音速导弹只为埋下“昂贵金属”！空袭后的基辅：热咖啡和婚纱

高超音速导弹只为埋下“昂贵金属”！空袭后的基辅：热咖啡和婚纱

鹰眼Defence

2026-05-25 12:32:58

央视紧急发布提醒！全民做好家庭应急储备，细节务必牢记

央视紧急发布提醒！全民做好家庭应急储备，细节务必牢记

匹夫来搞笑

2026-05-26 02:28:44

演都不演了，出征前一天香港女航天员遭遇恶心一幕，令人愤怒不已

演都不演了，出征前一天香港女航天员遭遇恶心一幕，令人愤怒不已

秋姐居

2026-05-25 19:47:13

11岁男孩顶替退伍军人领国家俸禄15年，被揭穿后：敢告我就弄死你

11岁男孩顶替退伍军人领国家俸禄15年，被揭穿后：敢告我就弄死你

莫地方

2026-05-25 01:15:03

韩国大学教授课上发表离谱言论：韩国女性十人中有八人靠性交易赚零花钱…

韩国大学教授课上发表离谱言论：韩国女性十人中有八人靠性交易赚零花钱…

奋斗在韩国

2026-05-25 13:14:27

黄河每天将鱼冲入大海，淡水鱼在海里没法存活，这些鱼去哪里了？

黄河每天将鱼冲入大海，淡水鱼在海里没法存活，这些鱼去哪里了？

向航说

2026-05-24 00:30:03

70分无缘欧冠的终极拷问：米兰崩塌，绝非阿莱格里一人之罪！

70分无缘欧冠的终极拷问：米兰崩塌，绝非阿莱格里一人之罪！

落夜足球

2026-05-25 13:07:11

两个表姐，一个拿50万开烟酒店，一个50万存定期，10年后天差地别

两个表姐，一个拿50万开烟酒店，一个50万存定期，10年后天差地别

千秋文化

2026-05-25 19:37:17

某央企，曝大规模裁员！

新浪财经

2026-05-25 18:41:57

西班牙公布世界杯26人名单：亚马尔带伤入选！皇马0人赫伊森无缘

西班牙公布世界杯26人名单：亚马尔带伤入选！皇马0人赫伊森无缘

我爱英超

2026-05-25 18:54:10

“爸爸不接电话，妈妈不让回家”，昨天杭州暴雨，17岁女孩情绪崩溃独坐白马湖桥边，关键时刻，他们冲了出去……

“爸爸不接电话，妈妈不让回家”，昨天杭州暴雨，17岁女孩情绪崩溃独坐白马湖桥边，关键时刻，他们冲了出去……

都市快报橙柿互动

2026-05-25 18:23:51

刚上太空仅一夜，炸出一堆牛鬼蛇神，香港航天员黎家盈刺痛了谁？

刚上太空仅一夜，炸出一堆牛鬼蛇神，香港航天员黎家盈刺痛了谁？

叨唠

2026-05-25 21:00:35

行车视频55公里/小时，监控抓拍却是121公里/小时；两张抓拍照间隔0.081秒，记者现场测算发现疑点

行车视频55公里/小时，监控抓拍却是121公里/小时；两张抓拍照间隔0.081秒，记者现场测算发现疑点

大风新闻

2026-05-25 22:28:10

是不是活该？哈林不听劝执意参加“歌手”节目，首轮即被淘汰…

是不是活该？哈林不听劝执意参加“歌手”节目，首轮即被淘汰…

慧翔百科

2026-05-25 11:45:45

李晨郑恺停更后续，节目中更多被欺凌片段爆出，沙溢评论区已沦陷

李晨郑恺停更后续，节目中更多被欺凌片段爆出，沙溢评论区已沦陷

一娱三分地

2026-05-25 13:57:50

半导体大佬集体减持后，杭州豪宅被抢疯了！

半导体大佬集体减持后，杭州豪宅被抢疯了！

樱桃大房子

2026-05-25 21:52:46

稻城亚丁景区：违规放行员工已被处理，禁止社会车辆进入景区

稻城亚丁景区：违规放行员工已被处理，禁止社会车辆进入景区

映射生活的身影

2026-05-25 16:55:04

AI产业主平台领航智能+时代

15305文章数 66889关注度

往期回顾全部

科技要闻

微软22.8万人，被迫过创业公司的日子

头条要闻

燃油车齐降价捷豹路虎打对折网友：感觉燃油车又香了

头条要闻

燃油车齐降价捷豹路虎打对折网友：感觉燃油车又香了

体育要闻

如果不好好守门，他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣：12年元老被边缘化

财经要闻

起底煤矿“暗面”：假整改、假数据

汽车要闻

启境GT7定档5月29日预售提供三电机版本

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

旅游

时尚

本地

公开课

教育要闻

斐波那契数列，非常有意思！

旅游要闻

曾经仅有二十余位老人，如今游客超六十万人次——“空心”新光村，唱着歌儿焕新貌

Bella的戛纳之旅，次次“神级”表现

本地新闻

用云锦的方式，打开江苏南京

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版