网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！

2024-02-20 13:06:30　来源: 量子位

北京举报

0

分享至

白交克雷西发自凹非寺
量子位 | 公众号 QbitAI

太快了太快了。

一夜间，大模型生成已经没什么延迟了……来感受下这速度。

眼花缭乱了吧，生成速度已经接近每秒500 tokens。

还有更直观的列表对比，速度最高能比以往这些云平台厂商快个18倍吧。

（这里面还有个熟悉的身影：Lepton）

网友表示：这速度简直就是飞机vs走路。

值得一提的是，这并非哪家大公司进展——

初创公司Groq，谷歌TPU团队原班人马，基于自研芯片推出推理加速方案。（注意不是马斯克的Grok）

据他们介绍，其推理速度相较于英伟达GPU提高了10倍，成本却降低到十分之一。

换言之，任何一个大模型都可以部署实现。

目前已经能支持Mixtral 8x7B SMoE、Llama 2的7B和70B这三种模型，并且可直接体验Demo。

他们还在官网上喊话奥特曼：

你们推出的东西太慢了……

每秒接近500tokens

既然如此，那就来体验一下这个号称「史上最快推理」的Groq。

先声明：不比较生产质量（手动狗头）。就像他自己说的那样，内容概不负责。

目前，演示界面上有两种模型可以选择。

就选择Mixtral 8x7B-32k和GPT-4同擂台对比一下。

提示词：你是一个小学生，还没完成寒假作业。请根据《星际穿越》写一篇500字的读后感。

结果啪的一下，只需1.76秒就生成了一长串读后感，速度在每秒478Tokens。

不过内容是英文的，以及读后感只有三百六十多字。但后面也赶紧做了解释说考虑到是小学生写不了那么多……

至于GPT-4这边的表现，内容质量自然更好，也体现了整个思路过程。但要完全生成超过了三十秒。单是读后感内容的生成，也有近二十秒钟的时间。

除了Demo演示外，Groq现在支持API访问，并且完全兼容，可直接从OpenAI的API进行简单切换。

可以免费试用10天，这期间可以免费获得100万Tokens。

目前支持Llama 2-70B 和7B， Groq可以实现4096的上下文长度，还有Mixtral 8x7B这一型号。当然也不局限于这些型号，Groq支持具体需求具体定制。

价格方面，他们保证：一定低于市面上同等价格。

不过可以看到，每秒500tokens似乎还不是终极速度，他们最快可以实现每秒750Tokens。

谷歌TPU团队创业项目

Groq是集软硬件服务于一体的大模型推理加速方案，成立于2016年，创始团队中很多都是谷歌TPU的原班人马。

公司领导层的10人中，有5人都曾有谷歌的工作经历，3人曾在英特尔工作。

创始人兼CEO Jonathan Ross，设计并实现了第一代TPU芯片的核心元件，TPU的研发工作中有20%都由他完成。

Groq没有走GPU路线，而是自创了全球首个L（anguage）PU方案。

LPU的核心奥义是克服两个LLM瓶颈——计算密度和内存带宽，最终实现的LLM推理性能比其他基于云平台厂商快18倍。

据此前他们介绍，英伟达GPU需要大约10焦耳到30焦耳才能生成响应中的tokens，而 Groq 设置每个tokens大约需要1焦耳到3焦耳。

因此，推理速度提高了10倍，成本却降低了十分之一，或者说性价比提高了100倍。

延迟方面，在运行70B模型时，输出第一个token时的延时仅有0.22秒。

甚至为了适应Groq的性能水平，第三方测评机构ArtificialAnalysis还专门调整了图表坐标轴。

据介绍，Groq的芯片采用14nm制程，搭载了230MB大SRAM来保证内存带宽，片上内存带宽达到了80TB/s。

算力层面，Gorq芯片的整型（8位）运算速度为750TOPs，浮点（16位）运算速度则为188TFLOPs。

Groq主要基于该公司自研的TSP架构，其内存单元与向量和矩阵深度学习功能单元交错，从而利用机器学习工作负载固有的并行性对推理进行加速。

在运算处理的同时，每个TSP都还具有网络交换的功能，可直接通过网络与其他TSP交换信息，无需依赖外部的网络设备，这种设计提高了系统的并行处理能力和效率。

结合新设计的Dragonfly网络拓扑，hop数减少、通信延迟降低，使得传输效率进一步提高；同时软件调度网络带来了精确的流量控制和路径规划，从而提高了系统的整体性能。

Groq支持通过PyTorch、TensorFlow等标准机器学习框架进行推理，暂不支持模型训练。

此外Groq还提供了编译平台和本地化硬件方案，不过并未介绍更多详情，想要了解的话需要与团队进行联系。

而在第三方网站上，搭载Groq芯片的加速卡售价为2万多美元，差不多15万人民币。

它由知名电子元件生产商莫仕（molex）旗下的BittWare代工，同时该厂也为英特尔和AMD代工加速卡。

目前，Groq的官网正在招人。

技术岗位年薪为10万-50万美元，非技术岗位则为9万-47万美元。

“目标是三年超过英伟达”

除此之外，这家公司还有个日常操作是叫板喊话各位大佬。

当时GPTs商店推出之后，Groq就喊话奥特曼：用GPTs就跟深夜读战争与和平一样慢……阴阳怪气直接拉满~

马斯克也曾被他痛斥，说“剽窃”自己的名字。

在最新讨论中，他们疑似又有了新操作。

一名自称Groq工作人员的用户与网友互动时表示，Groq的目标是打造最快的大模型硬件，并扬言：

三年时间内赶超英伟达。

这下好了，黄院士的核武器有新的目标了。

参考链接：
[1]https://wow.groq.com/
[2]https://news.ycombinator.com/item?id=39428880

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

传下周起，台积电将对大陆所有AI公司禁运7nm及以下工艺

爱集微 2024-11-08 11:02:05
0 跟贴 0
特朗普开party庆祝马斯克坐在他旁边玩手机

速递新鲜事 2024-11-06 15:27:50
23356 跟贴 23356

特朗普曾赴竞选中心画面流出:马斯克看票紧张到手抖

北回归线 2024-11-06 21:36:24
7686 跟贴 7686

特朗普宣布胜选夸赞马斯克是“超级天才”

热点在线 2024-11-06 16:10:09
4782 跟贴 4782
马斯克称脑机接口能解决大多数疾病，大规模量产后成本将与手机相当

爱范儿 2024-10-30 18:36:33
119 跟贴 119

现场：马斯克妈妈在上海买床穿一身白色风衣面带笑容

北回归线 2024-11-08 17:36:46
231 跟贴 231

被马斯克吐槽的”苹果税”，最高税率就是在中国

钛媒体APP 2024-05-17 10:57:15
1436 跟贴 1436
搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

量子位 2024-07-09 12:03:11
0 跟贴 0

打通异构算力之间的高速网络通道是构建多元智算体系的关键

通信世界 2024-10-15 15:46:13
0 跟贴 0
GPU如何让模型飞速进化？阿里云AI专家解答来了 GPU是如何让模型训练更快的，哪些因素会影响GPU

量子位 2024-09-12 21:10:00
0 跟贴 0
诺贝尔物理学奖得主#丁肇中谈马斯克向其请教问题：人都是好奇的，跟着原动力向前走，今天做不出来的事情

每日经济新闻 2024-10-26 20:24:23
0 跟贴 0
网友一个定积分的WIFI密码，测出了AI数学之王。Grok超强数学思维碾压ChatGPT，引马斯克点

量子位 2024-10-31 18:55:41
0 跟贴 0
起猛了，马斯克双十一都来推销特斯拉了！

青岛文艺 2024-11-06 15:41:07
1 跟贴 1
埃隆.马斯克，为了实现人类与Al的共生，我们最终需要更换头骨

卢菁老师 2024-11-05 07:34:37
0 跟贴 0
特朗普发表胜选讲话当众亲吻梅拉尼娅两人贴脸拥抱

北回归线 2024-11-06 19:12:50
20 跟贴 20
现场：关键"摇摆州"宾州的学生们已经排起了长队投票

北回归线 2024-11-06 09:40:57
4 跟贴 4
何小鹏的五大AI科技，能否成为中国马斯克

C位智行 2024-11-07 13:33:22
0 跟贴 0
论文登计算机体系结构顶会,芯片架构成为边缘AI最佳并行计算选择

机器之心Pro 2024-08-13 15:05:29
0 跟贴 0
AI Phone：先是芯片，再是模型，最后才是手机厂商

钛媒体APP 2024-11-08 19:44:25
3 跟贴 3
特朗普上台，高通比任何时候，都需要国产车的支持了

互联网.乱侃秀 2024-11-08 10:25:25
22 跟贴 22
博主做梗图吐槽PS5Pro GPU性能：还不如RTX3070

游民星空 2024-11-08 16:11:27
4 跟贴 4
8年前阿法狗的一个“错误”，竟成大模型研究新方向！大模型之争进入新阶段，从拼“模仿”转向拼“推理”

量子位 2024-10-19 12:06:26
0 跟贴 0
生成式AI，一年或造50万吨垃圾

智东西 2024-11-08 19:17:16
12 跟贴 12
18.68万，杀疯了

放毒 2024-11-08 18:54:47
2 跟贴 2
解锁桌面俯拍双机位，搭载 M4 芯片的 MacBook Pro

爱范儿 2024-11-07 22:16:02
1 跟贴 1
从云端到本地，真正的AI PC距离普及还有多远？ | 钛极客

钛媒体APP 2024-05-30 17:29:11
0 跟贴 0
小鹏为老用户推付费芯片升级计划更换后可OTA解锁高级智驾

PConline太平洋科技 2024-11-06 18:17:17
0 跟贴 0
「黑神话」级3A大作AI实时游戏生成！港科大、中科大等祭出最强扩散Transformer，火爆国外

新智元 2024-11-06 13:07:41
13 跟贴 13
抢疯了，腾讯给大模型人才，定了一个前所未有的标准

机器之心Pro 2024-06-21 15:20:08
86 跟贴 86
《潜行者2》进厂压盘！11月21日首发加入XGP

游民星空 2024-11-09 09:03:08
0 跟贴 0
几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

机器之心Pro 2024-09-04 22:17:21
0 跟贴 0
日本芯片惨案

华商韬略 2024-09-24 10:24:01
0 跟贴 0
高分推理英剧，人不要脸则无敌，各种奇葩的理由

霉叔说剧呀 2024-11-05 15:38:17
1 跟贴 1
电车续航打五折的时代，已经来了！

汽车扒壹扒 2024-11-07 19:55:08
131 跟贴 131
悬疑：9.4逆天推理剧，直击心灵的连环谋杀案，手段高明令人惋惜

暮雪剪辑馆 2024-11-06 18:40:13
0 跟贴 0
还是下来的速度更快些

可乐影视君 2024-11-08 17:43:17
1 跟贴 1
大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

机器之心Pro 2024-08-16 17:22:16
1 跟贴 1
战略决策体系：美国视角下的对华竞争，及芯片法案的背后逻辑

苏浩 2024-11-06 10:35:49
0 跟贴 0
悬疑：9.4高分推理神剧，被忽略的一集佳作，凶手残忍令人发指！

暮雪剪辑馆 2024-11-06 17:29:23
0 跟贴 0
80名员工入职时，大脑被植入芯片，不听话芯片就会爆炸

半盏流年影本人 2024-11-05 16:49:32
0 跟贴 0

三上悠亚引退究极共演，七擒七纵七仙女！业界顶流全都来了！

三上悠亚引退究极共演，七擒七纵七仙女！业界顶流全都来了！

153小娱乐

2024-11-09 03:57:23

北大招聘会被吐槽“浪费人才”：不是出国就是去教培，太可惜了

北大招聘会被吐槽“浪费人才”：不是出国就是去教培，太可惜了

熙熙说教

2024-11-08 16:45:17

华为问界M7事件闹大！鉴定机构和赛力斯起诉车主，谎言将被揭穿！

华为问界M7事件闹大！鉴定机构和赛力斯起诉车主，谎言将被揭穿！

记哥说事

2024-11-08 22:51:37

1969年，那位在江西拖拉机厂帮助过邓小平的厂长，后来结局如何？

1969年，那位在江西拖拉机厂帮助过邓小平的厂长，后来结局如何？

方圆文史

2023-07-01 13:34:09

叶珂的瓜越扒越多，翻车得一塌糊涂，黄晓明到底看上了她什么？

叶珂的瓜越扒越多，翻车得一塌糊涂，黄晓明到底看上了她什么？

辣条小剧场

2024-11-09 06:14:01

很大概率，中国将面临有史以来的一次长时间房价暴涨？可信吗？

很大概率，中国将面临有史以来的一次长时间房价暴涨？可信吗？

巢客HOME

2024-11-09 05:45:03

全国结婚人数止跌回升冲上热搜！然而这是去年的数据，今年又跌去2成

全国结婚人数止跌回升冲上热搜！然而这是去年的数据，今年又跌去2成

小萝卜丝

2024-11-08 12:59:07

宝马利润暴跌84%，主要原因是“中国人不愿买”

宝马利润暴跌84%，主要原因是“中国人不愿买”

道德经

2024-11-07 19:12:22

笑麻了，一生热爱提前的长辈！网友:高铁省的时间全用来等高铁了

笑麻了，一生热爱提前的长辈！网友:高铁省的时间全用来等高铁了

滑稽斑马呀

2024-10-12 22:01:24

消息称：台积电7nm停供中国大陆！

消息称：台积电7nm停供中国大陆！

EETOP半导体社区

2024-11-08 11:29:25

深圳楼市：暴风雨马上就要来了

楼市诸葛

2024-11-09 07:00:03

董明珠首次展示自己的家，回应直播时对下属变脸：非常不喜欢这种工作态度，“如果不是俞老师，我直接去做了”

董明珠首次展示自己的家，回应直播时对下属变脸：非常不喜欢这种工作态度，“如果不是俞老师，我直接去做了”

界面新闻

2024-11-09 02:24:58

受权发布|全国人民代表大会常务委员会关于延长授权国务院在营商环境创新试点城市暂时调整适用《中华人民共和国计量法》有关规定期限的决定

受权发布|全国人民代表大会常务委员会关于延长授权国务院在营商环境创新试点城市暂时调整适用《中华人民共和国计量法》有关规定期限的决定

新华社

2024-11-09 01:04:48

奥尼尔：NBA收视率下滑是因为不管什么队都在投三分连战术都一样

奥尼尔：NBA收视率下滑是因为不管什么队都在投三分连战术都一样

直播吧

2024-11-08 15:51:19

网易多名高管被带走调查？最新回应：9人已被采取刑事强制措施

网易多名高管被带走调查？最新回应：9人已被采取刑事强制措施

佛山电视台小强热线

2024-11-08 21:01:35

窝一肚子火，林诗栋3-1松岛辉空进4强，赛末把球狠狠击向远处

窝一肚子火，林诗栋3-1松岛辉空进4强，赛末把球狠狠击向远处

真理是我亲戚

2024-11-08 23:04:09

霉霉的视频要公布，贾斯汀比伯变宠物，吹牛老爹的疯狂派对盖不住

霉霉的视频要公布，贾斯汀比伯变宠物，吹牛老爹的疯狂派对盖不住

看界馆

2024-11-08 15:08:27

泼天流量冲进马桶？又3家车企暴雷，嘴硬卖510台也能征服全球！

泼天流量冲进马桶？又3家车企暴雷，嘴硬卖510台也能征服全球！

51qc我要汽车网

2024-11-08 00:11:57

打，奉陪到底！特朗普“下战书”，上台后第一个“集火”中国

打，奉陪到底！特朗普“下战书”，上台后第一个“集火”中国

布衣的呼喊

2024-11-08 09:38:15

四川一医院原院长痛哭忏悔：对药商纸醉金迷的生活羡慕不已！蹲监狱是必然下场

四川一医院原院长痛哭忏悔：对药商纸醉金迷的生活羡慕不已！蹲监狱是必然下场

鲁中晨报

2024-11-08 23:28:04

追踪人工智能动态

9574文章数 175664关注度

往期回顾全部

科技要闻

特斯拉盘中飙涨超10%，市值突破1万亿美元

头条要闻

美媒：特朗普与泽连斯基通话期间马斯克闪现加入对话

头条要闻

美媒：特朗普与泽连斯基通话期间马斯克闪现加入对话

体育要闻

曾在英冠坐板凳的他是当今最火爆的射手

娱乐要闻

叶珂闪现闺蜜直播间，黄晓明评论沦陷

财经要闻

直接安排10万亿地方政府化债压力大大减轻

汽车要闻

售10.98万起银河星舰7 EM-i开启预售

态度原创

家居

旅游

时尚

手机

军事航空

家居要闻

简约温馨尽享舒适睡眠

旅游要闻

4名女游客上山迷路，多方连夜搜寻成功救出

不穿一身黑了！今年秋冬这样穿才是真时髦！

手机要闻

学生党哭了，这年头连「红米手机」都要涨价

军事要闻

万众期待的歼-35A现身珠海进行了首次场地适应性训练

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版