史上最快大模型诞生，Groq自研芯片参数超英伟达（附股）|内存|速度|gpu|骁龙+移动平台

史上最快大模型诞生，Groq自研芯片参数超英伟达（附股）

2024-02-21 17:25:43　来源: 创业扫地僧

湖北举报

分享至

一场科技的革新风暴，正悄然改变着我们的世界。

你闭上眼睛沉睡，待到再次睁开，科技界的版图已然一新。就在我们还在回味Sora技术带来的震撼之际，一位新玩家悄悄登场，带来了前所未有的速度奇迹。

这个新玩家，名为Groq，一个来自硅谷的新兴力量，携带着一种速度之王的大模型和一种创新的芯片——LPU，一夜之间成为了众人瞩目的焦点。

仅仅在昨天，Groq宣布了对外开放其产品的免费试用。与现有的AI聊天机器人相比，Groq的产品以其惊人的响应速度立刻引爆了网络世界。据测试，Groq的生成速度每秒可达500个词符，远超GPT-4的40个词符的速度。

然而，值得一提的是，Groq并未创造全新的模型。他们提供的是一种强大的模型加速器，其网站上运行的是两种开源模型：Mixtral 8x7B-32k和Llama 270B-4k。

这一切速度的奥秘，源自于Groq独立研发的新型AI芯片——LPU，或称为“语言处理单元”。这种芯片的出现，彻底颠覆了我们对速度的认识。根据2024年1月的测试结果显示，Groq LPU驱动下的Meta Llama 2模型，其推理性能遥遥领先，达到了顶尖云计算供应商性能的18倍。

华尔街见闻最近报道了一个令人瞩目的事实：Groq的LPU，结合Meta Llama 2 70B模型，能在短短7分钟内生成与莎士比亚的《哈姆雷特》一样多的文字量，这比一般人敲打键盘的速度快出了75倍。想象一下，那是一种什么样的速度和效率！

在社交媒体上，有人对这个速度神话进行了实地测试。一位推特用户就向Groq提出了一个复杂的营销相关问题。结果令人震惊：在短短四秒内，Groq就输出了一篇千字论文，详尽回答了提问。这不仅仅是速度的展示，更是对知识和逻辑处理能力的极致展现。

不止于此，还有网友进行了更直接的对比测试。他们同时使用Gemini、GPT-4和Groq来解决一个编程调试问题。结果显示，Groq的输出速度是Gemini的10倍，更是GPT-4的18倍。

LPU，英伟达GPU的挑战者？

如果AI模型是一辆高速行驶的汽车，那么Groq推出的LPU芯片就像是专为赛车设计的先进引擎。它不同于传统的GPU，GPU好比是为城市交通设计的，虽然拥有许多"小引擎"（即核心），能够同时处理多项任务，但它们主要是为处理图像和视频而生。而LPU，它采用了一种全新的架构，不再依赖于传统的"一指令多数据"方式，这使得每个时钟周期的利用效率大大提高，就像是赛车引擎在每次加速时都能发挥出最大的马力，同时还减少了需要复杂调度的部件，让整个系统更加高效。

Groq的这种LPU推理引擎，不仅仅是一个处理器那么简单。它更像是一个为了解决复杂问题（比如运行庞大的AI模型）而设计的完整系统。它通过一个聪明的方式解决了外部内存的瓶颈问题，让性能提升到了一个新的层次，远远超过了传统GPU。

对于普通用户来说，这种技术的革新意味着什么呢？简而言之，就是“速度”。使用AI模型，尤其是那些像GPT这样的大模型，往往意味着需要耐心等待它们一字一句地产生回答。这种等待有时候让人感到无比漫长。但有了Groq的LPU，这一切都变了。你几乎可以在提问的同时得到回答，体验到前所未有的速度和流畅度。

技术介绍

Groq决定不走寻常路。他们没有选择加入纷繁复杂的GPU大军，而是开辟了一片全新的天地，推出了全球首创的LPU（Language Processing Unit）技术，专为语言处理量身定做。

想象一下，如果传统的GPU是一辆装满各种设备的重型卡车，那么Groq的LPU就像是一辆剥去所有不必要装备、为速度而生的赛车。LPU抛弃了GPU所依赖的SIMD（单指令、多数据）模型，采用了一种更为简洁高效的设计。这种革命性的设计允许它在不牺牲性能的前提下，极大地简化内部结构，使得每个时钟周期的工作效率达到最大化，同时保持了低延迟和高吞吐量的优势。

对于那些需要处理大量序列数据的应用，比如深度学习中的大型语言模型（LLM），LPU提供了前所未有的推理速度。它通过两大创新克服了LLM面临的主要挑战：计算密度高和内存带宽限制。首先，通过采用14nm工艺，集成了230MB的超大SRAM，LPU实现了惊人的80TB/s的片上内存带宽，从根本上解决了内存带宽瓶颈问题。其次，在算力上，Groq的芯片提供了高达750TOPs的整型（8位）运算速度和188TFLOPs的浮点（16位）运算速度，让处理大规模数据变得轻而易举。

重视SRAM（静态随机存取存储器），下一个HBM

探索人工智能的旅程中，两种技术路线的对决就像是速度与效率的较量。英伟达的GPU技术，长久以来被誉为数据处理的高速公路，依靠高带宽存储器（HBM）来快速处理海量数据。

然而，Groq采取了一种独特的策略，他们推出的LPU芯片，不依赖于这种高速公路，而是选择了一条更为高效的小径。

如果英伟达的GPU是一辆依赖高速公路的跑车，那么Groq的LPU就像是一辆在密集城市中灵活穿梭的电动车。

相关概念股：北京君正、纳思达、中电港、光力科技、C华微等。

它使用SRAM存储器，这种存储器的速度比GPU使用的快约20倍，就像是电动车在狭窄街道上的灵活性和速度。

更重要的是，Groq的LPU在执行AI推理计算时更为节能。由于推理计算相较于模型训练需要的数据量远小，LPU从外部内存读取的数据更少，消耗的电量也远低于GPU，有效提升了整体的能效比。

在这场技术革新的背后，还有一群企业正在支持和推进存储芯片的发展。北京君正、兆易创新、西测测试、航宇微和新亚电子等，这些公司在SRAM、DRAM、NOR Flash等领域均有卓越的贡献。特别是北京君正，它通过控股的北京矽成（ISSI）在汽车电子、工业制造和通讯设备等领域发挥着关键作用。

而兆易创新，作为国内领先的存储芯片及MCU供应商，其产品广泛应用于消费电子、汽车、工业等多个领域，展示了中国企业在全球半导体行业中的竞争力。

声明：个人原创，仅供参考

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.