一场科技的革新风暴,正悄然改变着我们的世界。
你闭上眼睛沉睡,待到再次睁开,科技界的版图已然一新。就在我们还在回味Sora技术带来的震撼之际,一位新玩家悄悄登场,带来了前所未有的速度奇迹。
这个新玩家,名为Groq,一个来自硅谷的新兴力量,携带着一种速度之王的大模型和一种创新的芯片——LPU,一夜之间成为了众人瞩目的焦点。
仅仅在昨天,Groq宣布了对外开放其产品的免费试用。与现有的AI聊天机器人相比,Groq的产品以其惊人的响应速度立刻引爆了网络世界。据测试,Groq的生成速度每秒可达500个词符,远超GPT-4的40个词符的速度。
然而,值得一提的是,Groq并未创造全新的模型。他们提供的是一种强大的模型加速器,其网站上运行的是两种开源模型:Mixtral 8x7B-32k和Llama 270B-4k。
这一切速度的奥秘,源自于Groq独立研发的新型AI芯片——LPU,或称为“语言处理单元”。这种芯片的出现,彻底颠覆了我们对速度的认识。根据2024年1月的测试结果显示,Groq LPU驱动下的Meta Llama 2模型,其推理性能遥遥领先,达到了顶尖云计算供应商性能的18倍。
华尔街见闻最近报道了一个令人瞩目的事实:Groq的LPU,结合Meta Llama 2 70B模型,能在短短7分钟内生成与莎士比亚的《哈姆雷特》一样多的文字量,这比一般人敲打键盘的速度快出了75倍。想象一下,那是一种什么样的速度和效率!
在社交媒体上,有人对这个速度神话进行了实地测试。一位推特用户就向Groq提出了一个复杂的营销相关问题。结果令人震惊:在短短四秒内,Groq就输出了一篇千字论文,详尽回答了提问。这不仅仅是速度的展示,更是对知识和逻辑处理能力的极致展现。
不止于此,还有网友进行了更直接的对比测试。他们同时使用Gemini、GPT-4和Groq来解决一个编程调试问题。结果显示,Groq的输出速度是Gemini的10倍,更是GPT-4的18倍。
LPU,英伟达GPU的挑战者?
如果AI模型是一辆高速行驶的汽车,那么Groq推出的LPU芯片就像是专为赛车设计的先进引擎。它不同于传统的GPU,GPU好比是为城市交通设计的,虽然拥有许多"小引擎"(即核心),能够同时处理多项任务,但它们主要是为处理图像和视频而生。而LPU,它采用了一种全新的架构,不再依赖于传统的"一指令多数据"方式,这使得每个时钟周期的利用效率大大提高,就像是赛车引擎在每次加速时都能发挥出最大的马力,同时还减少了需要复杂调度的部件,让整个系统更加高效。
Groq的这种LPU推理引擎,不仅仅是一个处理器那么简单。它更像是一个为了解决复杂问题(比如运行庞大的AI模型)而设计的完整系统。它通过一个聪明的方式解决了外部内存的瓶颈问题,让性能提升到了一个新的层次,远远超过了传统GPU。
对于普通用户来说,这种技术的革新意味着什么呢?简而言之,就是“速度”。使用AI模型,尤其是那些像GPT这样的大模型,往往意味着需要耐心等待它们一字一句地产生回答。这种等待有时候让人感到无比漫长。但有了Groq的LPU,这一切都变了。你几乎可以在提问的同时得到回答,体验到前所未有的速度和流畅度。
技术介绍
Groq决定不走寻常路。他们没有选择加入纷繁复杂的GPU大军,而是开辟了一片全新的天地,推出了全球首创的LPU(Language Processing Unit)技术,专为语言处理量身定做。
想象一下,如果传统的GPU是一辆装满各种设备的重型卡车,那么Groq的LPU就像是一辆剥去所有不必要装备、为速度而生的赛车。LPU抛弃了GPU所依赖的SIMD(单指令、多数据)模型,采用了一种更为简洁高效的设计。这种革命性的设计允许它在不牺牲性能的前提下,极大地简化内部结构,使得每个时钟周期的工作效率达到最大化,同时保持了低延迟和高吞吐量的优势。
对于那些需要处理大量序列数据的应用,比如深度学习中的大型语言模型(LLM),LPU提供了前所未有的推理速度。它通过两大创新克服了LLM面临的主要挑战:计算密度高和内存带宽限制。首先,通过采用14nm工艺,集成了230MB的超大SRAM,LPU实现了惊人的80TB/s的片上内存带宽,从根本上解决了内存带宽瓶颈问题。其次,在算力上,Groq的芯片提供了高达750TOPs的整型(8位)运算速度和188TFLOPs的浮点(16位)运算速度,让处理大规模数据变得轻而易举。
重视SRAM(静态随机存取存储器),下一个HBM
探索人工智能的旅程中,两种技术路线的对决就像是速度与效率的较量。英伟达的GPU技术,长久以来被誉为数据处理的高速公路,依靠高带宽存储器(HBM)来快速处理海量数据。
然而,Groq采取了一种独特的策略,他们推出的LPU芯片,不依赖于这种高速公路,而是选择了一条更为高效的小径。
如果英伟达的GPU是一辆依赖高速公路的跑车,那么Groq的LPU就像是一辆在密集城市中灵活穿梭的电动车。
相关概念股:北京君正、纳思达、中电港、光力科技、C华微等。
它使用SRAM存储器,这种存储器的速度比GPU使用的快约20倍,就像是电动车在狭窄街道上的灵活性和速度。
更重要的是,Groq的LPU在执行AI推理计算时更为节能。由于推理计算相较于模型训练需要的数据量远小,LPU从外部内存读取的数据更少,消耗的电量也远低于GPU,有效提升了整体的能效比。
在这场技术革新的背后,还有一群企业正在支持和推进存储芯片的发展。北京君正、兆易创新、西测测试、航宇微和新亚电子等,这些公司在SRAM、DRAM、NOR Flash等领域均有卓越的贡献。特别是北京君正,它通过控股的北京矽成(ISSI)在汽车电子、工业制造和通讯设备等领域发挥着关键作用。
而兆易创新,作为国内领先的存储芯片及MCU供应商,其产品广泛应用于消费电子、汽车、工业等多个领域,展示了中国企业在全球半导体行业中的竞争力。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.