AI芯片赛道迎来重磅突破,美国Groq公司正式发布全新AI芯片LPU,宣称其推理速度较英伟达GPU提升10倍,而成本仅为后者的十分之一,凭借极致的性价比成为“地表最强推理芯片”,与此同时,字节跳动同步发布万卡集群系统论文,进一步加剧全球AI芯片赛道的竞争内卷,推动AI算力技术加速迭代。
![]()
AI生成
Groq此次发布的LPU芯片,核心优势在于极致的推理性能与成本控制,其采用成熟的14nm制程工艺,无需依赖先进制程即可实现高性能表现,大幅降低芯片研发与制造成本。芯片搭载230MB的SRAM内存,片上内存带宽达到80TB/s,远超当前主流AI芯片,能够高效支撑大模型推理过程中的数据传输需求,避免因内存带宽不足导致的算力浪费。
算力参数方面,Groq LPU芯片的整型(8位)运算速度达到750TOPs,浮点(16位)运算速度为188TFLOPs,在大模型推理场景中表现突出。据Groq官方测试数据显示,该芯片运行主流大模型时,推理延迟大幅降低,其中运行GPT-4推理速度较英伟达H100 GPU提升10倍,运行GLM-5、Gemini 3 Pro等大模型时,推理效率同样实现数倍提升,而芯片单台成本仅为英伟达H100 GPU的十分之一,性价比优势显著。
据悉,Groq成立于2016年,由前谷歌员工Jonathan Ross创立,其核心团队成员均来自谷歌、英伟达等顶尖科技企业,创始人Jonathan Ross曾发明驱动谷歌机器学习软件的张量处理单元(TPU),为AlphaGo提供了核心技术支撑。此次LPU芯片的发布,是Groq首次向英伟达发起正面挑战,凭借独特的架构设计与成本优势,有望在AI推理芯片市场占据一席之地。
同日,字节跳动同步发布万卡集群系统MegaScale论文,展示了其在AI算力基础设施领域的重大突破。该系统专为训练超过1万个GPU规模的大型语言模型设计,在12288个GPU上训练175B参数LLM模型时,实现了55.2%的模型FLOP利用率(MFU),与主流的Megatron-LM系统相比,MFU提高了1.34倍,大幅提升大模型训练效率,降低训练成本,为字节跳动自研大模型及AI应用提供强大算力支撑。
业内分析指出,Groq LPU芯片的发布与字节跳动万卡集群的曝光,标志着AI芯片赛道竞争进入白热化阶段。当前,英伟达凭借H100、H200等GPU芯片占据全球AI算力市场主导地位,市值已突破2.2万亿美元,但Groq、三星等企业的持续发力正在打破这一垄断格局——三星近期已在硅谷成立新团队,由谷歌前开发人员带队,专注于通用人工智能芯片研发。专家表示,AI芯片赛道的内卷将推动算力成本持续下降、性能不断提升,为AI大模型、AI智能体等应用的规模化落地提供支撑。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.