当ChatGPT掀起AI狂潮时,企业竞相抢购GPU集群,仿佛算力即正义。三年后,风向变了。Red Hat工程总监Taneem Ibrahim和英特尔数据中心与AI副总裁Bill Pearson在Red Hat Summit 2026上透露,客户现在问的问题不再是"怎么堆更多GPU",而是"怎么让现有硬件发挥更大价值"。
这个转变背后是一笔经济账。早期AI推理追求最大模型、最强算力,企业把vLLM等开源项目部署到大规模GPU集群上。但Ibrahim发现,客户开始遇到"摩擦时刻"——如何把这些项目真正规模化?如何把每token成本压到可运营、可治理、可部署的水平?
![]()
答案藏在企业已有的硬件里。Pearson指出,CPU在数据中心的覆盖率远超GPU,而大量推理任务——特别是agentic AI的工具调用、数据编排等工作——根本不需要GPU。这让企业得以重新分配算力:CPU处理常规推理,GPU专注重型负载。
这种"混合架构"思维正在重塑基础设施优先级。Red Hat与英特尔的最新合作即为信号:双方为Red Hat AI 3.4引入了对英特尔至强处理器的完整vLLM支持。Pearson强调,这不是一刀切方案,而是根据工作负载特性匹配软硬件组合。
企业的心态转变颇具代表性。Pearson观察到,许多客户曾陷入"有锤子找钉子"的惯性——买了GPU就想把所有任务往上堆。一旦意识到数据中心里闲置的CPU潜力,他们开始重新计算:多少CPU、多少GPU,才能以最优成本达成目标性能。
Ibrahim补充,Red Hat作为vLLM最大商业贡献者,正通过llm-d等项目推动开源推理基础设施的成熟度。核心诉求始终未变:在保持控制力和成本效率的前提下,实现AI的规模化运营。当行业走出GPU淘金热,这场"用更少做更多"的效率竞赛,或许才是AI落地的真正起点。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.