【国金计算机&科技】再谈CPU涨价能持续多久？|gpu|服务器|英特尔|amd|cpu|知名企业|人工智能时代

分享至

来源：市场资讯

（来源：计算机畅想）

摘要

本周观点：

1月我们发布行业点评报告《CPU涨价能持续多久？》，率先揭示Agent对CPU的刚性需求以及CPU供需失衡全面爆发。过去4个月，CPU逻辑持续得到强化：1）AMD、Arm等头部厂商大幅上修服务器CPU TAM，Meta、AWS等大厂加码CPU部署，需求侧持续验证；2）Intel、AMD库存趋紧、交期拉长并持续涨价，景气度不断提升；3）同时，NVIDIA新一代Vera RuBin AI系统中CPU/GPU配比持续抬升，CPU正从辅助角色重新回到AI系统核心。

Agent对CPU刚性需求，CPU重回核心地位。随着大模型从Chatbot向Agent演进，计算负载重心正发生偏移。Agent不仅需要GPU进行模型推理，更依赖高性能CPU处理复杂逻辑编排、工具调用与内存管理。我们认为，Agent对CPU的刚性需求主要来自三方面：1）Multi-Agent架构带来的OS调度压力，以及沙盒环境创建、调度与销毁对CPU算力的持续消耗；2）长上下文场景下KV Cache卸载对CPU内存与带宽提出更高要求；3）高并发工具调用带来的大量CPU算力消耗。Intel论文显示，多数Agent工作负载中，CPU耗时占端到端延迟比例可达40%-90%。伴随Agent数量、任务复杂度与Token消耗指数级增长，CPU产业已进入新一轮景气周期，Intel、AMD服务器CPU库存趋紧、交期延长，并于2026年以来持续推进涨价。

CPU TAM扩容，CPU/GPU部署比例抬升。1）TAM来看，AMD与Arm均大幅上修服务器CPU市场空间，预计2030年全球服务器CPU TAM将超过1000亿美元。根据AMD，CPU需求可分为通用计算CPU、AI头节点CPU以及Agentic AI CPU三部分，其中智能体AI相关需求是最大的增量来源。2）配比来看，AI数据中心CPU/GPU部署比例正从传统HGX时代的1:4、1:8，逐步向1:2、1:1甚至更高演进。以NVIDIA为例，GB300 NVL72已实现72颗GPU搭配36颗Grace CPU的1:2配比，Vera Rubin进一步通过外挂独立Vera CPU机柜，使整体CPU配比继续抬升。

所有CPU架构均受益，ARM中期变化更显著。1）ARM架构低功耗、高核心密度的特性更契合Agent工作负载。相比x86，ARM在高并发、低功耗场景下具备更优能效比与扩展能力，尤其适合海量API调用、KV Cache调度等轻计算、高并发任务。2）ARM开放授权生态亦高度契合云厂商自主构建AI基础设施的需求，当前AWS Graviton、NVIDIA Grace、微软Cobalt等方案均已加速落地。ARM在FY26Q4业绩会上预计，到2030年按CPU类型划分的最大市场份额将属于Arm架构。

Agentic AI驱动CPU重构，全球厂商开启新一轮架构升级。1）海外方面，Intel、AMD、Arm、NVIDIA等均围绕高核心密度、异构协同与能效优化展开新一轮产品迭代，CPU竞争正从单纯性能竞争迈向系统级算效竞争；2）国内方面，海光、飞腾、龙芯、华为海思、熠知电子等厂商在x86、ARM与自主指令集方向持续突破，核心数、线程数、内存带宽与生态能力快速提升。伴随Agentic AI带来的CPU需求爆发，以及自主可控趋势深化，国产CPU有望迎来规模化替代与产业地位重估。

相关标的：

CPU：Intel、海光信息、禾盛新材、高通、AMD、澜起科技、中科曙光、中国长城、龙芯中科、广合科技、兴森科技、深南电路、宏和科技等。

海外算力：中际旭创、东山精密、胜宏科技、欧科亿、天孚通信、天岳先进、新易盛、工业富联、兆易创新、大普微、源杰科技、景旺电子、英维克、唯科科技、领益智造等；Lumentum、闪迪、铠侠、美光、SK海力士、中微公司、北方华创、拓荆科技、长川科技。

风险提示

行业竞争加剧的风险；技术研发进度不及预期的风险；特定行业下游资本开支周期性波动的风险。

报告目录：

报告正文：

01 CPU何以重回核心地位？

1.1 三大逻辑揭示Agent对CPU的刚性需求

随着大模型的应用从简单的Chatbot向能完成复杂任务的Agent演进，计算负载的重心正在发生微妙的偏移。Agent不仅需要GPU进行模型推理，更依赖高性能CPU来处理复杂的逻辑编排、工具调用和内存管理。我们认为，Agent对CPU的刚性需求基于以下三大逻辑：

Chatbot向Agent演进，Multi-Agent架构引发OS调度压力，计算负载重心正从GPU侧向CPU侧偏移。Agent工作流的“推理-执行-评估-反思”循环机制，在生成Token之外持续进行逻辑判断与状态管理，“思考”和“行动”的频繁切换显著加剧操作系统的上下文切换与进程调度压力。与此同时，Agent执行代码等操作须在隔离沙盒中运行，沙盒环境的创建、调度与销毁全程依赖CPU算力，进一步推高CPU侧的工作负载。

长上下文场景下KV Cache卸载对CPU构成挑战。KV Cache在加速Transformer推理的同时，带来了显著的显存消耗问题，以8万Token的上下文为例，KV Cache本身即可消耗数十GB显存，叠加模型权重与中间激活值后，HBM资源极易触及上限。对此，业界提出将不活跃的KV Cache卸载至CPU内存或SSD，以解决HBM瓶颈。但CPU与GPU之间的通信带宽远低于GPU内部的HBM带宽，数据搬运本身存在明显瓶颈；同时，在进行KV Cache传输和管理时，也需要CPU进行任务的调度，进一步加剧CPU的负载。

高并发工具调用带来巨大的CPU算力消耗。Agent的能力不仅在于对话，更在于使用工具，例如检索、写代码、浏览网，这类非推理任务的计算负担主要由CPU承担。在高并发场景下大量Agent同时工作，多线程/多进程调度需求集中爆发，对CPU的性能提出更高要求。

1.2 Agent生态扩张引爆CPU性能瓶颈，CPU现涨价潮

Agent生态正发生指数级扩张。据IDC预计，活跃Agent的数量将从2025年的约2860万，快速攀升至2030年的22.16亿；同时，年执行任务数将从2025年的440亿次暴涨至2030年的415万亿次，Agent数量跃升、任务复杂度与推理深度的指数级提升情况下，年度Token消耗将从2025年的0.0005 PetaTokens暴增至2030年的152,667 PetaTokens，年复合增长率高达3418%。

Agent工作负载驱动CPU从配角变为核心。Intel论文《A CPU-CENTRIC PERSPECTIVE ON AGENTIC AI》对五类主流Agent负载时延情况进行测试，结果显示，执行流程中CPU耗时占端到端延迟的比例为40%-90%，在Haystack RAG任务中，GPU侧推理耗时仅0.8-1.1秒，CPU侧ENNS检索耗时高达6.0-8.0秒，CPU相关时延占比最高达到90.6%。Agentic场景中的任务规划、工作流执行、工具调用、在子智能体之间传递数据等关键环节均依赖CPU进行调度，Agent数量暴增将急剧推高CPU侧工作负载，其累积时延将主导系统的整体耗时。

在GPT-OSS-20B模型的吞吐量测试中，随着BatchSize增加，不同Agentic工作负载的吞吐量增长逐渐放缓并趋于饱和。以Langchain为例，延迟情况从BatchSize为64时的2.9秒大幅上升至BatchSize为128时的6.3秒，LLM推理延迟同期从2.6秒上升至3.9秒，可见高并发条件下存在严重的CPU上下文切换瓶颈，成为系统延迟的重要因素。

高并发Agent负载下，CPU动态能耗占比加速攀升。LangChain工作负载下，当Batch Size从1增加到128，系统总动态能耗增长38.1倍，CPU动态能耗激增86.7倍；分Batch Size大小情况来看，在处理低Batch Size（1-4）时，GPU能耗显著高于CPU；随着Batch Size增加到128，CPU的能耗（1807 Joules）已经接近GPU（2307 Joules），占比高达44%，可见在大批量处理场景下，CPU能耗占比格外显著，从辅助算力转变为核心算力单元。

大厂的AI基础设施布局开始向CPU侧倾斜。2026年2月17日，Meta宣布大规模部署英伟达Grace CPU，并计划于2027年推进Vera CPU规模化落地；4月24日，Meta进一步与AWS签署多年期协议，将部署数千万颗Graviton CPU核心，以应对Agentic AI工作负载中CPU密集型的任务调度、编排等需求。除此之外，谷歌于4月9日宣布与英特尔就至强Xeon CPU展开多年期合作，共同推进下一代AI及云基础设施的建设。Meta成为首家在数据中心单独部署Grace CPU的公司、头部厂商通过长期协议锁定CPU供应，种种信号均印证CPU正重回AI算力主舞台。

CPU短缺加剧，涨价周期来临。25年10月，据外媒TrendForce报道，英特尔公司正计划对其第13代Raptor Lake和第14代Raptor Lake Refresh处理器进行价格调整，涨幅最高可达10%。26年1月，据外媒Wccftech报道，AMD和英特尔今年各自的服务器CPU库存均已售罄，大部分需求来自超大规模企业，他们希望将最新的服务器CPU集成到现有机架架构中，这也是过去几个季度需求显著增长的原因，因此，据称AMD和英特尔都计划将服务器CPU价格提高多达15%，以确保供应保持稳定。据日经亚洲26年3月25日报道，英特尔与AMD已各自通知客户，将分别于3月和4月起上调全系列CPU价格，平均涨幅达10-15%，部分产品涨幅更高；同时，交货周期将从之前的1-2周大幅延长至8-12周，个别情况下甚至将长达6个月。AI算力需求爆炸式增长，AI芯片巨头占用大量原材料与产能，英特尔与AMD面临产能扩张瓶颈，叠加原材料价格上涨，CPU供给端持续承压，供需错配加剧，CPU价格进入上行通道。

02 CPU TAM扩容，CPU/GPU部署比例抬升

2.1 CPU TAM翻倍上修，预计到2030年TAM超1000亿美元

CPU TAM有望翻倍提升：AMD/ARM指引2030年CPU TAM超1000亿美元。1）在AMD FY26Q1业绩会上，AMD CEO表示，受智能体AI需求拉动，预计服务器CPU的总潜在市场（TAM）将以每年超过35%的速度增长，并将2030年服务器CPU TAM翻倍上调至1200亿美元，因需要大量CPU用于任务编排、数据移动和并行执行。2）根据ARM FY26Q4业绩会，公司首款AGI CPU发布仅六周，客户需求就从10亿美元激增翻番至20亿美元；随着AI Agent的扩展，数据中心将需要超过目前4倍的CPU容量，到2030年将创造一个超过1000亿美元的数据中心CPU市场机会；且芯片ASP会随核心数的增加显著提升。据Futurum预测，CPU收入增长率将在2028年前超过GPU和XPU的增长，CPU市场的潜在规模与增速巨大。

2.2 CPU与GPU配比有望提升至1:1甚至更多

Agentic时代CPU的部署比例向1:2/1:1甚至更高演进。Intel、ADM、ARM等头部CPU厂商均对CPU的搭载配比进行乐观展望：1）FY26Q1财报业绩会上，ADM CEO表示过去以主机节点模式为主，CPU与GPU配比约为1:4或1:8，现在正在向接近1:1的方向转变，如果智能体数量大量增加，甚至可以想象CPU数量超过GPU的场景；2）FY26Q1财报业绩会上，Intel CEO表示数据中心CPU核心数量正在大幅增加，目前CPU与GPU的配比是1:4，未来将达到1:1均衡，甚至发生逆转。AI推理任务中对CPU编排、调度、内存管理等工作的需求显著加大，CPU与GPU配比的重构将直接拉高数据中心对CPU的需求规模。3）ARM在FY26Q4业绩会上表示，从芯片颗数来看，CPU数量超过GPU未必会发生，但从核心数来看，则很可能实现；传统数据中心每吉瓦仅需3000万颗CPU核心，Agentic AI时代CPU的需求将激增至1.2亿颗，增幅达4倍。4）同时，数据中心的对CPU的电力分配也将随之提升，Futurum基于ARM预测数据中心每吉瓦CPU核心数的4倍增幅，并结合ARM AGI CPU服务器约36 kW的功耗估算，CPU与GPU服务器的比例将接近7:1，数据中心的电力分配发生反转，大部分电力将重新分配至CPU。

根据AMD，CPU需求可以分为三类：1）通用计算CPU TAM，增速相对较低，约为低两位数；2）与加速器连接的AI头节点CPU，增速也在增长但规模较小。头节点中CPU的作用是管理连接的GPU，并持续为其提供数据。为了尽可能降低尾部延迟，需要具备大容量缓存、高带宽内存和IO的高性能单核。NVIDIA Grace的设计便旨在实现GPU的一致性内存访问，以便将CPU内存用作模型上下文键值缓存（KV Cache）的扩展，这需要极高的CPU到GPU带宽。对于头节点，每个计算节点中通常由1颗CPU搭配2或4颗GPU，如NV Vera Rubin每个超级芯片包含1颗Vera CPU和2颗Rubin GPU。3）智能体AI的CPU需求，是增量最大的部分，如NVIDIA引入的Vera CPU专用机柜架构。

我们以NV机柜CPU:GPU配比的演进为例：1）HGX时代：标配多为单路/双路CPU带8卡（配比1:8或1:4）。2）GB300 NVL72集成72颗NVIDIA Blackwell Ultra GPU和36颗基于ARM架构的NVIDIA Grace CPU，配比为1:2。3）Vera Rubin NVL72集成72颗Rubin GPU和36颗Vera CPU，配比维持1:2，并通过在集群中外挂纯Vera CPU算力柜作为专属的Agent并发调度节点，整体计算集群的CPU：GPU配比向更高比例演进。

DGX H100/H200架构：在DGX H100/H200这一代架构中，CPU与GPU之间仍主要基于PCIe构建异构计算架构。1）系统逻辑拓扑：系统采用双路x86 CPU架构，配置2颗Intel Xeon Platinum 8480C CPU（总核心数56/总线程数112），并连接8颗NVIDIA H100/H200 GPU，CPU与GPU数量配比约为1:4。2）连接中枢(PCIe Switches)：根据NVIDIA DGX H100官方架构图，系统采用PCIe Gen5 Switch构建CPU与GPU间的PCIe拓扑连接，多个GPU通过PCIe Switch接入双路CPU平台，CPU与GPU之间的数据交换主要依赖PCIe Gen5 x16互联。3）互联带宽：PCIe Gen5 x16的理论双向汇总带宽约为128GB/s，而GPU之间通过NVLink可实现最高900GB/s GPU-to-GPU带宽，GPU内部与GPU间的数据吞吐能力已显著高于传统CPU-GPU PCIe互联带宽。4）存储层次：系统配置2TB DDR5系统内存；GPU侧方面，H100配置80GB HBM3显存，H200进一步升级至141GB HBM3e显存，并将显存带宽提升至4.8TB/s。

GB200/300 NVL72：NVLink-C2C推动CPU-GPU从PCIe异构互联向cache-coherent紧耦合架构演进，机柜级CPU/GPU配比提升至1:2。在传统HGX架构下，CPU与GPU之间主要通过PCIe Gen5进行互联，其带宽显著低于GPU内部及GPU之间的数据吞吐能力，因此CPU更多承担主机处理器、系统调度、IO管理及运行时调度等职责，GPU则负责主要AI计算任务。进入Blackwell时代后，NVIDIA在GB300 NVL72中进一步引入NVLink-C2C一致性互联架构，并在机柜级构建CPU-GPU紧耦合异构计算系统。1）系统架构：根据NVIDIA官方架构，GB300 NVL72采用全液冷整机柜设计，集成36颗基于ARM架构的Grace CPU（72核，基于Arm Neoverse V2架构）与72颗Blackwell Ultra GPU，实现机柜级1:2的CPU/GPU物理配比。2）在互联架构方面，CPU与GPU之间通过NVLink-C2C实现最高900GB/s的一致性互联带宽，比PCIe Gen5 x16通道高出7倍。3）存储层次：以GB200为例，GPU侧配置总计372GB HBM3e显存，CPU侧配置480GB LPDDR5X内存，得益于一致性内存架构，GPU能够以NVLink-C2C高效访问Grace CPU侧LPDDR5X内存，从而显著扩展统一内存容量，为长上下文、Agentic AI及测试时扩展（Test-Time Scaling）等大内存场景提供支持。

Vera Rubin：进一步推进数据中心架构向rack-scale AI factory演进，通过GPU计算机柜与CPU扩展机柜的分层设计，强化面向Agentic AI与测试时计的系统吞吐能力。1）系统架构：在核心计算单元上，Vera Rubin NVL72机柜延续Blackwell时代的机柜级超级计算架构，由72颗Rubin GPU与36颗Vera CPU（88核/176线程，基于定制的、兼容ARM的NVIDIA Olympus架构）构成标准配置，维持CPU:GPU=1:2的物理配比，其中GPU承担大规模矩阵计算与模型推理任务，而CPU则从传统主机管理角色进一步扩展至更高频的调度、数据预处理与Agent执行任务，从而提升系统整体并行效率；在系统扩展层面，NVIDIA引入Vera CPU专用机柜（Vera CPU Rack），单机柜可集成多达256颗Vera CPU，用于执行强化学习环境运行、Agent rollout、推理验证与非矩阵类计算任务，该设计使CPU资源从GPU计算柜中解耦出来，形成独立的CPU算力池，从而实现更灵活的工作负载分配与系统级扩展能力。2）在互联架构方面，NVLink-C2C带宽进一步提高至1.8 TB/s。3）存储层次：以Vera Rubin超级芯片为例，GPU显存配置为576 GB HBM4，CPU内存配置为1.5 TB LPDDR5X。

03 所有CPU架构均受益，ARM中期变化更显著

3.1 ARM架构低功耗、高核心密度的特性更契合Agent工作负载

对比x86及ARM架构特性，x86架构拥有极高的单线程性能，计算性能强，更擅长处理大规模复杂数据，但功耗偏高；ARM架构的核心优势在于极致的能耗比与高核心密度。Agent时代的工作负载（如海量API调用、Python脚本解释、KV Cache调度）一般表现为轻计算、高并发。ARM架构能在极低的功耗下堆叠出海量的物理核心，非常适合高并发、低功耗场景。例如NVIDIA的Vera处理器，在极低功耗下实现了88核/176线程，这种特性使其在处理高并发场景时不仅吞吐量惊人，还能大幅降低服务器节点的散热压力与能耗。

ARM份额指引乐观。据ARM FY26Q4业绩会表述，Trainium、TPU、英伟达加速器中绝大部分市场份额将是Arm，到2030年按CPU类型划分的最大市场份额将属于Arm。Counterpoint预测，2029年基于ARM架构的CPU有望占据定制AI ASIC服务器主机CPU市场90%的份额，而x86和RISC-V架构合计仅占约10%。

Agent呈现能源密集型特征，CPU能效比成为关键。1）数据中心用电需求翻倍：据IEA，2025年全球数据中心电力需求增长17%，其中AI驱动的数据中心电力消耗增长高达50%，2030年全球数据中心用电量预计将从2025年的485TWh近乎翻倍至950TWh。2）多步骤执行、工具交互等推理过程对功耗密度的需求大幅增加：传统数据中心主要服务于企业IT、互联网服务、数据存储等基础业务，单机架功率密度仅为5-15kW；AI数据中心聚焦模型训练、深度学习推理、智能计算等任务，对功率密度的要求显著提升，据AFCOM，2025年数据中心平均机架功率密度达到27kW，同比大增69%，高并发、长序列处理场景不断增加，未来或迎来百瓦、千瓦级的需求，并对电网、UPS、液冷系统等带来挑战。3）电力供应的增长速度低于算力需求的膨胀，功耗低的服务器占优：Agentic AI部署的Token消耗量是标准生成式AI的20-30倍，受限于因电网容量与成本等刚性因素，传统堆卡模式难以为继，CPU的能效比变得至关重要。

3.2 ARM开放生态更契合大厂需求，NV Grace率先跑通

除了物理性能的契合，ARM架构份额提升的另一大核心驱动力在于其商业授权模式。传统x86生态处于授权封闭状态，客户高度依赖Intel/AMD少数巨头，不仅面临高昂的采购溢价，且定制化差，客户自主权小。而在当前的算力军备竞赛中，各大头部云厂商（CSP）为了实现底层算力解绑并追求极致的TCO（总拥有成本），亟需打造差异化的算力底座。ARM的开放IP授权模式完美迎合了这一战略诉求。通过获取ARM授权，亚马逊、谷歌、微软等CSP能够根据自身云原生需求自主定制专属CPU，降低TCO。

Grace CPU能效倍升，利于高密度部署。1）能效优势显著：据NVIDIA官网，Grace CPU可将数据中心的输出能力提高一倍、能耗降低一半，与x86 CPU相比，图形分析中服务器性能提升2.4倍、能效提高3倍，数据分析中能效提高2.1倍，天气模拟场景在相同功耗下可完成约2倍工作量，极大提高数据中心吞吐量。2）低功耗限制下仍保持高性能：Grace CPU在200W功耗限制下可保持超过90%性能，150W下仍可保持80%性能，进而在功率受限的环境中，保证不牺牲计算性能的同时，实现机架密度最大化。

AWS Graviton5：AWS是首家成功为云端开发并部署自研CPU的超大规模云服务商，Graviton5自2025年12月开始预览，拥有192个NeoverseV3核心，并在台积电3nm工艺上集成了1720亿个晶体管。在CPU使用方面，AWS已在内部CI/CD设计集成流程中使用了数千颗Graviton CPU，其Trainium3加速器现在将使用Graviton CPU作为头节点，配比为1颗CPU对应4颗XPU，初始版本运行在Graviton4上，未来的Trainium3集群将由Graviton5提供动力。

微软Cobalt 200：Cobalt200于2025年底发布，核心数量从128个增加到132个，采用NeoverseV3设计，每个核心的性能都大幅提升。每个核心拥有极大的3MBL2缓存，并通过标准的ARM Neoverse CMNS3片上网络连接，跨越两个台积电3nm计算芯片(compute dies)，芯片间采用定制的高带宽互连。Cobalt200将仅用于Azure的通用CPU计算服务，而不会被用作AI头节点，微软的Maia200机架级系统转而采用了英特尔的Granite Rapids CPU。

04 Agentic AI驱动CPU重构，全球厂商开启新一轮架构升级

4.1 海外：x86与ARM路线竞逐，性能、能效与异构协同全面升级

Intel：x86架构传统龙头乘势再起，Xeon6+性能、能效、集成度、跨越式提升。Xeon 6+采用Chiplets设计，封装中集成了12个Intel 18A工艺的计算模块、3个Intel 3工艺的有源基础模块、2个Intel 7工艺的I/O模块、12个EMIB 2.5D连接封装模块；计算模块内部分为6个模组，每个都包含4个Darkmont架构的E核，总计288个核心。英特尔技术专家指出，在整体负载占比不同的情况下，至强6+处理器较上一代Sierra Forest可以带来1.9倍以上的性能提升，同时在整体负载范围之内带来高达23%的能效提升，达到8:1服务器整合的效果。

Xeon6+量产在即，Intel 18A工艺重构能效表现。Xeon6+ E能效核（Clearwater Forest）预计于2026H1量产发布，Xeon6+ P性能核（Diamond Rapids）有望于2027年量产，二者均基于Intel 18A最先进制程，工艺的良率已达大规模量产标准，且仍在持续优化，目前已向首批客户交付量产晶圆。Intel 18A通过多方面的技术提升显著弥补x86架构CPU的能耗短板、并强化x86的单线程性能优势，相同频率下，较Intel 3功耗降低36%-38%，等效功率性能提升15%。1）采用RibbonFET全环绕栅极晶体管架构，晶体管漏电率降低50%，同功耗下开关频率提升15%；2）通过PowerVia背面供电技术，实现供电与信号线路的物理分离，将芯片电阻压降减少40%、互连线性能提升30%、同性能下功耗降低15%，同时为正面晶体管布局释放了超20%的空间。

AMD：EPYC 9005性能领先，Agentic AI全栈优化。AMD服务器CPU系列产品已迭代至第五代（EPYC 9005），Zen 5架构相比上一代Zen 4实现16%的IPC提升。EPYC 9965作为第五代系列中的高性能旗舰产品，采用Zen 5c核心，相比Zen 5核心物理布局更紧凑、每瓦性能更高，单颗集成192核384线程，支持12通道DDR5-6400内存与128条PCIe 5.0通道。EPYC 9965在主机CPU与CPU侧推理两类核心场景中具备全栈优势，据AMD官网，EPYC 9965性能提升29%、能效提升66%、端到端AI性能提升70%、机器学习性能提升高达93%；在LLM推理场景中表现卓越，相较Intel Xeon 6980P，EPYC 9965在Llama 3.1 88模型中处理性能领先33%、GPT-J 6B中汇总场景的吞吐量性能提升28%、Llama 3.2 1B 中应用场景转换性能提升36%。

第六代EPYC Venice综合性能再进阶，或成为驱动公司达成50%+CPU市占的王牌。AMD计划于2026H2发布第六代服务器CPU（EPYC Venice），首次采用台积电2nm工艺及Zen 6/Zen 6c核心架构，集成256个核心和512个线程，相较第五代产品核心数增加33%，线程密度提升30%，整体性能与能效提升70%。Venice在吞吐量、功耗、成本和AI基础设施等方面进行全方位优化，以极致产品力巩固服务器CPU领域领导地位，AMD CEO于26Q1财报会上表示，相较市场上其他x86产品，Venice每插槽及每瓦性能大幅提升；相较市场领先的Arm产品，Venice每插槽吞吐量提升逾2倍；客户对于Venice需求强劲，处于验证和爬坡平台阶段的客户数量超过了以往任何一代EPYC，对实现超过50%的市场份额目标充满信心。

Arm：AGI CPU面向Agentic AI，专为高密度机架部署设计。Arm AGI CPU单颗芯片最多集成136个Neoverse V3内核，每个内核可获得6 GB/s内存带宽，并支持DDR5-8800规格与低于100ns的访问延迟。参考服务器配置采用1OU双节点设计，每块刀片板集成两颗芯片，并配备独立的内存与I/O，单刀片合计提供272个计算核心，这些刀片可完整填充标准风冷36kW机架，共30片刀片、总计8,160个核心，支撑高密度、低延迟的下一代AI计算系统；此外，Arm还与Supermicro联合推出液冷200kW机架方案，可容纳336颗Arm AGI CPU，总核心数超过45,000个。

Arm AGI CPU的核心密度优势实质为结构性TCO优势。Arm AGI CPU在300W TDP下提供136个核心，每瓦约提供0.45个核心，相比之下AMD 500W的192核EPYC每瓦约为0.38个核心，英特尔500W的144核Xeon每瓦约为0.29个核心，在电力和冷却占总运营成本30–40%的数据中心中，高核心数密度可转化为更高的工作负载密度、更充分的加速器利用率，以及在既有功耗预算内更有效的计算能力释放，进而带来成本的极大节约；据Arm官网，Arm AGI CPU方案在单机架性能上可达到传统x86平台的两倍以上水平，每GW数据中心容量可节省100亿美元的资本支出。

4.2 国内：自主架构加速突破，国产CPU迈向规模化替代

华为海思：鲲鹏920是目前业界领先的ARM-based处理器。该处理器采用7nm制造工艺，基于ARM架构授权，由华为公司自主设计完成。通过优化分支预测算法、提升运算单元数量、改进内存子系统架构等一系列微架构设计，大幅提高处理器性能。典型主频下， SPECint Benchmark评分超过930，超出业界标杆25%。同时，能效比优于业界标杆30%。鲲鹏920以更低功耗为数据中心提供更强性能。

海光信息：国产x86服务器CPU领军者，系统架构、可靠性、安全性优异。海光信息为国内少数实现成熟商用的x86通用处理器的公司，面向数据中心、行业客户、高性价比场景的实际需求，细分为海光7000系列产品、海光5000系列产品、海光3000系列产品，产品矩阵覆盖全面，具备高计算和扩展能力；依托先进的SoC架构和片上网络，集成更多处理器核心，性能优势显著，已广泛应用于电信、金融、互联网、教育、交通等重要行业或领域。其中，面向数据中心的旗舰级高性能处理器700系列，集成16-32核心，支持128路PCle通道，8个DDR4内存通道，并针对数据中心云计算中心等进行了功耗优化。2016年公司基于AMD授权技术启动x86架构海光C86-1G CPU产品设计，目前海光C86-4G CPU已实现商业化应用，公司于2025年5月发布C86-5G技术路线图，最高128核、512线程，与前代相比核心数量增加1倍，线程数量增加4倍，每周期指令数（IPC）提升超过17%，代际迭代升级显著。

禾盛新材：战略入股熠知电子押注国产ARM CPU先机，TF9000性能全面提升。2025年8月禾盛新材以自有资金或自筹资金2.5亿元向向熠知电子投资，2026年4月公司再次以自有资金或自筹资金2.33亿元增资熠知电子，持有熠知电子17.05%股权。熠知电子已完成三代ARM处理器芯片迭代升级，原有产品线包括一代TF16000系列、二代TF7000系列融合处理器及相应板卡。公司于2026年1月发布第三代TF9000系列融合处理器及板卡，采用Armv9架构，对标英伟达Grace系列CPU，相较第二代产品TF7000系列实现了核心性能30%的提升、成本降低30%，以及内存带宽、PCIe 5.0带宽和内存总容量分别提升了200%、100%和300%，主力面向通用云计算、大模型一体化等AI智算领域，兼具高性能与高性价比。熠知电子商业与生态双重验证充分，TF7000系列、TF9000系列处理器及相关服务器产品，已成功支持国内互联网大厂、运营商、制造业、金融机构、政府、公安等核心客户，进入规模化商用阶段。在生态协同方面，熠知电子已与国内多家主流GPU厂商完成产品深度适配，广泛落地算力服务器、大模型一体机等多元场景。

中国长城：飞腾信息第一大股东，腾云S5000C-E产品力升级。截至2025年12月，中国长城持有国产ARM服务器CPU龙头飞腾信息28.04%股权，为其第一大股东。飞腾信息面向高性能服务器领域打造飞腾腾云S系列服务器CPU，已包括S2500、S5000C、S5000C-E系列产品，提供强算力、高并发的计算能力。飞腾腾云S5000C-E为最新服务器CPU旗舰产品，集成80个飞腾自研高性能处理器内核，计算性能相比S5000C-64提升50%以上，可轻松应对金融交易、风控建模等复杂计算场景。2025年，公司基于腾云S5000C-E（80核）研制新一代服务器，性能实测比肩业内高端产品，实现DeepSeek大模型与国产算力深度耦合，成功交付多款AI训推一体机。

信创领域优势显著，连续斩获多个核心大单。飞腾服务器CPU产品基于ARMv8架构，深度适配麒麟、统信等主流信创操作系统，具备自主可控、高性能、高安全、生态兼容等优势。受益于国产化替代政策深化落地，飞腾信息近期连续中标金融、电信、政务等核心行业大规模集采订单，2025年11月，飞腾腾云双路服务器中标安平行业某省级客户项目，中标数量超百台；2025年12月，飞腾腾云S5000C-M CPU独家中标中国移动2025-2026年5G扩展型皮基站集采8000片，为国产CPU在5G基站核心计算单元的首次规模化商用；2026年4月基于飞腾腾云S5000C、S5000C-E的双路高性能服务器中标政策性银行数百台采购项目，订单放量势头保持强劲。

龙芯中科：3C6000对标市场主流，强势开拓智算市场。面向服务器市场，公司已有龙芯3C5000、龙芯3D5000、龙芯3C6000等系列产品，龙芯3C6000基于公司自研指令集系统LoongArch，最高支持128核256线程，性能相比上代3C5000系列成倍提升，对标英特尔第三代至强可扩展处理器，产品代差缩小至两代；对标NVLink通过龙链技术实现片间互连，大幅降低延迟，提高带宽效率。目前，龙芯服务器CPU已实现多个智算场景应用案例，如郑州港区新建的自主智算中心已有超过500台服务器全部采用龙芯3C6000/D服务器芯片。据龙芯中科董事长胡伟武在25&26Q1业绩会上表示，随着服务器CPU的推出，公司与抖音、阿里、腾讯等互联网大厂的适配合作更加紧密，每个万卡集群项目可采用2000-3000片32核龙芯3C6000/D CPU，3C6000在2025年实现千片量级销售，2026年应有数量级的提高。

全栈自主可控，LoongArch生态持续开放扩圈。公司自研LoongArch指令集架构，为国内唯一独立于X86与ARM体系、构建完整自主指令系的CPU企业，该架构具备较好的自主性、先进性与兼容性，2020年起公司新研CPU产品均支持LoongArch，实现了从底层指令到硬件设计的全栈自主可控。为扩大龙架构生态覆盖，公司已于2023年11月将龙芯CPU核心IP开放授权给部分合作伙伴，支持其研制基于龙架构指令系统及龙芯CPU核心IP的芯片产品。2026年4月，龙芯中科与海量数据联合调试再创佳绩，基于龙芯3C6000/D双路服务器（64核/512GB）与海量数据库的全国产化方案性能较常规方案提升30%，在TPC-C标准测试下每分钟新订单事务处理量突破100万，刷新自主指令集架构芯片与国产数据库协同优化记录，标志着LoongArch与国产数据库的融合能力迈入实用化新阶段。

全球服务器CPU正处于新一轮升级周期，海外巨头领衔多核高密度与异构迭代，国内厂商性能代差加速收窄。1）海外厂商方面，Intel Xeon7 Diamond Rapids最高512核心、AMD EPYC Venice迈入2nm节点、NVIDIA Vera CPU性能翻倍功耗减半、Arm AGI CPU多核支撑高密度机架部署，均展现极致的性能与能效，CPU与其他计算单元深度耦合，算力调度由分离转向融合，极大释放Agentic AI场景的系统级算效。2）国内厂商方面，海光C86-5G核心数与线程数倍增、飞腾腾云S5000C-E计算性能较前代提升50%以上、龙芯3C6000对标海外主流产品性能倍升，国产服务器CPU技术水平正快速成长，加速追赶海外顶尖产品标准，AI算力高需求高景气叠加自主可控政策催化，国产CPU迎来规模化放量窗口期。

05 相关标的

CPU：Intel、海光信息、禾盛新材、高通、AMD、澜起科技、中科曙光、中国长城、龙芯中科、广合科技、兴森科技、深南电路、宏和科技等。

06 风险提示

行业竞争加剧的风险：

在信创等政策持续加码支持计算机行业发展的背景下，众多新兴玩家参与到市场竞争之中，若市场竞争进一步加剧，竞争优势偏弱的企业或面临出清，某些中低端品类的毛利率或受到一定程度影响。

技术研发进度不及预期的风险：

计算机行业技术开发需投入大量资源，如果相关厂商新品研发进程不及预期，表观层面将呈现出投入产出在较长时期的滞后特征。

特定行业下游资本开支周期性波动的风险：

部分计算机公司系顺周期行业，下游资本开支波动与行业周期性相关性较强，或在个别年份对于上游软件厂商的营收表现产生扰动。

报告信息

证券研究报告：《计算机行业研究报告：CPU：AI需求大起点》

对外发布时间：2026年5月16日

报告发布机构：国金证券股份有限公司

证券分析师：

刘高畅：SAC执业编号：S1130525120005

邮箱：liugaochang＠gjzq.com.cn

陈芷婧：SAC执业编号：S1130525120008

邮箱：chenzhijing＠gjzq.com.cn

鲍淑娴：SAC执业编号：S1130526020002

邮箱：baoshuxian＠gjzq.com.cn

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.