来源:市场资讯
(来源:计算机畅想)
摘要
本周观点:
1月我们发布行业点评报告《CPU涨价能持续多久?》,率先揭示Agent对CPU的刚性需求以及CPU供需失衡全面爆发。过去4个月,CPU逻辑持续得到强化:1)AMD、Arm等头部厂商大幅上修服务器CPU TAM,Meta、AWS等大厂加码CPU部署,需求侧持续验证;2)Intel、AMD库存趋紧、交期拉长并持续涨价,景气度不断提升;3)同时,NVIDIA新一代Vera RuBin AI系统中CPU/GPU配比持续抬升,CPU正从辅助角色重新回到AI系统核心。
Agent对CPU刚性需求,CPU重回核心地位。随着大模型从Chatbot向Agent演进,计算负载重心正发生偏移。Agent不仅需要GPU进行模型推理,更依赖高性能CPU处理复杂逻辑编排、工具调用与内存管理。我们认为,Agent对CPU的刚性需求主要来自三方面:1)Multi-Agent架构带来的OS调度压力,以及沙盒环境创建、调度与销毁对CPU算力的持续消耗;2)长上下文场景下KV Cache卸载对CPU内存与带宽提出更高要求;3)高并发工具调用带来的大量CPU算力消耗。Intel论文显示,多数Agent工作负载中,CPU耗时占端到端延迟比例可达40%-90%。伴随Agent数量、任务复杂度与Token消耗指数级增长,CPU产业已进入新一轮景气周期,Intel、AMD服务器CPU库存趋紧、交期延长,并于2026年以来持续推进涨价。
CPU TAM扩容,CPU/GPU部署比例抬升。1)TAM来看,AMD与Arm均大幅上修服务器CPU市场空间,预计2030年全球服务器CPU TAM将超过1000亿美元。根据AMD,CPU需求可分为通用计算CPU、AI头节点CPU以及Agentic AI CPU三部分,其中智能体AI相关需求是最大的增量来源。2)配比来看,AI数据中心CPU/GPU部署比例正从传统HGX时代的1:4、1:8,逐步向1:2、1:1甚至更高演进。以NVIDIA为例,GB300 NVL72已实现72颗GPU搭配36颗Grace CPU的1:2配比,Vera Rubin进一步通过外挂独立Vera CPU机柜,使整体CPU配比继续抬升。
所有CPU架构均受益,ARM中期变化更显著。1)ARM架构低功耗、高核心密度的特性更契合Agent工作负载。相比x86,ARM在高并发、低功耗场景下具备更优能效比与扩展能力,尤其适合海量API调用、KV Cache调度等轻计算、高并发任务。2)ARM开放授权生态亦高度契合云厂商自主构建AI基础设施的需求,当前AWS Graviton、NVIDIA Grace、微软Cobalt等方案均已加速落地。ARM在FY26Q4业绩会上预计,到2030年按CPU类型划分的最大市场份额将属于Arm架构。
Agentic AI驱动CPU重构,全球厂商开启新一轮架构升级。1)海外方面,Intel、AMD、Arm、NVIDIA等均围绕高核心密度、异构协同与能效优化展开新一轮产品迭代,CPU竞争正从单纯性能竞争迈向系统级算效竞争;2)国内方面,海光、飞腾、龙芯、华为海思、熠知电子等厂商在x86、ARM与自主指令集方向持续突破,核心数、线程数、内存带宽与生态能力快速提升。伴随Agentic AI带来的CPU需求爆发,以及自主可控趋势深化,国产CPU有望迎来规模化替代与产业地位重估。
相关标的:
CPU:Intel、海光信息、禾盛新材、高通、AMD、澜起科技、中科曙光、中国长城、龙芯中科、广合科技、兴森科技、深南电路、宏和科技等。
海外算力:中际旭创、东山精密、胜宏科技、欧科亿、天孚通信、天岳先进、新易盛、工业富联、兆易创新、大普微、源杰科技、景旺电子、英维克、唯科科技、领益智造等;Lumentum、闪迪、铠侠、美光、SK海力士、中微公司、北方华创、拓荆科技、长川科技。
风险提示
行业竞争加剧的风险;技术研发进度不及预期的风险;特定行业下游资本开支周期性波动的风险。
报告目录:
![]()
![]()
报告正文:
01 CPU何以重回核心地位?
1月我们发布行业点评报告《CPU涨价能持续多久?》,率先揭示Agent对CPU的刚性需求以及CPU供需失衡全面爆发。过去4个月,CPU逻辑持续得到强化:1)AMD、Arm等头部厂商大幅上修服务器CPU TAM,Meta、AWS等大厂加码CPU部署,需求侧持续验证;2)Intel、AMD库存趋紧、交期拉长并持续涨价,景气度不断提升;3)同时,NVIDIA新一代Vera RuBin AI系统中CPU/GPU配比持续抬升,CPU正从辅助角色重新回到AI系统核心。
1.1 三大逻辑揭示Agent对CPU的刚性需求
随着大模型的应用从简单的Chatbot向能完成复杂任务的Agent演进,计算负载的重心正在发生微妙的偏移。Agent不仅需要GPU进行模型推理,更依赖高性能CPU来处理复杂的逻辑编排、工具调用和内存管理。我们认为,Agent对CPU的刚性需求基于以下三大逻辑:
Chatbot向Agent演进,Multi-Agent架构引发OS调度压力,计算负载重心正从GPU侧向CPU侧偏移。Agent工作流的“推理-执行-评估-反思”循环机制,在生成Token之外持续进行逻辑判断与状态管理,“思考”和“行动”的频繁切换显著加剧操作系统的上下文切换与进程调度压力。与此同时,Agent执行代码等操作须在隔离沙盒中运行,沙盒环境的创建、调度与销毁全程依赖CPU算力,进一步推高CPU侧的工作负载。
长上下文场景下KV Cache卸载对CPU构成挑战。KV Cache在加速Transformer推理的同时,带来了显著的显存消耗问题,以8万Token的上下文为例,KV Cache本身即可消耗数十GB显存,叠加模型权重与中间激活值后,HBM资源极易触及上限。对此,业界提出将不活跃的KV Cache卸载至CPU内存或SSD,以解决HBM瓶颈。但CPU与GPU之间的通信带宽远低于GPU内部的HBM带宽,数据搬运本身存在明显瓶颈;同时,在进行KV Cache传输和管理时,也需要CPU进行任务的调度,进一步加剧CPU的负载。
高并发工具调用带来巨大的CPU算力消耗。Agent的能力不仅在于对话,更在于使用工具,例如检索、写代码、浏览网,这类非推理任务的计算负担主要由CPU承担。在高并发场景下大量Agent同时工作,多线程/多进程调度需求集中爆发,对CPU的性能提出更高要求。
![]()
1.2 Agent生态扩张引爆CPU性能瓶颈,CPU现涨价潮
Agent生态正发生指数级扩张。据IDC预计,活跃Agent的数量将从2025年的约2860万,快速攀升至2030年的22.16亿;同时,年执行任务数将从2025年的440亿次暴涨至2030年的415万亿次,Agent数量跃升、任务复杂度与推理深度的指数级提升情况下,年度Token消耗将从2025年的0.0005 PetaTokens暴增至2030年的152,667 PetaTokens,年复合增长率高达3418%。
![]()
Agent工作负载驱动CPU从配角变为核心。Intel论文《A CPU-CENTRIC PERSPECTIVE ON AGENTIC AI》对五类主流Agent负载时延情况进行测试,结果显示,执行流程中CPU耗时占端到端延迟的比例为40%-90%,在Haystack RAG任务中,GPU侧推理耗时仅0.8-1.1秒,CPU侧ENNS检索耗时高达6.0-8.0秒,CPU相关时延占比最高达到90.6%。Agentic场景中的任务规划、工作流执行、工具调用、在子智能体之间传递数据等关键环节均依赖CPU进行调度,Agent数量暴增将急剧推高CPU侧工作负载,其累积时延将主导系统的整体耗时。
![]()
在GPT-OSS-20B模型的吞吐量测试中,随着BatchSize增加,不同Agentic工作负载的吞吐量增长逐渐放缓并趋于饱和。以Langchain为例,延迟情况从BatchSize为64时的2.9秒大幅上升至BatchSize为128时的6.3秒,LLM推理延迟同期从2.6秒上升至3.9秒,可见高并发条件下存在严重的CPU上下文切换瓶颈,成为系统延迟的重要因素。
![]()
高并发Agent负载下,CPU动态能耗占比加速攀升。LangChain工作负载下,当Batch Size从1增加到128,系统总动态能耗增长38.1倍,CPU动态能耗激增86.7倍;分Batch Size大小情况来看,在处理低Batch Size(1-4)时,GPU能耗显著高于CPU;随着Batch Size增加到128,CPU的能耗(1807 Joules)已经接近GPU(2307 Joules),占比高达44%,可见在大批量处理场景下,CPU能耗占比格外显著,从辅助算力转变为核心算力单元。
![]()
大厂的AI基础设施布局开始向CPU侧倾斜。2026年2月17日,Meta宣布大规模部署英伟达Grace CPU,并计划于2027年推进Vera CPU规模化落地;4月24日,Meta进一步与AWS签署多年期协议,将部署数千万颗Graviton CPU核心,以应对Agentic AI工作负载中CPU密集型的任务调度、编排等需求。除此之外,谷歌于4月9日宣布与英特尔就至强Xeon CPU展开多年期合作,共同推进下一代AI及云基础设施的建设。Meta成为首家在数据中心单独部署Grace CPU的公司、头部厂商通过长期协议锁定CPU供应,种种信号均印证CPU正重回AI算力主舞台。
![]()
CPU短缺加剧,涨价周期来临。25年10月,据外媒TrendForce报道,英特尔公司正计划对其第13代Raptor Lake和第14代Raptor Lake Refresh处理器进行价格调整,涨幅最高可达10%。26年1月,据外媒Wccftech报道,AMD和英特尔今年各自的服务器CPU库存均已售罄,大部分需求来自超大规模企业,他们希望将最新的服务器CPU集成到现有机架架构中,这也是过去几个季度需求显著增长的原因,因此,据称AMD和英特尔都计划将服务器CPU价格提高多达15%,以确保供应保持稳定。据日经亚洲26年3月25日报道,英特尔与AMD已各自通知客户,将分别于3月和4月起上调全系列CPU价格,平均涨幅达10-15%,部分产品涨幅更高;同时,交货周期将从之前的1-2周大幅延长至8-12周,个别情况下甚至将长达6个月。AI算力需求爆炸式增长,AI芯片巨头占用大量原材料与产能,英特尔与AMD面临产能扩张瓶颈,叠加原材料价格上涨,CPU供给端持续承压,供需错配加剧,CPU价格进入上行通道。
02 CPU TAM扩容,CPU/GPU部署比例抬升
2.1 CPU TAM翻倍上修,预计到2030年TAM超1000亿美元
CPU TAM有望翻倍提升:AMD/ARM指引2030年CPU TAM超1000亿美元。1)在AMD FY26Q1业绩会上,AMD CEO表示,受智能体AI需求拉动,预计服务器CPU的总潜在市场(TAM)将以每年超过35%的速度增长,并将2030年服务器CPU TAM翻倍上调至1200亿美元,因需要大量CPU用于任务编排、数据移动和并行执行。2)根据ARM FY26Q4业绩会,公司首款AGI CPU发布仅六周,客户需求就从10亿美元激增翻番至20亿美元;随着AI Agent的扩展,数据中心将需要超过目前4倍的CPU容量,到2030年将创造一个超过1000亿美元的数据中心CPU市场机会;且芯片ASP会随核心数的增加显著提升。据Futurum预测,CPU收入增长率将在2028年前超过GPU和XPU的增长,CPU市场的潜在规模与增速巨大。
![]()
2.2 CPU与GPU配比有望提升至1:1甚至更多
Agentic时代CPU的部署比例向1:2/1:1甚至更高演进。Intel、ADM、ARM等头部CPU厂商均对CPU的搭载配比进行乐观展望:1)FY26Q1财报业绩会上,ADM CEO表示过去以主机节点模式为主,CPU与GPU配比约为1:4或1:8,现在正在向接近1:1的方向转变,如果智能体数量大量增加,甚至可以想象CPU数量超过GPU的场景;2)FY26Q1财报业绩会上,Intel CEO表示数据中心CPU核心数量正在大幅增加,目前CPU与GPU的配比是1:4,未来将达到1:1均衡,甚至发生逆转。AI推理任务中对CPU编排、调度、内存管理等工作的需求显著加大,CPU与GPU配比的重构将直接拉高数据中心对CPU的需求规模。3)ARM在FY26Q4业绩会上表示,从芯片颗数来看,CPU数量超过GPU未必会发生,但从核心数来看,则很可能实现;传统数据中心每吉瓦仅需3000万颗CPU核心,Agentic AI时代CPU的需求将激增至1.2亿颗,增幅达4倍。4)同时,数据中心的对CPU的电力分配也将随之提升,Futurum基于ARM预测数据中心每吉瓦CPU核心数的4倍增幅,并结合ARM AGI CPU服务器约36 kW的功耗估算,CPU与GPU服务器的比例将接近7:1,数据中心的电力分配发生反转,大部分电力将重新分配至CPU。
![]()
![]()
根据AMD,CPU需求可以分为三类:1)通用计算CPU TAM,增速相对较低,约为低两位数;2)与加速器连接的AI头节点CPU,增速也在增长但规模较小。头节点中CPU的作用是管理连接的GPU,并持续为其提供数据。为了尽可能降低尾部延迟,需要具备大容量缓存、高带宽内存和IO的高性能单核。NVIDIA Grace的设计便旨在实现GPU的一致性内存访问,以便将CPU内存用作模型上下文键值缓存(KV Cache)的扩展,这需要极高的CPU到GPU带宽。对于头节点,每个计算节点中通常由1颗CPU搭配2或4颗GPU,如NV Vera Rubin每个超级芯片包含1颗Vera CPU和2颗Rubin GPU。3)智能体AI的CPU需求,是增量最大的部分,如NVIDIA引入的Vera CPU专用机柜架构。
我们以NV机柜CPU:GPU配比的演进为例:1)HGX时代:标配多为单路/双路CPU带8卡(配比1:8或1:4)。2)GB300 NVL72集成72颗NVIDIA Blackwell Ultra GPU和36颗基于ARM架构的NVIDIA Grace CPU,配比为1:2。3)Vera Rubin NVL72集成72颗Rubin GPU和36颗Vera CPU,配比维持1:2,并通过在集群中外挂纯Vera CPU算力柜作为专属的Agent并发调度节点,整体计算集群的CPU:GPU配比向更高比例演进。
DGX H100/H200架构:在DGX H100/H200这一代架构中,CPU与GPU之间仍主要基于PCIe构建异构计算架构。1)系统逻辑拓扑:系统采用双路x86 CPU架构,配置2颗Intel Xeon Platinum 8480C CPU(总核心数56/总线程数112),并连接8颗NVIDIA H100/H200 GPU,CPU与GPU数量配比约为1:4。2)连接中枢(PCIe Switches):根据NVIDIA DGX H100官方架构图,系统采用PCIe Gen5 Switch构建CPU与GPU间的PCIe拓扑连接,多个GPU通过PCIe Switch接入双路CPU平台,CPU与GPU之间的数据交换主要依赖PCIe Gen5 x16互联。3)互联带宽:PCIe Gen5 x16的理论双向汇总带宽约为128GB/s,而GPU之间通过NVLink可实现最高900GB/s GPU-to-GPU带宽,GPU内部与GPU间的数据吞吐能力已显著高于传统CPU-GPU PCIe互联带宽。4)存储层次:系统配置2TB DDR5系统内存;GPU侧方面,H100配置80GB HBM3显存,H200进一步升级至141GB HBM3e显存,并将显存带宽提升至4.8TB/s。
![]()
![]()
GB200/300 NVL72:NVLink-C2C推动CPU-GPU从PCIe异构互联向cache-coherent紧耦合架构演进,机柜级CPU/GPU配比提升至1:2。在传统HGX架构下,CPU与GPU之间主要通过PCIe Gen5进行互联,其带宽显著低于GPU内部及GPU之间的数据吞吐能力,因此CPU更多承担主机处理器、系统调度、IO管理及运行时调度等职责,GPU则负责主要AI计算任务。进入Blackwell时代后,NVIDIA在GB300 NVL72中进一步引入NVLink-C2C一致性互联架构,并在机柜级构建CPU-GPU紧耦合异构计算系统。1)系统架构:根据NVIDIA官方架构,GB300 NVL72采用全液冷整机柜设计,集成36颗基于ARM架构的Grace CPU(72核,基于Arm Neoverse V2架构)与72颗Blackwell Ultra GPU,实现机柜级1:2的CPU/GPU物理配比。2)在互联架构方面,CPU与GPU之间通过NVLink-C2C实现最高900GB/s的一致性互联带宽,比PCIe Gen5 x16通道高出7倍。3)存储层次:以GB200为例,GPU侧配置总计372GB HBM3e显存,CPU侧配置480GB LPDDR5X内存,得益于一致性内存架构,GPU能够以NVLink-C2C高效访问Grace CPU侧LPDDR5X内存,从而显著扩展统一内存容量,为长上下文、Agentic AI及测试时扩展(Test-Time Scaling)等大内存场景提供支持。
![]()
![]()
Vera Rubin:进一步推进数据中心架构向rack-scale AI factory演进,通过GPU计算机柜与CPU扩展机柜的分层设计,强化面向Agentic AI与测试时计的系统吞吐能力。1)系统架构:在核心计算单元上,Vera Rubin NVL72机柜延续Blackwell时代的机柜级超级计算架构,由72颗Rubin GPU与36颗Vera CPU(88核/176线程,基于定制的、兼容ARM的NVIDIA Olympus架构)构成标准配置,维持CPU:GPU=1:2的物理配比,其中GPU承担大规模矩阵计算与模型推理任务,而CPU则从传统主机管理角色进一步扩展至更高频的调度、数据预处理与Agent执行任务,从而提升系统整体并行效率;在系统扩展层面,NVIDIA引入Vera CPU专用机柜(Vera CPU Rack),单机柜可集成多达256颗Vera CPU,用于执行强化学习环境运行、Agent rollout、推理验证与非矩阵类计算任务,该设计使CPU资源从GPU计算柜中解耦出来,形成独立的CPU算力池,从而实现更灵活的工作负载分配与系统级扩展能力。2)在互联架构方面,NVLink-C2C带宽进一步提高至1.8 TB/s。3)存储层次:以Vera Rubin超级芯片为例,GPU显存配置为576 GB HBM4,CPU内存配置为1.5 TB LPDDR5X。
![]()
![]()
03 所有CPU架构均受益,ARM中期变化更显著
3.1 ARM架构低功耗、高核心密度的特性更契合Agent工作负载
对比x86及ARM架构特性,x86架构拥有极高的单线程性能,计算性能强,更擅长处理大规模复杂数据,但功耗偏高;ARM架构的核心优势在于极致的能耗比与高核心密度。Agent时代的工作负载(如海量API调用、Python脚本解释、KV Cache调度)一般表现为轻计算、高并发。ARM架构能在极低的功耗下堆叠出海量的物理核心,非常适合高并发、低功耗场景。例如NVIDIA的Vera处理器,在极低功耗下实现了88核/176线程,这种特性使其在处理高并发场景时不仅吞吐量惊人,还能大幅降低服务器节点的散热压力与能耗。
![]()
![]()
ARM份额指引乐观。据ARM FY26Q4业绩会表述,Trainium、TPU、英伟达加速器中绝大部分市场份额将是Arm,到2030年按CPU类型划分的最大市场份额将属于Arm。Counterpoint预测,2029年基于ARM架构的CPU有望占据定制AI ASIC服务器主机CPU市场90%的份额,而x86和RISC-V架构合计仅占约10%。
![]()
Agent呈现能源密集型特征,CPU能效比成为关键。1)数据中心用电需求翻倍:据IEA,2025年全球数据中心电力需求增长17%,其中AI驱动的数据中心电力消耗增长高达50%,2030年全球数据中心用电量预计将从2025年的485TWh近乎翻倍至950TWh。2)多步骤执行、工具交互等推理过程对功耗密度的需求大幅增加:传统数据中心主要服务于企业IT、互联网服务、数据存储等基础业务,单机架功率密度仅为5-15kW;AI数据中心聚焦模型训练、深度学习推理、智能计算等任务,对功率密度的要求显著提升,据AFCOM,2025年数据中心平均机架功率密度达到27kW,同比大增69%,高并发、长序列处理场景不断增加,未来或迎来百瓦、千瓦级的需求,并对电网、UPS、液冷系统等带来挑战。3)电力供应的增长速度低于算力需求的膨胀,功耗低的服务器占优:Agentic AI部署的Token消耗量是标准生成式AI的20-30倍,受限于因电网容量与成本等刚性因素,传统堆卡模式难以为继,CPU的能效比变得至关重要。
![]()
3.2 ARM开放生态更契合大厂需求,NV Grace率先跑通
除了物理性能的契合,ARM架构份额提升的另一大核心驱动力在于其商业授权模式。传统x86生态处于授权封闭状态,客户高度依赖Intel/AMD少数巨头,不仅面临高昂的采购溢价,且定制化差,客户自主权小。而在当前的算力军备竞赛中,各大头部云厂商(CSP)为了实现底层算力解绑并追求极致的TCO(总拥有成本),亟需打造差异化的算力底座。ARM的开放IP授权模式完美迎合了这一战略诉求。通过获取ARM授权,亚马逊、谷歌、微软等CSP能够根据自身云原生需求自主定制专属CPU,降低TCO。
Grace CPU能效倍升,利于高密度部署。1)能效优势显著:据NVIDIA官网,Grace CPU可将数据中心的输出能力提高一倍、能耗降低一半,与x86 CPU相比,图形分析中服务器性能提升2.4倍、能效提高3倍,数据分析中能效提高2.1倍,天气模拟场景在相同功耗下可完成约2倍工作量,极大提高数据中心吞吐量。2)低功耗限制下仍保持高性能:Grace CPU在200W功耗限制下可保持超过90%性能,150W下仍可保持80%性能,进而在功率受限的环境中,保证不牺牲计算性能的同时,实现机架密度最大化。
![]()
AWS Graviton5:AWS是首家成功为云端开发并部署自研CPU的超大规模云服务商,Graviton5自2025年12月开始预览,拥有192个NeoverseV3核心,并在台积电3nm工艺上集成了1720亿个晶体管。在CPU使用方面,AWS已在内部CI/CD设计集成流程中使用了数千颗Graviton CPU,其Trainium3加速器现在将使用Graviton CPU作为头节点,配比为1颗CPU对应4颗XPU,初始版本运行在Graviton4上,未来的Trainium3集群将由Graviton5提供动力。
![]()
微软Cobalt 200:Cobalt200于2025年底发布,核心数量从128个增加到132个,采用NeoverseV3设计,每个核心的性能都大幅提升。每个核心拥有极大的3MBL2缓存,并通过标准的ARM Neoverse CMNS3片上网络连接,跨越两个台积电3nm计算芯片(compute dies),芯片间采用定制的高带宽互连。Cobalt200将仅用于Azure的通用CPU计算服务,而不会被用作AI头节点,微软的Maia200机架级系统转而采用了英特尔的Granite Rapids CPU。
![]()
04 Agentic AI驱动CPU重构,全球厂商开启新一轮架构升级
4.1 海外:x86与ARM路线竞逐,性能、能效与异构协同全面升级
Intel:x86架构传统龙头乘势再起,Xeon6+性能、能效、集成度、跨越式提升。Xeon 6+采用Chiplets设计,封装中集成了12个Intel 18A工艺的计算模块、3个Intel 3工艺的有源基础模块、2个Intel 7工艺的I/O模块、12个EMIB 2.5D连接封装模块;计算模块内部分为6个模组,每个都包含4个Darkmont架构的E核,总计288个核心。英特尔技术专家指出,在整体负载占比不同的情况下,至强6+处理器较上一代Sierra Forest可以带来1.9倍以上的性能提升,同时在整体负载范围之内带来高达23%的能效提升,达到8:1服务器整合的效果。
![]()
Xeon6+量产在即,Intel 18A工艺重构能效表现。Xeon6+ E能效核(Clearwater Forest)预计于2026H1量产发布,Xeon6+ P性能核(Diamond Rapids)有望于2027年量产,二者均基于Intel 18A最先进制程,工艺的良率已达大规模量产标准,且仍在持续优化,目前已向首批客户交付量产晶圆。Intel 18A通过多方面的技术提升显著弥补x86架构CPU的能耗短板、并强化x86的单线程性能优势,相同频率下,较Intel 3功耗降低36%-38%,等效功率性能提升15%。1)采用RibbonFET全环绕栅极晶体管架构,晶体管漏电率降低50%,同功耗下开关频率提升15%;2)通过PowerVia背面供电技术,实现供电与信号线路的物理分离,将芯片电阻压降减少40%、互连线性能提升30%、同性能下功耗降低15%,同时为正面晶体管布局释放了超20%的空间。
![]()
AMD:EPYC 9005性能领先,Agentic AI全栈优化。AMD服务器CPU系列产品已迭代至第五代(EPYC 9005),Zen 5架构相比上一代Zen 4实现16%的IPC提升。EPYC 9965作为第五代系列中的高性能旗舰产品,采用Zen 5c核心,相比Zen 5核心物理布局更紧凑、每瓦性能更高,单颗集成192核384线程,支持12通道DDR5-6400内存与128条PCIe 5.0通道。EPYC 9965在主机CPU与CPU侧推理两类核心场景中具备全栈优势,据AMD官网,EPYC 9965性能提升29%、能效提升66%、端到端AI性能提升70%、机器学习性能提升高达93%;在LLM推理场景中表现卓越,相较Intel Xeon 6980P,EPYC 9965在Llama 3.1 88模型中处理性能领先33%、GPT-J 6B中汇总场景的吞吐量性能提升28%、Llama 3.2 1B 中应用场景转换性能提升36%。
![]()
第六代EPYC Venice综合性能再进阶,或成为驱动公司达成50%+CPU市占的王牌。AMD计划于2026H2发布第六代服务器CPU(EPYC Venice),首次采用台积电2nm工艺及Zen 6/Zen 6c核心架构,集成256个核心和512个线程,相较第五代产品核心数增加33%,线程密度提升30%,整体性能与能效提升70%。Venice在吞吐量、功耗、成本和AI基础设施等方面进行全方位优化,以极致产品力巩固服务器CPU领域领导地位,AMD CEO于26Q1财报会上表示,相较市场上其他x86产品,Venice每插槽及每瓦性能大幅提升;相较市场领先的Arm产品,Venice每插槽吞吐量提升逾2倍;客户对于Venice需求强劲,处于验证和爬坡平台阶段的客户数量超过了以往任何一代EPYC,对实现超过50%的市场份额目标充满信心。
![]()
Arm:AGI CPU面向Agentic AI,专为高密度机架部署设计。Arm AGI CPU单颗芯片最多集成136个Neoverse V3内核,每个内核可获得6 GB/s内存带宽,并支持DDR5-8800规格与低于100ns的访问延迟。参考服务器配置采用1OU双节点设计,每块刀片板集成两颗芯片,并配备独立的内存与I/O,单刀片合计提供272个计算核心,这些刀片可完整填充标准风冷36kW机架,共30片刀片、总计8,160个核心,支撑高密度、低延迟的下一代AI计算系统;此外,Arm还与Supermicro联合推出液冷200kW机架方案,可容纳336颗Arm AGI CPU,总核心数超过45,000个。
![]()
Arm AGI CPU的核心密度优势实质为结构性TCO优势。Arm AGI CPU在300W TDP下提供136个核心,每瓦约提供0.45个核心,相比之下AMD 500W的192核EPYC每瓦约为0.38个核心,英特尔500W的144核Xeon每瓦约为0.29个核心,在电力和冷却占总运营成本30–40%的数据中心中,高核心数密度可转化为更高的工作负载密度、更充分的加速器利用率,以及在既有功耗预算内更有效的计算能力释放,进而带来成本的极大节约;据Arm官网,Arm AGI CPU方案在单机架性能上可达到传统x86平台的两倍以上水平,每GW数据中心容量可节省100亿美元的资本支出。
![]()
4.2 国内:自主架构加速突破,国产CPU迈向规模化替代
华为海思:鲲鹏920是目前业界领先的ARM-based处理器。该处理器采用7nm制造工艺,基于ARM架构授权,由华为公司自主设计完成。通过优化分支预测算法、提升运算单元数量、改进内存子系统架构等一系列微架构设计,大幅提高处理器性能。典型主频下, SPECint Benchmark评分超过930,超出业界标杆25%。同时,能效比优于业界标杆30%。鲲鹏920以更低功耗为数据中心提供更强性能。
![]()
海光信息:国产x86服务器CPU领军者,系统架构、可靠性、安全性优异。海光信息为国内少数实现成熟商用的x86通用处理器的公司,面向数据中心、行业客户、高性价比场景的实际需求,细分为海光7000系列产品、海光5000系列产品、海光3000系列产品,产品矩阵覆盖全面,具备高计算和扩展能力;依托先进的SoC架构和片上网络,集成更多处理器核心,性能优势显著,已广泛应用于电信、金融、互联网、教育、交通等重要行业或领域。其中,面向数据中心的旗舰级高性能处理器700系列,集成16-32核心,支持128路PCle通道,8个DDR4内存通道,并针对数据中心云计算中心等进行了功耗优化。2016年公司基于AMD授权技术启动x86架构海光C86-1G CPU产品设计,目前海光C86-4G CPU已实现商业化应用,公司于2025年5月发布C86-5G技术路线图,最高128核、512线程,与前代相比核心数量增加1倍,线程数量增加4倍,每周期指令数(IPC)提升超过17%,代际迭代升级显著。
![]()
禾盛新材:战略入股熠知电子押注国产ARM CPU先机,TF9000性能全面提升。2025年8月禾盛新材以自有资金或自筹资金2.5亿元向向熠知电子投资,2026年4月公司再次以自有资金或自筹资金2.33亿元增资熠知电子,持有熠知电子17.05%股权。熠知电子已完成三代ARM处理器芯片迭代升级,原有产品线包括一代TF16000系列、二代TF7000系列融合处理器及相应板卡。公司于2026年1月发布第三代TF9000系列融合处理器及板卡,采用Armv9架构,对标英伟达Grace系列CPU,相较第二代产品TF7000系列实现了核心性能30%的提升、成本降低30%,以及内存带宽、PCIe 5.0带宽和内存总容量分别提升了200%、100%和300%,主力面向通用云计算、大模型一体化等AI智算领域,兼具高性能与高性价比。熠知电子商业与生态双重验证充分,TF7000系列、TF9000系列处理器及相关服务器产品,已成功支持国内互联网大厂、运营商、制造业、金融机构、政府、公安等核心客户,进入规模化商用阶段。在生态协同方面,熠知电子已与国内多家主流GPU厂商完成产品深度适配,广泛落地算力服务器、大模型一体机等多元场景。
![]()
![]()
中国长城:飞腾信息第一大股东,腾云S5000C-E产品力升级。截至2025年12月,中国长城持有国产ARM服务器CPU龙头飞腾信息28.04%股权,为其第一大股东。飞腾信息面向高性能服务器领域打造飞腾腾云S系列服务器CPU,已包括S2500、S5000C、S5000C-E系列产品,提供强算力、高并发的计算能力。飞腾腾云S5000C-E为最新服务器CPU旗舰产品,集成80个飞腾自研高性能处理器内核,计算性能相比S5000C-64提升50%以上,可轻松应对金融交易、风控建模等复杂计算场景。2025年,公司基于腾云S5000C-E(80核)研制新一代服务器,性能实测比肩业内高端产品,实现DeepSeek大模型与国产算力深度耦合,成功交付多款AI训推一体机。
信创领域优势显著,连续斩获多个核心大单。飞腾服务器CPU产品基于ARMv8架构,深度适配麒麟、统信等主流信创操作系统,具备自主可控、高性能、高安全、生态兼容等优势。受益于国产化替代政策深化落地,飞腾信息近期连续中标金融、电信、政务等核心行业大规模集采订单,2025年11月,飞腾腾云双路服务器中标安平行业某省级客户项目,中标数量超百台;2025年12月,飞腾腾云S5000C-M CPU独家中标中国移动2025-2026年5G扩展型皮基站集采8000片,为国产CPU在5G基站核心计算单元的首次规模化商用;2026年4月基于飞腾腾云S5000C、S5000C-E的双路高性能服务器中标政策性银行数百台采购项目,订单放量势头保持强劲。
![]()
龙芯中科:3C6000对标市场主流,强势开拓智算市场。面向服务器市场,公司已有龙芯3C5000、龙芯3D5000、龙芯3C6000等系列产品,龙芯3C6000基于公司自研指令集系统LoongArch,最高支持128核256线程,性能相比上代3C5000系列成倍提升,对标英特尔第三代至强可扩展处理器,产品代差缩小至两代;对标NVLink通过龙链技术实现片间互连,大幅降低延迟,提高带宽效率。目前,龙芯服务器CPU已实现多个智算场景应用案例,如郑州港区新建的自主智算中心已有超过500台服务器全部采用龙芯3C6000/D服务器芯片。据龙芯中科董事长胡伟武在25&26Q1业绩会上表示,随着服务器CPU的推出,公司与抖音、阿里、腾讯等互联网大厂的适配合作更加紧密,每个万卡集群项目可采用2000-3000片32核龙芯3C6000/D CPU,3C6000在2025年实现千片量级销售,2026年应有数量级的提高。
全栈自主可控,LoongArch生态持续开放扩圈。公司自研LoongArch指令集架构,为国内唯一独立于X86与ARM体系、构建完整自主指令系的CPU企业,该架构具备较好的自主性、先进性与兼容性,2020年起公司新研CPU产品均支持LoongArch,实现了从底层指令到硬件设计的全栈自主可控。为扩大龙架构生态覆盖,公司已于2023年11月将龙芯CPU核心IP开放授权给部分合作伙伴,支持其研制基于龙架构指令系统及龙芯CPU核心IP的芯片产品。2026年4月,龙芯中科与海量数据联合调试再创佳绩,基于龙芯3C6000/D双路服务器(64核/512GB)与海量数据库的全国产化方案性能较常规方案提升30%,在TPC-C标准测试下每分钟新订单事务处理量突破100万,刷新自主指令集架构芯片与国产数据库协同优化记录,标志着LoongArch与国产数据库的融合能力迈入实用化新阶段。
![]()
全球服务器CPU正处于新一轮升级周期,海外巨头领衔多核高密度与异构迭代,国内厂商性能代差加速收窄。1)海外厂商方面,Intel Xeon7 Diamond Rapids最高512核心、AMD EPYC Venice迈入2nm节点、NVIDIA Vera CPU性能翻倍功耗减半、Arm AGI CPU多核支撑高密度机架部署,均展现极致的性能与能效,CPU与其他计算单元深度耦合,算力调度由分离转向融合,极大释放Agentic AI场景的系统级算效。2)国内厂商方面,海光C86-5G核心数与线程数倍增、飞腾腾云S5000C-E计算性能较前代提升50%以上、龙芯3C6000对标海外主流产品性能倍升,国产服务器CPU技术水平正快速成长,加速追赶海外顶尖产品标准,AI算力高需求高景气叠加自主可控政策催化,国产CPU迎来规模化放量窗口期。
![]()
05 相关标的
CPU:Intel、海光信息、禾盛新材、高通、AMD、澜起科技、中科曙光、中国长城、龙芯中科、广合科技、兴森科技、深南电路、宏和科技等。
海外算力:中际旭创、东山精密、胜宏科技、欧科亿、天孚通信、天岳先进、新易盛、工业富联、兆易创新、大普微、源杰科技、景旺电子、英维克、唯科科技、领益智造等;Lumentum、闪迪、铠侠、美光、SK海力士、中微公司、北方华创、拓荆科技、长川科技。
06 风险提示
行业竞争加剧的风险:
在信创等政策持续加码支持计算机行业发展的背景下,众多新兴玩家参与到市场竞争之中,若市场竞争进一步加剧,竞争优势偏弱的企业或面临出清,某些中低端品类的毛利率或受到一定程度影响。
技术研发进度不及预期的风险:
计算机行业技术开发需投入大量资源,如果相关厂商新品研发进程不及预期,表观层面将呈现出投入产出在较长时期的滞后特征。
特定行业下游资本开支周期性波动的风险:
部分计算机公司系顺周期行业,下游资本开支波动与行业周期性相关性较强,或在个别年份对于上游软件厂商的营收表现产生扰动。
报告信息
证券研究报告:《计算机行业研究报告:CPU:AI需求大起点》
对外发布时间:2026年5月16日
报告发布机构:国金证券股份有限公司
证券分析师:
刘高畅:SAC执业编号:S1130525120005
邮箱:liugaochang@gjzq.com.cn
陈芷婧:SAC执业编号:S1130525120008
邮箱:chenzhijing@gjzq.com.cn
鲍淑娴:SAC执业编号:S1130526020002
邮箱:baoshuxian@gjzq.com.cn
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.