在过去三十年的 PC 演进史上,性能的提升往往遵循着一种近乎肌肉记忆的“加法逻辑”:处理器不够快就提升主频,主频加不上去就增加核心,多核还不够用就增加有更多功能的核心,像AMD收购ATI之后推出融合CPU和GPU核心的APU,现在已成业界标配。而近年来的 AI 浪潮,则又进一步催生了植入 NPU 模块的AIPC处理器。
NPU(神经处理单元)作为专门为人工智能和机器学习场景而设计的加速器,在硬件结构上进行了针对性的优化,可以高效、低功耗地执行神经网络推理等AI相关的计算任务,实现了更高的能效比,分担了CPU和GPU不擅长的负载,提升了处理器整体的能效和运算效率。
但这种基于分离器件的堆叠模式虽然维持了生态的惯性,却在端侧大模型(LLM)爆发的元年,撞上了物理效率与空间限制的冰墙。首先是传输的瓶颈,当数据在 CPU、GPU、NPU与内存之间频繁迁移所产生的功耗与延迟,成为限制 AI 智能体(Agent)进化的头号杀手时,行业亟需一种全新的路径探索。其次是显存墙,显存容量成为制约传统消费级产品运行大模型的物理极限,也亟待来自端侧AI的创新破局。
![]()
在CES 2026上,我们在与 AMD 公司副总裁兼客户 OEM 总经理 Jason Banta 的深入交流中,看到了“超级 SoC”的破局路径——锐龙AI Max+系列处理器。这颗芯片采用“CPU+iGPU+NPU”的异构架构,集成 16 核 Zen 5 CPU、RDNA 3.5 图形单元及高达 50 TOPS 算力的 NPU,最高支持 128GB 内存,通过 UMA 可变显存可将其中的 96GB 用于显存,解决了本地大模型运行中的“显存焦虑”。其最大的亮点,更是集成了 256-bit 内存带宽,极大的提升了数据共享的效率,本质上是在尝试打破 x86 阵营长期存在的组件壁垒,将 PC 从“组装机”逻辑推向“算力终端”逻辑。
效率的终点是整合
长期以来,x86 阵营在移动端的表现一直受到“内存墙”的制约。传统的双通道内存架构虽然能满足办公与轻度娱乐,但在面对动辄数十亿参数的本地大模型时,带宽的贫血和有限的内存容量会导致推理响应出现明显的滞后,如若是遇上更大的成百上千亿参数规模,更是连完整加载都成了问题。AMD 去年就早早推出的 锐龙AI Max 系列,今年又增加了新的型号,其核心设计逻辑并非简单的参数竞赛,而是对端侧 AI 运行效率的根本性重构。
![]()
Jason Banta 在对话中坦言,锐龙AI Max 系列的诞生很大程度上源于社区和端侧开发者的真实反馈:他们需要一种能够在一个紧凑的形态内,提供处理大规模语言模型能力的硬件。这意味着,不计成本而做的“内置显卡增强”,是为了实现极致效率的必然选择。当 CPU、GPU 与 NPU在同一片硅片上通过 256-bit 的“高速公路”实现数据共享时,曾经在总线上损耗的能量被转化为瞬时的智能响应。这种高度集成的思路,让 14 英寸甚至更小的轻薄设备,拥有了以往只有厚重移动工作站才具备的生产力潜力。
对位 Apple 与 NVIDIA 的双重博弈
在高度集成的路径上,Apple Silicon 曾凭借统一内存架构(UMA)确立了功耗比的领先优势,让 x86 阵营在轻薄性能本领域一度陷入防御姿态。AMD 在 锐龙AI Max+ 系列上引入 256-bit 位宽,实际上是在 x86 的开放土壤上,复刻甚至超越了 Apple 级的带宽红利。但这并非单纯的模仿,AMD 的野心在于利用这种带宽优势,直接蚕食由 NVIDIA 长期垄断的专业级市场,像DGX Spark,面对锐龙AI Max+ 就难言优势。
![]()
对于传统笔记本设计而言,取消独立显卡及其配套的显存颗粒,不仅意味着主板面积的精简,更意味着散热压力和布线复杂度呈指数级下降。当一颗 SoC 能够提供足以匹敌中高端独立显卡的图形算力与 AI 推理速度时,PC 厂商获得了前所未有的工业设计自由度。Jason 提到的“超越传统形态”,其深层含义便是利用单芯片的爆发力,让 PC 彻底摆脱“性能必臃肿”的形态桎梏,这不仅是对 Intel 传统移动架构的降维打击,更是对 NVIDIA 独立显卡的一次正面爆破。
从“卖硬件”到“定义软件栈”
如果说 256-bit 位宽和大显存是硬件层面的“硬解”,那么软件生态的重塑则是 AMD 试图掌握标准话语权的“软攻”。Jason Banta 给出了一个令人意外的定性:“我们也是一家软件公司”。
![]()
这一转变的具象化体现是 ROCm 7 软件栈新版本的发布。AMD 正在尝试通过 ROCm 7 打通从掌机、轻薄本、台式机到数据中心的统一开发平台。这种“全栈一致性”对于开发者而言极具诱惑力:ROCm 7 通过支持锐龙AI Max+甚至刚刚在CES上发布的锐龙AI 400系列移动处理器,在笔记本上开发的 AI 模型,可以无缝迁移到高性能桌面端甚至云端运行。同时,这种软硬无缝衔接也体现在视觉技术上。全新的 FSR Redstone技术不再仅仅是传统的数学缩放,而是演变为一种完全基于机器学习(ML)的画质重构。它利用了 SoC 内部强大的 AI 算力来提升游戏帧率与画面精细度,这种从底层算法到硬件架构的深度对齐,标志着 AMD 正在构建一套属于自己的“新三角(CPU+GPU+NPU)”游戏规则。
开放生态下的“AI 普惠化”
相比 Apple 极致封闭的垂直整合与NVIDIA的完全闭环,AMD 的策略中保留了 x86 阵营宝贵的资产:开放与灵活性,这是一个具有分水岭意义的决策。
在过去,顶级的 AI 算力往往被部署在专业的工作站或昂贵的服务器中。通过将具备强大 NPU 与高带宽大显存能力的处理器引入消费级 PC 市场,AMD 实际上是在推动“AI 算力的普惠化”。这意味着无论是科研人员、学生还是极客玩家,都能获得端侧智能体的处理能力。当 AI 算力成为一种标准的“基础硬件”而非“奢侈品”时,谁能提供更灵活的部署方式,谁就能赢得开发者的优先权。
此外,在竞争白热化的手持设备领域,AMD 的态度也极具洞察力。面对竞争对手的进入,Jason 强调的不是主频的高低,而是与微软在 Windows 底层、固件以及 UI 层面的深度优化协作。这种对“体验闭环”的重视,使得锐龙 Z1/Z2 系列不仅是硬件的成功,更是 x86 架构在移动感知领域长期积淀的爆发。
总结:告别组件堆砌,拥抱终端感知
回顾这次与 Jason Banta 的交流,他对锐龙AI Max+系列处理器的解读折射出 PC 行业一个不可逆转的趋势:PC 的核心价值正在从“组件的集合”转向“智能的交付”。
当单芯片的集成度足以吞噬分立硬件的性能优势,当 256-bit 带宽和96GB显存成为端侧大模型的入场券,PC 的算力中心已经从分散的主板各个角落,收缩到了那颗拥有数百亿晶体管的超级 SoC 之中。AMD 正在尝试用这种高度整合的方式,在保持 x86 开放基因的同时,实现极致的性能和效率。
![]()
如果这一路线得到市场的广泛验证,那么未来的 PC 将不再是不同厂商零部件的生硬拼凑。它将成为一个整体感极强、具备深度感知能力的端侧算力中心。这场从架构底座发起的革命,终将让 AI PC真正迈向那个由智能体驱动的未来。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.