作者:毛烁
在摩尔定律放缓、AI模型规模持续膨胀的双重挤压下,嵌入式边缘计算(Embedded Edge Computing)正经历深层次的范式重构。
过去几年,行业的核心命题,是如何将云端训练好的视觉模型通过量化、剪枝等方式压缩到功耗、体积和散热预算都极为严苛的边缘设备中,使其能够稳定运行。但随着AI应用复杂度不断提升,边缘侧承担的任务边界也在持续抬高。
事实上,越来越多的系统开始在受限计算环境中同时完成感知、控制与推理三类任务,并尽量减少对云端的依赖。就比如,医疗终端逐步承担起影像分析、辅助诊断与临床推理,工业自动化系统则追求更少的边缘节点和更快的本地决策速度。
随着这些应用不断落地,边缘处理器所面临的性能、能效与系统协同要求也被整体推高。也正是为了满足这些需求,今天,AMD宣布扩展其AMD锐龙(Ryzen™)AI 嵌入式 P100系列处理器产品组合(以下简称 P100系列)。与此前发布的采用相同紧凑型球栅阵列(BGA)封装的P100系列处理器相比,新款处理器可提供最高2倍的CPU核心数量、最高8倍的图形处理单元(GPU)算力,且系统级每秒万亿次运算(TOPS)性能预计提升36%。
![]()
从应用定位来看,此次扩展意味着P100系列的产品定位正在发生转移。此前4-6 核版本的 P100系列偏向沉浸式体验与显示导向场景,而全新的P100系列则面向工业自动化、Physical AI、医疗与科学计算、Pro AV/Broadcast,以及测试与测量等更复杂的边缘系统。
某种程度上,这也反映出边缘计算架构的演进方向——边缘节点开始向更完善的本地计算平台靠拢。
01 告别“烟囱式”的硬件架构
在深入探讨该系列SoC的具体性能之前,有必要先理解嵌入式场景下正在发生的系统形态变化。只有把这一层背景看清楚,才更容易理解为什么AMD需要在P100系列产品线上补齐这一性能区间。
事实上,AMD在新一轮边缘智能产品升级方向中体现出几个非常有代表性的关键词——“Consolidated systems, fewer edge nodes”“AI-driven decisions without cloud reliance”。意思是,系统整合、减少边缘节点,以及在不依赖云端的情况下实现AI驱动决策。
这些关键词的背后,其实反映的是工业系统架构正在发生的转变。
![]()
过去很长一段时间里,工业场景下的边缘计算平台普遍采用“堆叠式”的系统结构:IPC负责逻辑控制,GPU承担图形或视觉任务,外接AI加速器负责推理,同时再连接各种传感器、采集卡和控制模块。多个设备拼接在一起,共同完成一套产线或设备的计算任务。
但随着节点数量不断增加,数据在不同设备之间来回搬运的次数也随之增加,系统时延、功耗、体积以及维护复杂度都会明显上升。
这是典型的“烟囱式”架构。
而随着AI开始进入边缘场景的核心链路,这种“烟囱式”架构的局限性也逐渐显现出来。在一个场景中,高速产线、机器人控制、低时延人机界面、机器视觉检测,以及边缘AI推理,往往需要在同一时间运行。而一旦这些任务分散在多个计算节点之间,跨设备的数据传输就会直接侵蚀系统的实时性。
换句话说,当系统开始同时承担“感知—决策—控制”这一完整闭环时,分散式的计算架构本身就成为了瓶颈。
与此同时,负载本身也在发生变化。
其实,早期的边缘AI主要依赖CNN架构完成目标检测和分类,而现在的系统任务已经扩展到“vision to control & reasoning”(从视觉到控制与推理),AI开始从视觉感知延伸到控制与推理环节。
放在工业场景中,典型工作负载包括检测与缺陷识别、机器人对齐与料箱抓取(bin picking),以及生产过程优化;在Physical AI领域,则进一步延伸到目标检测、空间感知、运动控制、平衡控制、抓取操作、任务规划以及人机交互;医疗场景中,还包括组织分类、肿瘤检测、医学影像与临床报告的关联分析,以及基于大语言模型的报告生成和患者问答。
这些应用有一个共同特点:AI不再仅仅负责“识别”,而是进入了决策链路。
这意味着,边缘AI芯片不能再仅仅负责“看见”,还需要能够理解、推理、做出决策,并将推理结果回写到控制系统中。
也正是在这样的背景下,计算平台开始从“多节点拼接”走向“单平台整合”。
所以,AMD此次对P100系列的扩容,回应的正是这种变化。其要解决的是在一个可以长期部署的嵌入式平台上,同时整合视觉处理、控制逻辑、AI推理、显示输出以及系统级管理等多种能力。
![]()
02 单芯集成三大计算引擎 P100抢滩边缘计算高地
AMD对系统的整合,落在P100系列所采用的单片异构架构(Monolithic, Heterogeneous Architecture)上。
具体来说,在整体设计中,AMD将三类计算引擎直接整合在同一颗芯片内。Zen 5架构的CPU负责提供可扩展的x86通用计算能力,RDNA 3.5的iGPU承担图形处理与部分AI负载,XDNA 2 NPU则针对低功耗、低时延的AI推理进行优化。
![]()
具体来说,P100系列将CPU核心规模提升至最高12核24 线程,全面采用Zen 5微架构,并配备1MB L2 + 24MB L3缓存,以降低访问时延。同时,CPU 还通过向量扩展参与部分AI计算路径,这意味着在系统架构中,其不仅扮演调度角色,也可以承担一定的AI计算任务。
在性能层面,以P100系列中12核的P185为例,相比上一代锐龙嵌入式 8845HS (8 核),其在Cinebench 20.0.6.0多线程测试中的性能最高提升39%。这一提升意味着,P185已经可以适配更复杂的混合关键系统(例如在同一台设备中同时运行控制回路、应用服务以及历史软件栈等多类负载)。
![]()
统一微架构是其CPU的另一个重要特征。P100系列的CPU核心均采用统一的Zen架构,从而简化软件扩展能力,并为虚拟化与系统分区提供更稳定的运行基础。与依赖大小核结构来换取能效的方案不同,这种统一架构能够为确定性控制、应用服务,以及legacy software stack(软件栈)的并行运行提供更可预测的软件行为。这对于工业主机、控制系统,以及虚拟化边缘平台而言,这种一致性往往比单纯追求峰值性能更有意义。
在指令层面,其还支持AVX-512与VNNI。前者提供高强度SIMD向量计算能力,后者则针对部分AI负载进行优化。其作用在于,对不适合部署在NPU上的轻量AI推理任务、非标准算子处理,或者对时延要求极高的小规模AI任务,CPU的向量扩展仍然是工程师手中非常实用的计算资源。
如果说CPU体现的是平台基础算力的提升,那么iGPU的升级则代表着并行计算能力的明显增强。
其中,P185满血配置了8个WGP(即16个CU计算单元),GPU计算能力最高可提升至上一代的8倍。对于一款嵌入式x86 SoC而言,这已经不再只是“够用即可”的核显配置,而是明确面向高并行的视觉处理、显示输出,以及GPGPU计算场景。
![]()
在架构层面,P100系列集成的iGPU基于RDNA3.5架构。除了图形渲染外,其并行计算能力同样可以用于计算机视觉、图像处理等工作负载,为视觉类应用提供重要的并行算力支撑。
与此同时,该处理器还集成了独立的媒体与显示引擎,用于完成视频编解码、传感器数据处理以及显示输出等任务。例如AV1视频编解码、图像传感器数据流处理以及音频处理等工作负载,都可以在这些专用模块中完成。
在这样的架构分工下,GPU主要承担并行图形与计算任务,而媒体与显示引擎负责视频编解码与显示管线,从而在SoC内部形成完整的视频处理流程。来自相机或其他图像传感器的视频流,可以在芯片内部完成解码、处理与渲染,而无需依赖额外的独立媒体处理器。
在显示能力方面,P100系列最高支持4路4K120或2路8K120输出。放回实际应用场景来看,无论是工业人机界面、多屏监控系统、广播级视频合成、LED墙媒体服务器还是医疗影像显示,都需要同时处理多路高分辨率视频流,并保持稳定的渲染与显示延迟。
当系统同时驱动多路高分辨率画面时,图形处理单元便成为关键计算资源。而基于RDNA 3.5 architecture的GPU并行图形算力,配合高带宽显示管线,使P100系列能够在复杂视觉负载下保持稳定的图像处理与显示性能。
CPU与GPU承担了通用计算和并行处理,那么在P100系列中,真正为AI负载提供专用加速的核心,则是其集成的NPU单元。P100系列搭载了第二代XDNA2 NPU,其单NPU算力最高可达到50TOPS。
从整个平台来看,P100最高可提供80 System TOPS的AI算力。其中,CPU约贡献6 TOPS,GPU约24 TOPS,而NPU则提供50 AI TOPS。
![]()
这样的算力划分其实反映出其在AI应用下的异构计算模式。其实,AI任务并不是全部集中在NPU上运行,而是根据计算特性在CPU、GPU和NPU之间进行分配,由不同计算单元分别承担推理、前后处理以及并行计算等不同环节。
在这套分工中,NPU的定位是承担低功耗、低时延、可长期运行的AI推理任务。对于边缘侧设备而言,大量AI负载并不是短时间爆发的计算,而是需要持续运行的“常开型”任务,例如目标检测、环境感知、唤醒模型以及安全监控等。这类任务对功耗与响应时延极为敏感,因此更适合交由专用NPU执行。
03 统一封装、统一平台、统一扩展 P100 SKU全面铺开
P100系列体现产品策略的地方,其实落在SKU设计上。
AMD为锐龙 AI 嵌入式 P100系列规划了一条从4核到12核的完整产品梯度,覆盖入门控制节点到高负载视觉系统等不同等级的工业AI设备,这种分层式SKU设计直接面向实际系统部署需求。
![]()
从标准温度版本来看,P100系列的计算能力随着核心数量逐级扩展。
入门型号P121采用4核8线程Zen5 CPU,最高频率4.4GHz,配备8MB共享L3缓存,GPU为1个WGP,NPU算力30TOPS。
向上一步,P132升级为6核12线程,最高频率4.5GHz,L3缓存维持8MB,GPU增加至2个WGP,而NPU则提升至50TOPS。
再往上,便进入此次扩展的核心区间。P164提供8核16线程配置,最高频率达到5.0GHz,L3缓存提升至16MB,并配备6个WGP;P174进一步增加到10核20线程,最高频率同样为5.0GHz,L3缓存扩大至24MB,GPU仍为6个WGP;
旗舰型号P185拥有12核24线程,最高频率5.1GHz,24MB L3缓存,同时将GPU规模提升到8个WGP。
在AI能力方面,8核以上型号统一配备50TOPS NPU,而整个SoC平台的综合AI算力最高可达到80 System TOPS。显示子系统方面,“全家族”均支持4路4K120或2路8K120输出,为多屏工业系统提供统一的显示能力基础。
除了标准版本外,P100系列还提供面向工业和车规级扩展型号。工业版本包括P121i、P132i、P164i、P174i和P185i,其CPU核心数、GPU规模以及NPU算力与对应标准型号保持一致,主要区别在于更宽的工作温度范围。
车规级方面,P122a与P132a两款型号,分别对应4核和6核配置,最高频率统一为3.65GHz,同时LPDDR5X标注为7500MT/s并支持RAS特性,整列归入Automotive Grade产品线。
相比单一SKU性能提升,P100系列更强调的是整体系列的可扩展性。AMD明确提出“全系列产品可灵活扩展”的设计目标。4核到12核型号在平台层面保持相同封装、相同BIOS环境以及可配置TDP范围。这意味着OEM或ODM厂商可以基于同一块主板设计,通过更换不同OPN型号来覆盖不同性能档位。
对于B端设备厂商而言,这种统一平台带来的价值,在于系统开发、硬件验证和软件适配都可以在同一基础平台上完成,从而降低研发投入,并让产品线更容易从入门型工控节点扩展到高性能视觉计算主机。
在功耗方面,AMD为此次新增的8核至12核型号给出了较为明确的TDP范围。扩展型号支持15W到54W的可配置TDP区间,并采用25×40mm的BGA封装。这样的功耗与封装组合,使其能够适配从紧凑型嵌入式设备到中等规模工业主机的不同散热设计。
此外,P100系列也延续了AMD嵌入式产品线的关键特性——长期稳定运行能力。“官方资料显示,P100系列面向24/7连续运行场景设计,并提供最长10年的延展生命周期支持。这对于工业自动化、医疗设备以及边缘服务器等长期部署场景尤为重要。
在内存子系统方面,不同核心数量的型号也提供了不同等级的带宽支持。P121与P132等型号的LPDDR5X最高支持7500MT/s,而8核以上的P164、P174与P185及其工业温度版本则可提升至8533MT/s。在标准版与工业版本中,DDR5最高支持5600 MT/s 并提供 ECC;车规型号的LPDDR5X 支持7500 MT/s,并提供RAS 特性支持
在纠错机制上,AMD采用了不同类型的ECC策略:LPDDR5X侧使用link ECC,而DDR5则采用sideband ECC。这种组合为持续运行的AI推理与视觉处理任务提供了更高的数据可靠性。
I/O方面,P100系列最高支持16 lane PCIe Gen4,可连接高速NVMe、相机模块或其他协处理器设备。在标准版与工业版本中,提供2个USB4 接口,并支持USB 3.2、USB 3.1和USB 2.0的组合配置。
需要特别说明的是,10GbE Ethernet Cores with TSN并非覆盖全系列型号。这一能力仅出现在P121、P132及其衍生型号上,而P164、P174和P185对应位置为N/A,因此在系统设计中需要根据具体型号确认网络能力。
04 iGPU+NPU“携手”上阵 边缘异构计算进入“协同时代”
在P100系列的整体设计中,AMD提出了明确的架构思路——“End-to-End AI Acceleration: iGPU + NPU”。与传统“AI加速器即NPU”的思路不同,P100系列将AI负载在不同计算引擎之间进行分工:NPU主要负责低功耗、持续运行的Always-On任务,而GPU则承担突发型或高并行计算需求的工作负载。
![]()
在这种调度模型下,不同类型的AI任务会被分配到最合适的执行单元。例如,常开型对象检测、环境感知或唤醒模型更适合运行在NPU上,而复杂视觉处理、视觉语言模型(VLM)以及部分边缘LLM推理,则更容易受益于GPU的并行算力。
事实上,当边缘AI场景的模型结构越来越复杂,单一加速器往往难以在功耗、延迟和吞吐之间取得平衡。因此,P100引入了更灵活的执行方式——Hybrid Mode,即在同一工作负载中同时使用多个计算引擎。
以边缘LLM或VLM为例,模型的执行过程通常可以拆分为多个阶段。
输入侧需要完成高带宽的数据摄入与预处理,而在推理阶段则更强调持续生成与交互延迟。这背后的设计思路在于将突发型、高吞吐的计算任务交给iGPU处理,而将持续运行、功耗敏感的推理任务交由NPU执行。
这种协同方式带来的收益主要体现在系统层面。通过在不同引擎之间分配负载,系统可以在保持响应速度的同时降低整体功耗,并提高AI任务在长时间运行场景下的稳定性。
为了实现这种调度模式,AMD也在软件层面做了相应布局。AMD在官方资料中提到,软件栈会针对不同计算引擎进行优化,并通过统一的开源框架支持,让开发者能够根据任务特性灵活选择执行引擎。从基础模型到定制模型,从视觉类CNN到推理类LLM或VLA,都可以在同一平台上进行部署。
![]()
硬件架构决定了系统能力的上限,而软件生态则决定了平台的可用性。P100系列在软件层面的一个重要信号,是AMD开始将数据中心与HPC领域成熟的ROCm生态向嵌入式GPU延伸。
AMD将这一策略描述为“Cloud-Proven AI, Now Embedded-Ready”。简单来说,开发者可以在云端使用熟悉的AI框架进行模型开发,然后将工作负载迁移到边缘设备,无需完全重写软件栈。对于计划构建云边协同系统的企业来说,这种工具链连续性能够显著降低部署成本。
![]()
HIP同样是这一生态的重要组成部分。作为AMD提供的GPU编程层,HIP允许开发者在较小改动的情况下将代码迁移到AMD平台,从而减少对单一厂商生态的依赖。在用户开发流程中,开发者可以直接在PyTorch等主流框架中选择AMD iGPU作为后端,而编译器则负责完成大部分底层适配工作。
![]()
除了GPU与AI软件栈之外,P100在CPU平台软件方面也提供了较为完整的支持。AMD在公开资料中强调,其“虚拟化与确定性多任务平台”能力,包括预验证的工业参考软件栈、系统分区机制、Yocto定制构建以及多操作系统协同运行等特性。Linux、Windows和RTOS可以在同一系统中协作运行,以满足工业自动化、医疗设备等场景对实时性与稳定性的要求。
从整体来看,P100的异构计算设计是通过统一的软件生态,让不同计算引擎能够在同一平台上协同工作,从而提升边缘AI系统的整体效率与可部署性。
05 工业、机器人、医疗,P100系列释放场景“势能”
强大性能参数,最终也都需要落回真实的场景中。
在智能制造产线上,机器视觉检测、PLC控制,以及人机界面(HMI)通常运行在不同设备上。一条产线往往需要多个计算节点协同工作。
P100面向的工业PC平台的作用,就是将这些功能整合到同一台系统中。
![]()
CPU负责实时控制逻辑和工业软件运行;GPU处理多路摄像头视觉数据以及复杂HMI界面渲染;NPU则执行低时延AI推理(如缺陷检测和异常识别)。系统可以运行DeepSORT、RAFT-Stereo、CenterPoint、GDR-Net以及PaDiM等视觉模型,并支持Llama3.2-Vision等视觉语言模型,用于更复杂的产线检测与场景理解。
围绕这一方向,研华科技(Advantech)已经推出基于P100系列的嵌入式产品组合,覆盖计算机模块、单板计算机以及边缘AI系统,使工业PC能够在同一平台上同时承担控制、视觉与AI计算任务。
自主移动机器人(AMR)是P100扩展到8至12核心配置后重点瞄准的应用场景之一。与固定工业设备不同,机器人平台通常依赖电池供电,同时需要持续运行导航、视觉感知和环境理解算法。
![]()
在这一系统中,CPU负责导航、路径规划与运动控制;GPU处理多路摄像头数据,实现空间感知、VisualSLAM,以及视觉-语言-动作(VLA)模型等复杂AI任务;NPU则承担低功耗、持续运行的推理任务。
CPU与GPU之间的统一内存架构可以减少数据拷贝带来的延迟,使机器人能够更快完成从感知到决策再到执行的闭环响应。
目前,congatec已经将P100系列纳入其嵌入式计算模块产品线。该平台提供4至12核心配置以及可扩展GPU性能,使设备厂商能够根据不同机器人系统需求,在性能、功耗与成本之间进行灵活配置。
医疗影像设备是另一类对边缘计算能力要求极高的系统。以超声和内窥镜设备为例,系统需要完成信号采集、图像重建、三维渲染以及AI分析等一整套计算流程。
![]()
在基于P100系列的系统平台上,设备可以在本地运行U-Net、nnU-Net和MONAI等医学影像模型,实现组织分类、肿瘤检测,以及3D影像分析。同时,通过MedSigLIP可以加速从影像到报告的生成流程,而Med-PaLM2则能够提供医学问答和临床推理能力。
针对这一类系统,Kontron推出了基于P100系列的K4131-Px mITX平台,可在紧凑尺寸下提供4至12核心配置的AI加速能力,为医疗影像和其他边缘AI设备提供完整的嵌入式计算平台。
06 写在最后
从场景端看,过去几年,边缘AI发生了很关键的变化。
早期很多项目本质上还是“AI+设备”,AI只是附着在系统上的一个功能模块,比如做检测、分类、预警,完成后再把结果交给其他系统处理。现在,越来越多项目开始进入“AI即流程一部分”的阶段,模型输出会直接影响动作执行、参数调整、流程调度和人机交互。
这就意味着,边缘计算平台已经不再只是识别平台,而是在向现场决策平台演化。也正因为如此,半导体厂商之间的竞争重点正在发生变化。
过去,做嵌入式市场,很多时候拼的是稳定供货、温度等级、I/O丰富度和软件兼容;做AI市场,拼的是TOPS、模型支持和框架适配。
而今天,这两套逻辑正在合并,客户希望拿到的是既懂嵌入式约束、又具备AI异构能力的平台型产品。谁能把CPU、GPU、NPU、内存带宽、显示、多系统支持和长期生命周期整合到一个顺滑的产品定义里,谁就更容易拿到下一阶段的设计导入机会。
从产业链位置来看,这类产品还有一个深层意义。其正在帮助边缘市场摆脱对“多板拼接”“外挂加速”的路径依赖。
以往,不少设备为了补齐性能短板,只能通过堆料方式完成系统能力建设,结果是功耗、成本、维护复杂度和认证难度一起上升。而随着边缘侧工作负载越来越复杂,这种做法的收益边际已经开始下降,市场需要的不是更多分立模块,而是更高密度、更可复制、更利于大规模出货的平台。对于OEM和ODM厂商来说,这会直接影响整机设计、散热结构、主板布局、BOM控制,以及后续产品线延展。
再往后看,边缘芯片厂商之间真正拉开差距的,未必是某个引擎的绝对性能,而是场景穿透能力。能不能进入工厂主控层,能不能进入机器人控制器,能不能进入医疗终端核心计算板,能不能拿下广电视频和测试测量这类要求很细的专业市场,决定了产品最终是停留在“可展示的AI能力”,还是成为“可规模部署的行业平台”。这类市场一旦导入成功,客户黏性、生命周期和平台复用价值都远高于消费级赛道。
所以,此次P100系列的扩展其实带有明显的产业“卡位”的意味,也折射出越来越清晰的产业趋势:边缘计算正在从“功能增强”进入“平台重构”阶段,芯片厂商也开始从卖器件能力,转向卖系统整合效率。
接下来几年,谁能把这种效率真正落到行业场景里,谁就更有机会在边缘智能的下一轮竞争里占到更靠前的位置。
回到产品本身,对于有相关采购需求的用户而言,目前,配备8至12核的P100系列处理器现已开始提供样品,预计将于2026年7 月起进入量产出货阶段;4至6核版本目前同样已开始提供样品,预计将于2026年第二季度实现量产。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.