网易首页 > 网易号 > 正文 申请入驻

MCU/MPU巨头,集体自研NPU

0
分享至

过去几年,提到边缘AI,很多人第一反应往往是高性能处理器、SoC。而到如今,在MCU中放入NPU,也已经稀疏平常,毕竟通用MCU的CPU核并不适合直接执行AI/ML运算,将AI推理卸载至NPU后,MCU可专注于其他关键功能,从而确保系统实时、高效地运行,搭配干活才不累。

对于Arm MCU和MPU来说,Ethos系列NPU堪称绝配,很多厂商都选择了这条路线。不过为了让MCU和MPU更好的承载AI,几大MCU/MPU巨头都在研究自己的NPU,并在最近一段时间不断加大研究力度。今天,EEWorld就来盘点一下这些厂商的最新动态。

TI:TinyEngine和C7 NPU

德州仪器(TI)目前拥有两款NPU:面向高性能应用的C7 NPU和面向低功耗可扩展设备的TinyEngine NPU。

根据TI的说法,嵌入式处理器的处理能力、功耗限制以及高门槛的编程专业知识曾限制了边缘AI的普及。专用硬件如图形处理器(GPU)、现场可编程门阵列(FPGA)和专用集成电路(ASIC)虽性能出色,但受限于高功耗或灵活性不足。集成的神经网络处理器(NPU)应运而生——它专门执行构成现代神经网络基础的矩阵乘法、卷积运算和激活函数,通过从主CPU卸载计算密集型任务,显著提高推理速度并降低功耗。

首先,在TinyEngine NPU方面,MCU核心产品包括TMS320F28P550SJ(C2000 MCU)、AM13E230x(M33内核MCU)和MSPM0G5187(80MHz M0+内核MCU)。其对于TinyEngine NPU的理解在于让AI与控制并行存在,通过硬件层面的任务划分,让两种本质不同的计算同时存在:CPU负责实时控制,NPU负责AI推理。

德州仪器ASM微控制器工业业务负责人吴健鸿向EEWorld解释,加入NPU的核心原因,就是为了让AI运算和实时控制可以并行,而不是互相干扰。这并不是一次简单的性能升级,而是一次架构上的解耦。它让中低性能的MCU第一次可以在不破坏确定性及低延迟的前提下,引入非确定性的智能计算。


根据TI的官方阐述,TinyEngine NPU 突破了长期以来制约嵌入式人工智能广泛普及的关键设计瓶颈,具备以下优势:

  • 相较于纯软件实现的人工智能方案,单次推理能耗降低至1/120,延迟降低至1/90;

  • 算力达2.56 GOPS,可支撑深度学习模型的实时边缘 AI 推理。

  • 支持8比特、4比特、2比特量化及混合精度配置,支持原位运算,有效解决存储容量受限问题;

  • 兼容多种神经网络层类型,包括卷积层(常规卷积、深度卷积、逐点卷积、转置卷积)、全连接层、池化层(平均池化、最大池化),并支持批归一化;

  • 简化工具链降低开发复杂度,开发周期从数周缩短至数小时。

可以看出,TinyEngine并不试图对标高端SoC,但它的目标更明确——在超低功耗和低成本下,完成足够好的AI推理。


TI的策略并不是单点突破,而是构建完整的系统AI能力,所以在TinyEngine NPU之外,另一只手是C7 NPU。

C7 NPU是一款高性能、高能效的AI加速器,集成于TDA54-Q1和TDA4VE-Q1片上系统(SoC)中。它源自TI在DSP领域的长期积累,使TI处理器能够同时处理多个并发的AI工作负载,适用于高级驾驶辅助系统、信息娱乐和机器人等应用。

另外值得一提的是,TI更是从模拟信号链到控制,再到AI推理,其能力覆盖了一整条技术路径。

ST:用内存计算(IMC)颠覆NPU

早在2022年,ST就曾宣布,STM32N6将成为ST首个加入NPU的产品,很多工程师也对这一产品翘首以盼。

Neural-Art Accelerator是ST专有知识产权的神经网络处理单元。其搭载的NPU算力达到600 GOPS,具有3TOPS/W的优异表现。嵌入式的Neural-Art Accelerator 的硬件加速单元在算力处理得当的情况下,可以与Cortex-M55 内核完全独立并行工作,可以作为 Cortex-M55的协处理器,做AI加速能力运算。

在STM32N6中,NPU采用基于可配置全连接交换机的单向链路架构,通过DMA及支持卷积、池化、激活、标量等运算的加速器传输数据流,可在运行时定义任意多条并发虚拟处理链。完备的反压机制实现数据流控制与流式多播,支持数据在多个端点间重用;链表控制整个周期(可融合多个层)的完全自主处理。多个加速器以分组或链接方式并行处理不同大小的特征图与内核,交换机拓扑在编译时定义并在运行时动态配置,每个节点代表一个处理单元或内存流通道。该设计支持跨多层的流水线操作并满足最坏情况延迟约束,而可配置加速器框架(CAF)则负责管理数据传输与计算调度,并能自动适应各种网络层拓扑。



我们都知道,在STM32MP2系列中,NPU并非自研。而在STM32N6上,ST为什么选择自研,而非Arm?事实上,Arm一直是ST的合作伙伴,ST始终非常重视与Arm的合作。然而,ST自研NPU从六年前就开始设计,并且具有一定灵活性,可以根据不同产品需求进行裁剪,其自研的产品在PPA上具有明显优势,同时ST也在为未来的技术创新做准备,尤其是计划推出的颠覆性技术——IMC(In Memory Computing,内存计算)。这一技术将能够基于ST的NPU架构进行开发和应用。

根据ST的规划,第一款神经网络加速器Neural-ART 1,作为STM32N6微控制器的内核。其最大性能为4.6 TOPS,能效为1~5TOPS/W。下一步,ST将会进一步发展第二代数字内存计算D-IMC,这将带来比第一代 4 倍的性能提升,能够达到18TOPS和20~40TOPS/W的性能。Neural-ART 3将是具有混合架构和50+ TOPS/W性能的产品,预计第三代的性能将比第二代再提升10倍。


ST一篇论文中表示,内存计算(IMC)可大幅减少内存数据传输,从而降低功耗。“我们已成功完成其数字和模拟版本的原型设计,性能分别提升高达8.3倍和16.7倍。这些技术支持1至8位高级量化,在保证与现有NPU无缝集成的前提下,进一步提升性能并缩小模型体积。”


NXP:一手自研,一手收购

eIQ Neutron NPU是NXP的高度可扩展的加速器内核架构,可提供机器学习加速。该架构优化了功率和性能,与恩智浦广泛的微控制器和应用处理器产品组合相集成。目前,应用eIQ Neutron NPU的MPU包括i.MX 95、i.MX 952、i.MX 94、i.MX 93、i.MX 8M Plus,跨界MCU包括i.MX RT700,MCU包括MCX N94x和N54X。

eIQ Neutron NPU采用点积脉动架构,支持多种神经网络类型,包括CNN、RNN、TCN和Transformer网络等。eIQ机器学习软件开发环境为eIQ Neutron NPU的ML应用开发提供完整支持。eIQ Neutron支持常见的神经网络运算符,如Conv2D、Depthwise Conv2D、full connected、Add、Average Pooling2D、Maximum Pooling2D和Padding,它还支持8位量化权重。

eIQ Neutron NPU提供了一系列丰富的功能选项,这些选项会根据该内核所集成到的具体 NXP边缘处理设备,以及该设备系列所针对的市场需求来进行灵活配置。其主要特性包括:专用的控制器内核;支持在线的反量化、激活和池化操作;内置微型缓存,可有效降低功耗,并减少对系统内存速度的依赖;权重解压缩引擎;先进的多维DMA,支持步进、批处理、交织和拼接等多种输入输出格式;可配置紧耦合内存。


从架构来看,eIQ Neutron NPU采用点积脉动架构,传统高吞吐量脉动阵列依赖大量宽位(32bit)累加器,带来显著的连线、逻辑与寄存器开销,且在小工作负载下利用率低下。本文点积结构可消除这些缺陷。

除了在MCU、MPU放入NPU,NXP还收购了独立神经处理单元(DNPU)的领导企业之一Kinara。根据NXP的说法,DNPU非常适合高性能、低延迟的专用AI任务,而集成式NPU则能处理更通用的AI处理以及低功耗始终在线AI功能。这种组合能够实现更优化、更高效的智能边缘系统架构。


NXP提供两款独立神经处理单元(DNPU):Ara-1是第一代DNPU,适用于摄像头、嵌入式系统和边缘服务器等边缘设备的高能效AI推理。Ara-2是第二代DNPU,能够提供高达40 eTOPS的性能,并针对实时生成式AI进行了优化。


英飞凌:针对汽车的PPU

英飞凌没有直接做NPU,不过针对电动汽车开发了PPU(并行处理单元,Parallel Processing Unit),它并非一个独立的DSP内核,而是一个高度专业化、可灵活配置的计算加速器集群。目前搭载PPU的产品主要是28nm的AURIX TC4x。PPU拥有灵活的架构,适用于执行速度快且数据处理量大的汽车应用。

实现的任务和用例因应用而异,但可以识别出两个主要集群。一方面,PPU允许复杂的数据处理和基于观察者的传感器执行器系统控制(例如牵引电机逆变器或直流/直流变换器控制)。另一方面,它支持基于人工神经网络(MLP、RBF、RNN、CNN)的系统建模(例如虚拟传感器、电池管理系统中的健康状态/电荷状态优化,以及未来领域或区域控制器的预测性车辆运动控制)和对象分类(如传感器融合)解决方案。


PPU模块内核选择了新思(Synopsys)的DesignWare ARC EV71处理器。ARC EV系列是Synopsys专门为嵌入式视觉、传感器融合和人工智能处理而设计的高性能DSP处理器家族。PPU主要内包含:

  • 标量核(Scalar Core):用于执行大量的标量运算,以及任务调度,支持多种算术运算和逻辑运算,支持硬件浮点运算,提供丰富的硬件功能安全机制;

  • 向量核(Vector core/SIMD Core):专门用于执行向量运算,支持多种向量算术运算、逻辑运算和专用信号处理,支持整型数和浮点运算,支持多级流水线和SIMD指令;

  • 一级缓存:用于保存计算输入和输出数据的存储空间,由于结构上和运算核紧密耦合,该缓存可以在PPU的执行过程中对状态进行快速读写,并且有EDC/ECC保护,从而实现更高的执行效率和更高的可靠性;

  • 其它系统资源:包括用于快速数据搬运的DMA,共享内存区等。


瑞萨:自研DRP-AI

瑞萨在最新的RA8P1系列等产品用了Arm的Ethos系列NPU,不过这家公司也有自研的AI 加速器:DRP-AI。大多数AI加速器专注于AI推理,依赖CPU进行前后处理,而DRP-AI将预处理、后处理和AI推理集成到单一DRP-AI硬件中,以实现卓越的AI处理性能。其RZ/V2H平台就集成了最新的DRP-AI3,其他产品包括RZ/V2M、RZ/V2MA、RZ/V2L、RZ/V2N。

DRP-AI由AI-MAC(乘积累加处理器)和DRP(可重构处理器)组成。AI处理可通过在卷积层和全连接层为运算分配AI-MAC来高速执行,而且DRP也适用于预处理和池化层等其他复杂的处理。


DRP-AI3是瑞萨在2024年推出的新一代DRP-AI,与上一代相比,电源能效高出约10倍。 DRP-AI3 能够应对AI的未来发展需要以及机器人等应用的复杂需求。




DRP-AI3算力达到8 TOPS,此外,对于已剪枝的 AI 模型,可以根据剪枝量信息成比例地减少运算周期次数,从而使 AI 模型运算性能达到剪枝前模型的峰值水平 (80 TOPS)。 这相当于高出传统DRP-AI处理性能约80倍,这样的大幅度性能提升足以跟上 AI 快速发展的步伐。在电源能效方面,仅 AI 加速器的性能评估显示,其最高理论性能约为 23 TOPS/W,运行主流AI模型时的电源能效达到世界顶尖水平(约为10 TOPS/W)。




DRP - AI如何与瑞萨的MCU/MPU协同工作以实现AI推理加速?MCU主要运行机器学习算法,MPU侧重深度学习视觉方向算法。硬件层面,二者通过高速内部总线通信,保障数据快速流转;软件层面,优化驱动与接口程序,让调用DRP - AI算力如同调用本地函数般便捷,无缝衔接实现 AI 推理加速。

参考文献

[1]TI:https://www.ti.com/lit/wp/spry349a/spry349a.pdf

[2]芯视点:https://mp.weixin.qq.com/s/-KpDskzgV7MT-u-0XfSihA

[3]IEEE:https://arxiv.org/pdf/2509.14388

[4]ST:https://shequ.stmicroelectronics.cn/thread-645078-1-1.html

[5]汽车电子与软件:https://mp.weixin.qq.com/s/kXG7a1mMS8KDITJGk8hEXA

[6]瑞萨:https://www.renesas.cn/zh/software-tool/ai-accelerator-drp-ai

[7]Digikey:https://www.digikey.cn/zh/forum/t/topic/4291

请将我们设为“星标”,这样就会第一时间收到推送消息。

欢迎关注EEWorld旗下订阅号:“机器人开发圈”

扫码添加小助手回复“机器人”

进群和电子工程师们面对面交流经验


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国肺癌发病率世界第一!提醒:罪魁祸首已揪出,7种食物要少吃

中国肺癌发病率世界第一!提醒:罪魁祸首已揪出,7种食物要少吃

健康之光
2026-03-23 20:10:05
西班牙首相和夫人逛北京什刹海,夫人穿七分裤超精致优雅

西班牙首相和夫人逛北京什刹海,夫人穿七分裤超精致优雅

点点细语
2026-04-13 09:44:52
中国再创奇迹!全球最大海上机场开建,20平方公里碾压日韩!

中国再创奇迹!全球最大海上机场开建,20平方公里碾压日韩!

傲傲讲历史
2026-04-11 22:42:48
光纤暴涨650%!真正赚钱的不是光纤,是它的“原材料”

光纤暴涨650%!真正赚钱的不是光纤,是它的“原材料”

风风顺
2026-04-13 04:10:03
79 年廖汉生回乡到大女儿家吃饭,大女儿指着公公介绍:这是我爸

79 年廖汉生回乡到大女儿家吃饭,大女儿指着公公介绍:这是我爸

近史谈
2026-04-10 11:39:39
里弗斯下课后,自由市场5大名帅出炉:锡伯杜第二,第一毫无悬念

里弗斯下课后,自由市场5大名帅出炉:锡伯杜第二,第一毫无悬念

老郎体育汇
2026-04-13 11:18:30
首秀中的表现相当不错!可惜火箭之前完全没有给他任何表现机会?

首秀中的表现相当不错!可惜火箭之前完全没有给他任何表现机会?

稻谷与小麦
2026-04-13 22:19:45
老蒋得知毛岸英牺牲,半夜支开宋美龄,向儿子蒋经国吐露心声

老蒋得知毛岸英牺牲,半夜支开宋美龄,向儿子蒋经国吐露心声

历史点行
2026-04-09 23:52:43
刚从日本回来,说点不中听的:日本的真实面目,可能让你很意外

刚从日本回来,说点不中听的:日本的真实面目,可能让你很意外

复转这些年
2026-04-01 09:17:19
一场1:2!揪出北京国安3大“水货” 表现拉胯 恐被蒙哥马利弃用

一场1:2!揪出北京国安3大“水货” 表现拉胯 恐被蒙哥马利弃用

林子说事
2026-04-13 10:37:23
隧道罚单暴增!高速统一限速后 为何80km/h的隧道口成超速重灾区?

隧道罚单暴增!高速统一限速后 为何80km/h的隧道口成超速重灾区?

娱乐圈见解说
2026-04-13 03:34:15
疯传!深圳开发商喷辣椒水驱赶客户,发生了啥

疯传!深圳开发商喷辣椒水驱赶客户,发生了啥

深蓝财经
2026-04-13 19:30:20
特朗普刚下令封海,巴铁反手打通伊朗走廊,凭啥让美伊沙同时道谢

特朗普刚下令封海,巴铁反手打通伊朗走廊,凭啥让美伊沙同时道谢

环球格局观
2026-04-13 22:04:13
66岁大妈喜欢睡前泡脚,不久脑梗去世,专家怒斥:太无知了

66岁大妈喜欢睡前泡脚,不久脑梗去世,专家怒斥:太无知了

比利
2026-03-21 13:00:22
赖清德宣布窜访非洲小国,不到24小时,就被狠狠打脸,不简单

赖清德宣布窜访非洲小国,不到24小时,就被狠狠打脸,不简单

DS北风
2026-04-13 19:08:21
姚敏学同志逝世

姚敏学同志逝世

新京报政事儿
2026-04-13 09:24:06
全程眼突鼓腮,看了观众对孙俪的评价,才知张艺谋这句话的含金量

全程眼突鼓腮,看了观众对孙俪的评价,才知张艺谋这句话的含金量

陈述影视
2026-04-04 17:53:34
10分钟,直线封板!股市“吹哨人”,突传大利好!整个板块集体爆发!

10分钟,直线封板!股市“吹哨人”,突传大利好!整个板块集体爆发!

证券时报
2026-04-13 19:05:33
上午10点!北京国安做出重要决定:申诉廖力生手球+韦世豪逃红牌

上午10点!北京国安做出重要决定:申诉廖力生手球+韦世豪逃红牌

球场新视角1号
2026-04-13 10:48:49
看了卡粉的黄杨钿甜,素颜的赵丽颖,才懂《冰湖重生》为什么扑

看了卡粉的黄杨钿甜,素颜的赵丽颖,才懂《冰湖重生》为什么扑

八斗小先生
2026-04-13 11:43:03
2026-04-13 23:31:00
EEWorld电子工程世界 incentive-icons
EEWorld电子工程世界
即时参与讨论电子工程世界最火话题,抢先知晓电子工程业界资讯。
268文章数 22关注度
往期回顾 全部

科技要闻

"抄作业"近四年,马斯克版微信周五上线

头条要闻

媒体:欧尔班败选不仅是一国之事 牵扯到与中国的关系

头条要闻

媒体:欧尔班败选不仅是一国之事 牵扯到与中国的关系

体育要闻

一支球队不够烂,也是一种悲哀

娱乐要闻

初代“跑男团”合体,邓超、鹿晗缺席

财经要闻

谈判未完全关闭?3国力促美伊重启谈判

汽车要闻

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

本地
亲子
游戏
手机
健康

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

亲子要闻

丈母娘干啥女婿感动要流泪?龙宝拍手夸姥姥,亲子互动笑的真开心

《地铁2039》4月17日正式公开 中文预热预告发布

手机要闻

曝 iPhone Air还有第二代,你期待吗?

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版