网易首页 > 网易号 > 正文 申请入驻

多核NPU微架构概述

0
分享至

一、引言

随着人工智能技术的飞速发展,对神经网络处理单元(NPU)的性能要求越来越高。多核NPU微架构应运而生,它通过集成多个处理核心,能够显著提升并行计算能力,满足大规模神经网络计算的需求。


二、多核NPU微架构的基本组成

计算单元。多核NPU的核心是大量的并行计算单元,这些单元通常被设计为向量处理器或矩阵处理器。例如,DianNao架构中,NFU(Neural Functional Units)分为乘法单元、加法树和激活单元。其中乘法单元包含256个乘法器,能够在每个时钟周期同时执行256个乘法操作。这些计算单元能够高效地执行大规模矩阵运算,从而加速神经网络的训练和推理过程。


数据流架构。NPU采用数据流驱动的架构,数据在处理单元之间直接传递,减少了数据传输的延迟和功耗。这种架构允许NPU并行处理大量数据,非常适合神经网络中的矩阵运算。在多核NPU中,数据流的优化尤为重要,因为多个核心需要高效地共享和传递数据,以避免数据瓶颈。

内存层次结构。NPU通常配备优化的内存层次结构,包括高速缓存和片上存储器。例如,Qualcomm NPU设计了TCM高速缓存器,提供低延迟和高带宽的内存访问性能。在多核NPU中,内存层次结构的设计需要考虑到多个核心对内存的并发访问需求,以减少内存冲突和提高内存利用率。

互联结构。多核NPU需要高效的互联结构来实现核心之间的通信。常见的互联结构包括总线、交叉开关(crossbar)和片上网络(NoC)。总线结构简单,但容易成为性能瓶颈;交叉开关可以提供更高的带宽和更低的延迟,但硬件成本较高。片上网络则是一种可扩展性较好的互联结构,它通过网络接口和路由器来实现核心之间的数据传输。在多核NPU中,选择合适的互联结构对于提高系统的整体性能至关重要。

三、多核NPU微架构的并行计算设计

指令级并行(ILP)。NPU通过VLIW(Very Long Instruction Word)指令并行架构实现指令级并行。编译器将多条无依赖关系的指令组合成一个指令包,然后同时发送给多个独立的功能部件进行并行执行。这种设计可以充分利用硬件资源,提高指令的执行效率。

数据级并行(DLP)。NPU的并行计算单元能够同时处理多个数据点。例如,在矩阵乘法操作中,多个并行单元可以同时计算矩阵的不同部分。在多核NPU中,数据级并行可以通过多个核心同时处理不同的数据块来实现,从而进一步提高系统的吞吐量。

线程级并行(TLP)。NPU支持多线程编程模型,可以同时处理多个程序或程序中的多个部分。在多核NPU中,线程级并行可以通过多个核心同时执行不同的线程来实现。这种设计可以充分利用多核的优势,提高系统的并发处理能力。

四、多核NPU微架构的优化技术

存算一体技术:存算一体技术是将部分计算任务直接在存储器中完成,而非传统架构中“内存-缓存-计算单元”频繁搬运数据的模式。这种技术可以大幅减少数据迁移带来的功耗和延迟,从而提高系统的能效。在多核NPU中,存算一体技术可以与多核架构相结合,进一步优化性能。

弹性负载均衡:对NPU微架构中的存储与计算PE而言,可配置意味着可以通过片上的控制逻辑来动态配置细颗粒度的PE阵列。通过Array+Vector异构组合的SHAV弹性架构,可以适应算法中多形态的算子尺寸和数据流变化需求。对NPU顶层架构而言,微任务与多并行调度意味着多核的SHAV计算模块可以通过高带宽的分布式数据总线来搭建实现多核的弹性扩展。

联合优化设计:NPU中模型-硬件联合设计的实现策略体现在降低计算资源需求的策略。例如,3x3卷积Conv可以通过面向通道的Conv3x3 +Conv1x1来实现,Conv5x5以上可以通过Conv3x3 +Conv1x1组合来实现。这种联合优化设计可以提高硬件资源的利用率,提升能耗比和算力效率。

五、多核NPU微架构的挑战与应对

挑战。功耗问题:多核NPU在提升性能的同时,也面临着功耗增加的挑战。如何在有限的功耗预算内实现高性能计算是一个关键问题。散热问题:高功耗会导致芯片发热增加。散热问题不仅影响芯片的性能和可靠性,还可能导致设备失效。编程复杂度:多核NPU的并行计算架构增加了编程的复杂度。开发者需要了解硬件架构的细节,并编写高效的并行程序,以充分利用多核的优势。

应对措施。低功耗设计技术:采用低功耗设计技术,如动态电压频率调整(DVFS)、功率门控等,可以在保证性能的前提下降低功耗。散热解决方案:通过优化芯片布局、采用先进的散热材料和散热技术,可以有效解决散热问题。软件工具支持:提供高效的编译器、调试工具和性能分析工具,可以帮助开发者更好地理解和优化并行程序。此外,还可以通过硬件抽象层(HAL)等技术,降低编程复杂度。

六、多核NPU微架构的应用实例

(一)天玑9500

天玑9500的NPU革新采用了多核异构或脉动阵列设计。这种设计不仅增强了并行计算能力,还优化了数据流路径,降低了延迟。在运行大参数AI模型时,天玑9500能够保持高能效。此外,天玑9500还引入了“存算一体”技术,进一步提高了芯片的能效。

(二)华为昇腾

华为昇腾采用SPMD(Single Program Multiple Data)编程模型,通过多核架构技术,提供千百级的加速器物理核。这种设计适合大算力下高并行数据负载,能够实现高效的并行计算。

(三)ONNXim模拟器

ONNXim是一款针对推理导向的多核神经处理单元(NPU)的周期级模拟器。它能够运行大型深度神经网络(DNN)推理任务,同时准确地模拟共享资源(例如DRAM)的竞争情况。ONNXim支持多种调度策略,可以轻松扩展以支持其他策略。通过使用ONNXim,研究人员可以更好地理解和优化多核NPU的性能。

七、结论

多核NPU微架构通过集成多个处理核心,能够显著提升并行计算能力,满足大规模神经网络计算的需求。在设计多核NPU微架构时,需要综合考虑计算单元、数据流架构、内存层次结构和互联结构等多个方面。同时,还需要采用优化技术,如存算一体技术、弹性负载均衡和联合优化设计,以进一步提高系统的性能和能效。尽管多核NPU微架构面临着功耗、散热和编程复杂度等挑战,但通过低功耗设计技术、散热解决方案和软件工具支持等应对措施,可以有效地解决这些问题。

邀请函

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普撤销拨款 美国公共广播公司解散

特朗普撤销拨款 美国公共广播公司解散

每日经济新闻
2026-01-06 12:51:23
为什么凤姐没有跌入斩杀线?不吸毒、没助学贷、生活在华人社会保护圈里

为什么凤姐没有跌入斩杀线?不吸毒、没助学贷、生活在华人社会保护圈里

西虹市闲话
2026-01-05 15:18:06
高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

趣文说娱
2026-01-04 16:34:24
美媒:特朗普的算盘空了,委内瑞拉的高价油,中国连一桶都不肯买

美媒:特朗普的算盘空了,委内瑞拉的高价油,中国连一桶都不肯买

娱乐小可爱蛙
2026-01-07 13:42:37
单亲妈妈的崩溃!400元海底捞引爆母女大战,养的狗比亲妈还金贵

单亲妈妈的崩溃!400元海底捞引爆母女大战,养的狗比亲妈还金贵

蝴蝶花雨话教育
2026-01-05 09:07:40
柯蓝:某人上完培训学校,怀上男明星的孩子;储殷:嫁不进真豪门

柯蓝:某人上完培训学校,怀上男明星的孩子;储殷:嫁不进真豪门

荣亭小吏
2026-01-06 14:23:58
李小孩的“小绿瓶”,在国博很没存在感,为何永久禁止出境?

李小孩的“小绿瓶”,在国博很没存在感,为何永久禁止出境?

收藏大视界
2026-01-04 17:32:26
中国母女在老挝一火灾中遇难,涉案嫌疑人已被抓获,总领馆:正在跟进案件

中国母女在老挝一火灾中遇难,涉案嫌疑人已被抓获,总领馆:正在跟进案件

极目新闻
2026-01-07 13:46:22
多地城投大降薪!

多地城投大降薪!

黯泉
2026-01-06 22:42:14
朝鲜谁都不服,却主动将三位中国人写进教科书,还为其树立了铜像

朝鲜谁都不服,却主动将三位中国人写进教科书,还为其树立了铜像

云霄纪史观
2025-12-27 15:49:05
特朗普称格陵兰岛“到处是俄罗斯和中国船只” 丹麦外相:不实

特朗普称格陵兰岛“到处是俄罗斯和中国船只” 丹麦外相:不实

新京报
2026-01-07 10:36:04
80条人命被淹没,特朗普不打招呼就动手,国际法庭的卷宗又厚一叠

80条人命被淹没,特朗普不打招呼就动手,国际法庭的卷宗又厚一叠

起喜电影
2026-01-07 16:24:58
中美关系生变,特朗普一声令下,中国92台起重机被查,果然不简单

中美关系生变,特朗普一声令下,中国92台起重机被查,果然不简单

观星赏月
2026-01-07 16:31:52
富得流油的新四军第七师,每人每月三条香烟,开着汽艇向日军收税

富得流油的新四军第七师,每人每月三条香烟,开着汽艇向日军收税

别人都叫我阿腈
2026-01-07 09:00:02
Here we go!罗马诺:塞门约6500万英镑转会费加盟曼城

Here we go!罗马诺:塞门约6500万英镑转会费加盟曼城

懂球帝
2026-01-07 07:13:28
罗德里-桑切斯:西甲只有梅西和C罗会被记住;为了钱去卡塔尔

罗德里-桑切斯:西甲只有梅西和C罗会被记住;为了钱去卡塔尔

懂球帝
2026-01-07 16:57:30
浙江首家宜家商场,确定关店!宜家中国刚刚宣布,关闭7家

浙江首家宜家商场,确定关店!宜家中国刚刚宣布,关闭7家

都市快报橙柿互动
2026-01-07 12:35:22
历史玩笑!乌克兰还没倒下,垄断全球富豪资产的瑞士,先顶不住了

历史玩笑!乌克兰还没倒下,垄断全球富豪资产的瑞士,先顶不住了

至死不渝的爱情
2025-12-10 15:32:29
俄乌冲突最新进展:1月7日下午最新消息

俄乌冲突最新进展:1月7日下午最新消息

第一校尉
2026-01-07 16:10:31
轮到特朗普本人被审判了,中俄支持下,安理会将紧急召开会议

轮到特朗普本人被审判了,中俄支持下,安理会将紧急召开会议

博览历史
2026-01-06 15:22:52
2026-01-07 17:43:00
EETOP半导体社区 incentive-icons
EETOP半导体社区
国内著名的电子工程师社区
7160文章数 15574关注度
往期回顾 全部

科技要闻

豪掷世界第一"球" 杨元庆亮出联想AI护城河

头条要闻

中方被问是否计划采取行动帮助马杜罗夫妇 外交部回应

头条要闻

中方被问是否计划采取行动帮助马杜罗夫妇 外交部回应

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

2026年央视春晚彩排:沈腾确定回归

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

游戏
教育
本地
时尚
公开课

18年了还没凉!《超越善恶2》2026年最新动态曝光

教育要闻

小学数学,巧求面积!

本地新闻

“闽东利剑·惠民安商”高效执行专项行动

看起来很好亲的唇,能养出来?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版