网易首页 > 网易号 > 正文 申请入驻

【技术解读】AI PC时代天花板级NPU强在哪?AMD XDNA 2架构解析

0
分享至

在之前的技术文章中我们已经详细介绍过,锐龙7040配备了AMD第一代NPU,而锐龙8040系列则搭载了第二代NPU,它们都基于XDNA架构,而到了Ryzen AI 300系列,AMD正式为它配备了基于XDNA 2架构的NPU,使其算力暴增到50TOPS,远远超过了微软CopilotPC+的40TOPS性能需求和一众竞品。那么XDNA 2架构到底强在哪儿?为什么它能提供远超常规处理器的AI计算性能?在前不久AMD于美国洛杉矶举行的 2024 Tech Day大会上,AMD高级副总裁、人工智能负责人Vamsi Boppana为大家进行了详细的讲解。

专业的事交给专业的U:XDNA打造的NPU更适合高效AI计算

在AI PC时代,AI应用的特定性决定了它更需要一种专用的全新架构来提供更高能效的计算。从图中可以看到,随着AI应用负载越来越特殊化,CPU和GPU在计算能效比方面已经捉襟见肘,而NPU这种专为AI计算而生的处理器明显在这方面优势很大。

那么为什么NPU是AI PC时代处理器必备的功能呢?从图中我们可以看到,AI应用方面,模型的规模和多样性都在不断地增长,越来越成为操作系统不可或缺的一部分,因此提升AI计算的效率就比以往任何时候都显得更重要。从AI模型每瓦性能对比可以看到,相对CPU来讲,核显可以提供大约8倍的能效,而NPU则可以提供高达35倍的能效,毫无疑问在 AI计算方面,NPU是能效表现最高的存在。

AMD Ryzen AI 300系列移动处理器作为新一代全能AI处理器,可以同时提供全新CPU、NPU和GPU架构,带来全新的AI PC使用体验。到2024年,第三代AMD Ryzen AI已经拥有超过150个AI助力的ISV,AI生态圈的发展非常迅猛。

Ryzen AI使用的XDNA架构之所以最适合AI计算,最大的原因就是它采用了灵活的计算结构与更具适应性的内存层次结构,相对传统的多核心处理器架构来讲,它不会出现数据堵塞的情况。同时,它通过软件管理内存,不会出现缓存未命中,因此拥有稳定而准确的性能表现。此外,它的可编程互联设计可以有效降低内存带宽消耗并实现资源阻隔。上面这两点让它还可以实现计算单元的灵活分区,就像图上所示,它可以用8个AIE来完成实时视频、8个AIE来完成实时音频,16个AIE来完成内容创作,空间的可重构、高效的多任务性能保证了AI计算的实时性能。锐龙7040/8040上采用的NPU就采用了XDNA架构,从实际表现来看也达到了预期的高能效AI计算效果。

大幅升级!XDNA 2再次在架构上领先业界

在Ryzen AI 300移动处理器上,我们迎来了XDNA 2架构。XDNA 2在XDNA的基础上将AIE(AI引擎)单元从20个提升到了32个,每TIE提供双倍的MACs,片上内存增加60%,外加增强的非线性支持与独有的Block Floating Point模式支持。和锐龙7040的第一代NPU相比,采用XDNA 2架构的第三代NPU最高支持8个空间并发流,大幅增强多任务能力,提供了5倍的计算性能。同时,由于XDNA 2还采用了基于列的电源门控,因此也可以提供更长的续航能力,所以第三代NPU拥有了两倍于初代NPU的能效表现。

接下来介绍的Block Floating Point模式可以算是XDNA 2的终极奥义了。我们知道,目前的AI应用有两种常见的数据精度,大多数AI应用使用了16bit的精度,也就是FP16(16bit浮点)模式,而移动平台为了更高的效率一般会采用8位精度,也就是INT8(8位整数)模式。很显然,FP16拥有更高的精度,而INT8则拥有更高的效率,那么有没有办法两者兼得呢?AMD为XDNA 2配备的,就是兼具两者性能与精度优点的Block FP16模式。

从AMD官方数据来看,Block FP16吞吐量几乎持平INT8/W8A8,大约两倍于INT8/W8A16——很明显INT8在处理8位权重和16位激活的数据类型时是远不及Block FP16的。在9位存储的模型体积方面,Block FP16只比INT8略高,远低于FP16,这也有效节约了存储空间。在16bit精度方面,使用LIama2-7B模型测试,Block FP16可以达到FP16大约99.9%的精度,比INT8/W8A16更高,更是高出INT8/W8A8一倍。由此可见,Block FP16结合了INT8的高性能与FP16的高精度优势,让XDNA 2架构打造的第三代Ryzen AI NPU能够发挥出遥遥领先对手的AI算力。实际上,我们从图上还可以看到,Block FP16即便是和FP32基线相比,也几乎没有什么精度损失,这也就意味着Block FP16给ISV们带来FP16/FP32或者Block FP16训练的模型提供了一条强力的“匝道”。

从实测Float16峰值性能来看,XDNA 2架构打造的第三代Ryzen AI NPU拥有最高50TOPS的算力,远超Apple M4 ANE、Intel Lunar Lake NPU和高通骁龙Elite X NPU。

综合来看,XDNA 2架构在XDNA的基础上进一步扩大规模,并提供了对Block FP16 的支持,从而让它拥有了业界领先的AI算力,提供当下无与伦比的AI高效加速体验。

强大生态圈助力第三代Ryzen AI起飞

在硬件方面,XDNA 2已经交出了令人满意的答卷,那么在配套的生态圈部分呢?AMD与微软多年来的深度合作已经在AI生态圈的打造方面有了巨大的进展,包括感知壳体、生成式AI和协作与沟通,目前所有的模型都已经可以工作,在基于XDNA 2架构的NPU上,可以获得出色的Copilot+体验。

大家最为熟悉的Stable Diffusion XL Turbo本地AI图片生成工具也提供了对Block FP16的支持,可以在XDAN 2架构的NPU上实现超快的图片生成操作。

LIama2大语言模型也可以利用Block FP16来同时提供高精度和高性能,从AMD官方数据来看,在基于LIama2 7B模型的AI响应速度对比中,XDNA 2架构的Ryzen AI NPU可以提供五倍于竞品酷睿Ultra 7 155H内置NPU的响应速度。

在本地检索增强生成(RAG)演示中,使用LIama2-7B模型的RAG可以在第三代Ryzen AI NPU上完美运行,当然,用户也可以随时给本地RAG“喂”上更新的资料,让它在回答问题时能够提供更加准确的结果。

对于开发者来讲,可以非常轻松地利用Ryzen AI开发出成千上万的模型。Ryzen AI拥有更广的模型支持度,支持1000+的模型,包括CNN和Transformer,支持不同的数据类型,包括INT4/8以及Block FP16、FP 16等等。同时也优化了Halo模型,支持LIama、Mistral、Qwen大语言模型和Stable Diffusion文生图。在执行端,Ryzen AI也支持ONNX运行时,最终打造出运行在锐龙AI笔记本上的应用集合。

AMD的统一AI软件栈让Ryzen AI APU的CPU+NPU+GPU三位一体AI加速架构可以让ISV提供更佳的AI应用体验。其中在AI模型与算法方面,对开源平台的PyTorch、TensorFlow和ONNX提供了很好的支持;在函数库方面,为CPU(Zen5)/GPU(RDNA 3.5)/NPU(XDNA 2)都提供了运行时,支持AI工作负载分区、编译和优化功能。当然,硬件基础方面也少不了强大的CPU(Zen5)+ GPU(RDNA 3.5)+ NPU(XDNA 2)三位一体AI加速架构。

最后简单总结一下,Ryzen AI 300移动处理器内置的XDNA 2架构Ryzen AI NPU是当前性能最强的NPU,XDNA 2在XDNA的基础上进一步扩展规模,大幅提升性能,这使得它拥有了高达50TOPS的峰值算力,领先业界的同时也成为Copilot+PC当下最佳选择,堪称世界首款“Win24 ready”的X86内置NPU。同时,XDNA 2还带来了独有的Block FP16支持,可以实现接近INT8的性能与FP16的精准度,此外,它还支持高级数据类型、提供广泛的模型支持,在统一AI软件栈的支持下更是让ISV能够提供更好的AI使用体验。综合来讲,在AI PC时代,入手具备XDNA 2架构第三代Ryzen AI NPU的锐龙AI PC,无疑能获得当下最佳的AI应用体验,同时也能更好地支持未来深度绑定AI功能的Windows操作系统。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
毛新宇参观祖宅时突然发现家谱记载:原来毛主席是毛太华第20代孙

毛新宇参观祖宅时突然发现家谱记载:原来毛主席是毛太华第20代孙

老杉说历史
2026-03-14 20:54:20
中纪委点名反腐,这七大领域将迎来整顿风暴

中纪委点名反腐,这七大领域将迎来整顿风暴

细说职场
2026-04-12 14:14:00
美伊对峙再升级!特朗普罕见承认:11月中期选举前油价或维持高位

美伊对峙再升级!特朗普罕见承认:11月中期选举前油价或维持高位

财联社
2026-04-13 08:26:06
太逗了!麦考尔三战场均26分爆发,广东记者:之前说话大声对不起

太逗了!麦考尔三战场均26分爆发,广东记者:之前说话大声对不起

林小湜体育频道
2026-04-12 23:56:54
黄灿灿取关《浪姐》官微!网友:这是跟节目组彻底撕破脸了?

黄灿灿取关《浪姐》官微!网友:这是跟节目组彻底撕破脸了?

情感大头说说
2026-04-12 22:05:41
行程结束,郑丽文返回台湾,下飞机后讲出3句话,赖清德终于怕了

行程结束,郑丽文返回台湾,下飞机后讲出3句话,赖清德终于怕了

风流女汉
2026-04-13 08:12:13
墙倒众人推!默茨倒戈站队,特朗普郑重警告,内塔尼亚胡低头了

墙倒众人推!默茨倒戈站队,特朗普郑重警告,内塔尼亚胡低头了

老谢谈史
2026-04-13 18:45:13
越来越多人得病,医生提醒:洗碗时的这几个坏习惯,看看你有吗?

越来越多人得病,医生提醒:洗碗时的这几个坏习惯,看看你有吗?

白话电影院
2026-04-09 14:32:27
欧尔班败选,俄总统特别代表发声

欧尔班败选,俄总统特别代表发声

环球网资讯
2026-04-13 17:41:11
快讯!伊朗革命卫队明确宣布了!

快讯!伊朗革命卫队明确宣布了!

达文西看世界
2026-04-13 09:35:22
8亿欧豪门要降级?热刺创英超耻辱纪录,队长当场哭崩

8亿欧豪门要降级?热刺创英超耻辱纪录,队长当场哭崩

乐道足球
2026-04-13 18:51:23
发现一个现象:收入1万以下的夫妻,吵架大都为了钱;1万以上的家庭,吵架都是一方很强势

发现一个现象:收入1万以下的夫妻,吵架大都为了钱;1万以上的家庭,吵架都是一方很强势

二胡的岁月如歌
2026-04-13 08:04:02
国家一级女演员陈丽云被逮捕!

国家一级女演员陈丽云被逮捕!

许三岁
2026-03-28 09:24:30
东部首轮对阵发生变动,骑士VS猛龙、尼克斯VS老鹰

东部首轮对阵发生变动,骑士VS猛龙、尼克斯VS老鹰

静易墨
2026-04-13 18:57:50
美国终于开始害怕?比稀土更致命王牌出手了,万斯:中国要冷静

美国终于开始害怕?比稀土更致命王牌出手了,万斯:中国要冷静

混沌录
2026-04-10 22:53:19
油价暴涨!比亚迪在澳大利亚遭疯抢 3月暴增2万台订单

油价暴涨!比亚迪在澳大利亚遭疯抢 3月暴增2万台订单

快科技
2026-04-13 15:15:13
抗癌成功,年收入千万,重获新生的52岁叶檀,仍有2个人生遗憾

抗癌成功,年收入千万,重获新生的52岁叶檀,仍有2个人生遗憾

楠楠自语
2026-04-13 14:59:31
美伊和谈宣告失败,特朗普警告中国:禁止军援伊朗,否则后果严重

美伊和谈宣告失败,特朗普警告中国:禁止军援伊朗,否则后果严重

阿校谈史
2026-04-13 18:01:14
“他搂着我腰,亲我脸颊”:若我接受潜规则,他就在判决时偏向我

“他搂着我腰,亲我脸颊”:若我接受潜规则,他就在判决时偏向我

汉史趣闻
2026-04-12 16:39:57
西班牙首相和夫人逛北京什刹海,夫人穿七分裤超精致优雅

西班牙首相和夫人逛北京什刹海,夫人穿七分裤超精致优雅

点点细语
2026-04-13 09:44:52
2026-04-13 19:44:49
电脑报 incentive-icons
电脑报
创刊于1992年的计算机报
26861文章数 211713关注度
往期回顾 全部

数码要闻

性能与生态双突破 荣耀WIN游戏本赢者通吃

头条要闻

媒体:欧尔班败选不仅是一国之事 牵扯到与中国的关系

头条要闻

媒体:欧尔班败选不仅是一国之事 牵扯到与中国的关系

体育要闻

一支球队不够烂,也是一种悲哀

娱乐要闻

贾玲减重后现身冯巩生日宴 身材未反弹

财经要闻

起底AI"造黄"灰产:19.9元"一键脱衣"

科技要闻

"抄作业"近四年,马斯克版微信周五上线

汽车要闻

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

本地
数码
房产
公开课
军事航空

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

数码要闻

售价超两万 壹号本锐龙AI Max+ 395迷你AI工作站上架

房产要闻

6000亿投资盛宴,全球巨头齐聚,海南又要干件大事!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:今晚10点封锁伊朗 对北约非常失望

无障碍浏览 进入关怀版