![]()
![]()
![]()
把端侧AI生态,向前推进一小步。
作者|刘杨楠
编辑|栗子
“你们有信心吗!”
11月13日,安谋科技Arm China“周易”X3 NPU IP发布会临近尾声,安谋科技Arm China CEO陈锋低调现身会场后方,作为现场Q&A环节的最后一位“提问者”,向台上的三位演讲者发问。这场精心安排的互动彩蛋,也将整场发布会的情绪推至高潮。
陈锋自今年2月出任CEO以来,便带领公司开启“All in AI”的产品战略,推动公司在AI领域全面投入。其中,端侧AI是安谋科技AI Arm China战略的重要方向。此次发布会主角“周易”X3便是专为端侧AI打造的NPU IP。
![]()
可陈锋的问题,或许不只是向台上的同僚提问,更是向整个端侧AI芯片设计市场提问。
当前的端侧AI市场火热之余仍面临巨大的不确定性。算法的快速迭代、市场需求的碎片化、客户对成本与性能的双重苛求,都让芯片厂商如履薄冰。
安谋科技Arm China产品研发副总裁刘浩在发布会上坦言,端侧AI正面临着前所未有的挑战。“首先是大模型的需求,它算力巨大,参数众多,对算力、带宽、存储都提出了极具挑战性的要求,形成了所谓的‘算力墙’‘面积墙’‘功耗墙’。其次是多模态的需求,输入不再只是文字,可能是图像、视频、点云、语音,这要求NPU支持更多异构算子。第三是混合专家系统(MoE)的需求,动态路由、动态任务分配,这些都需要架构具备灵活的算力调度和高带宽互联能力。”刘浩说。
![]()
安谋科技Arm China产品研发副总裁刘浩
更令人捉摸不透的,是模型迭代速度。刘浩举了一个生动的例子:“客户在芯片流片成功进入量产之际,他的模型和算法仍然需要两周一次的迭代。这就要求芯片硬件必须有足够的通用性,无论新的算子还是模型出现,硬件都能灵活支持。”
于是,端侧AI芯片IP的设计陷入了两难境地——过于专用化的架构虽然面效比、能效比高,但无法适应快速变化的算法;而过于通用化的架构虽然灵活,但能效比低下,难以满足端侧设备的严格约束。
而安谋科技Arm China在其中找到了一条四两拨千斤的生存法则,他们在进攻与防守之间找到了一个平衡点,并以此为基础,展开了一场“中庸”的突围。
1.DSP+DSA的融合与平衡
在NPU IP的设计哲学中,“灵活性”与“效率”几乎是一对永恒的矛盾 。
为了追求极致的效率,业界一度推崇DSA(Domain-Specific Architecture,专用领域架构)。这是一种为特定任务(如早期的CNN)量身定制的硬件加速器。
在处理CNN网络时,它可以实现极高的能效比,但其缺陷也同样致命,它高效但“脆弱” 。当算法范式从CNN迭代到Transformer时,那些为CNN硬化的DSA可能会几乎瞬间死机。
而与之相对的DSP(Digital Signal Processor,数字信号处理器),则是一种更通用的计算单元。它灵活,能够处理各种算法,但如果用它来硬磕Transformer所需的高密度的矩阵运算,又会显得能效比低下。
因此,“周易”X3在二者间找到了融合共存的平衡,采用了先进的DSP+DSA 融合架构。安谋科技Arm China NPU产品线负责人兼首席架构师舒浩博士将其类比为汽车的“混合动力引擎”。
![]()
安谋科技Arm China NPU产品线负责人兼首席架构师舒浩博士
在这个架构中,有两个核心计算单元。
其一是被喻为“武”的AIFF(AI Fixed-Function)引擎 ,它就是DSA的化身,具备专用向量加速能力,负责架构的效率,高效处理那些高频、重度、相对固定的计算任务,例如Transformer中必不可少的矩阵乘法和LayerNorm操作 。其二是被喻为“文”的TEC处理器(Task Execution Cell),它扮演DSP的角色,具备通用向量计算能力,负责整套架构的灵活性。
在当前大模型范式下,尽管Tensor(张量)计算占据了模型约70%的计算量,但剩下的30% Vector(向量)计算其实更为复杂其计算类型的数量约达Tensor计算的四倍以上。
Vector计算的关键在于“灵活性”而非“算力”。如果硬件无法原生支持,就不得不求助于CPU/GPU等异构方案。然而,跨设备的数据传输与同步会带来巨大成本,最终,这20%-30%的Vector工作量很可能成为制约整体性能的瓶颈。
因此,这种融合架构的好处就是兼具灵活性和高效率。对于占比高(约70%)但类型相对固定的计算任务,如矩阵运算、卷积操作等,由AIFF加速器负责,确保高效能;对于占比低(约30%)但种类繁多的计算需求,如激活函数、动态控制流等,由TEC处理器处理,保证灵活性。
同时,安谋科技Arm China提供了图灵完备的指令集,并专门为AI模型设计了约1200条向量指令,以确保功能的完备性,彻底消除此类瓶颈。
这种“文武双全”的协同设计,带来了惊人的性能飞跃。以Transformer模型中极为关键的Softmax算子为例,通过DSP和DSA的深度协同优化,“周易”X3实现了10倍的性能提升 。
更重要的是,这种架构平衡还解决了一个系统级的效率难题——降低不必要的CPU负载。
传统NPU在执行任务时,需要CPU的频繁介入和调度。而“周易”X3集成了专用的硬化调度器。所谓“硬化”,就是将原本需要软件在CPU上执行的调度任务,直接用硬件电路在NPU内部实现。这带来了一个革命性的成果:NPU在并行处理多项AI任务时,对主CPU的资源占用降低至0.5% 。
这使得NPU几乎可以“自给自足”,将宝贵的CPU资源释放给其他应用,真正实现了高效的异构计算。
虽然“DSP+DSA”的混合架构解决了计算灵活性的问题,平衡了专用计算的高效率与通用计算的灵活性。但在真实端侧AI场景中,模型完成一个任务往往需要经过多次推理,如何在高效、灵活度同时,保持足够的准确性,是影响模型在端侧应用效果的关键,这就需要在数据精度上做文章。
2.从定点到混合浮点,让模型更聪明
我们先来厘清两个概念:TOPS(Tera Operations Per Second)和TFLOPS(Tera Floating Point Operations Per Second)。
TOPS通常指的是每秒万亿次定点运算,这是一种低精度、高效率的计算方式,但容易在复杂运算中损失精度;而TFLOPS指的是每秒万亿次浮点运算,浮点计算能够保留小数,精度更高,更适合AI大模型复杂的推理过程。
传统的端侧NPU大多采用INT8定点计算,这种方式虽然能效比高,但在处理复杂大模型时精度损失严重。
因此,“周易”X3大胆地转向了浮点计算,并创新性地采用了W4A8/W4A16的混合精度模式,即模型权重(Weight)采用4位整数,激活值(Activation)采用8位或16位浮点。
安谋科技Arm China产品总监鲍敏祺解释了这一选择的背后逻辑:“大模型90%的带宽消耗来自权重,这意味着,要想模型流畅运行,就要想尽一切办法降低模型权重的比特数,所以我们采用W4低比特来解决存储和带宽问题;而激活值是模型精度的生命线,如果精度太低,经过几次推理后结果就会完全失真,采用浮点计算可以保证模型的‘智能’和准确性,避免出现‘胡说八道’的情况。”
![]()
安谋科技Arm China产品总监鲍敏祺
此外,从定点转向浮点,还能让客户省去复杂且耗时的量化过程。“量化”是指将模型从高精度的浮点格式(如FP32)压缩到低精度的定点格式(如INT8)的过程,这个过程费时费力,且常常伴随精度受损的风险 。
然而,纯浮点计算也并非完美方案,其对端侧设备的带宽和功耗而言是难以承受的。
因此,“周易”X3采用了W4A8 / W4A16的低精度混合计算方案。“W4”代表将模型权重压缩至4比特,极大地压缩了模型的体积,同时也降低了数据搬运量;“A8/A16”意味着计算过程中的中间数据被保留在8比特或16比特的浮点格式。
W4A8/A16的混合精度方案,是“周易”X3在模型精度与系统带宽限制之间找到的最佳平衡点 。它在有效降低模型体积和带宽占用的同时,最大限度地保留了LLM的推理精度。
“周易”X3还支持int4 / int8 / int16 / int32 / fp4 / fp8 / fp16 / bf16 / fp32多精度融合计算,强浮点计算,可灵活适配智能手机边缘部署、AI PC推理、智能汽车等从传统CNN到前沿大模型的数据类型需求,平衡性能与能效。
不过,W4A8/W4A16的混合精度固然是一个精妙的取舍,能在有限的硬件资源下实现大模型的高效推理,但对于大模型而言,权重参数动辄数十亿,即使采用低比特压缩,仍需要巨大的内存带宽来支撑数据吞吐。
3.如何打通内存墙,提升有效带宽?
在芯片设计中,算力的提升相对容易,但带宽的增长却受限于物理封装工艺、功耗和成本等因素。
这就导致了一个普遍的尴尬局面:NPU的计算单元,如X3的AIFF引擎快如闪电,但它们大部分时间都在空转,被动地等待数据从缓慢的主内存(DDR)中搬运过来。此时,芯片上再高的纸面算力都只是摆设。
“周易”X3的策略则是不盲目堆砌纸面算力,聚焦于提升有效带宽,榨干硬件的每一分潜力 。
首先,X3在硬件基础上做了扎实的提升。其单Core带宽高达256GB/s,这相较于传统CNN加速器常见的64GB/s,提升整整4倍。但这只是第一步。
真正的“杀手锏”是两项软硬协同的创新。
第一项是安谋科技Arm China自研的硬件解压单元WDC(Weight Decompression Engine,权重解压缩引擎)。它与W4量化协同工作,模型权重(W4)在存入内存时,会先通过软件进行一次无损压缩;当计算单元需要这些数据时,WDC硬件会实时将其解压出来再送去计算。
这能够在不增加物理带宽的情况下,额外获得约15%的等效带宽提升 。正是凭借这项技术,经实测结果显示,在Llama2 7B模型上,“周易”X3的Prefill阶段算力利用率达到72%,Decode阶段在开启WDC的情况下有效带宽利用率超过100%。
第二项创新是动态Shape(Dynamic Shape)支持。
所谓动态 Shape,是指在AI推理过程中,每一次输入的数据量与任务规模都可能不同。传统 NPU 由于缺乏足够的通用性与灵活性,无法在运行时动态调整计算流程,通常采用“对齐”方式,将不同尺寸的输入统一处理成固定格式。这种做法不可避免会引入无效计算,浪费算力,降低整体效率。
而“周易”X3 NPU凭借其内部灵活的架构与通用处理能力,能够实现仅对有效数据执行计算,从而在动态场景下实现更高效率。经实际比对,动态Shape相较于静态定点方式,最高可带来4倍性能提升与近3倍的功耗降低。
通过WDC和动态Shape的软硬协同,X3巧妙化解了内存墙对效率的影响,将纸面算力高效转化为了用户能真实感受到的有效性能。
4.从“好用”到“用好”的关键在于软件
然而,强大的硬件特性,必须依赖高效、开放的软件工具链才能最终转化为客户价值。
在端侧AI应用碎片化的时代,一个封闭的工具链是致命的。它不仅难以快速适配海量涌现的新模型,更无法满足客户保护自身核心算法、实现差异化竞争的诉求。
“周易”X3的Compass AI软件平台则在易用性和定制化之间,构建了一种动态平衡。
![]()
在易用性上,Compass平台让X3变得“好用”。其核心的AIPULLM工具链可以支持开发者从Hugging Face上下载模型,并完成一站式转化和部署,极大降低了开发门槛 。同时,平台还支持GPTQ等大模型主流量化方案 ,让模型的快速适配成为可能。
在定制化上,Compass平台让用户真正“用好”X3。安谋科技Arm China深知,对于客户而言,最高效的算法往往是他们差异化的护城河。为了赋能客户,同时保护他们的知识产权,Compass平台采取了深度的开放策略。
首先是开放核心组件。平台将Parser(模型解析器)、Optimizer(优化器)、Linux Driver(驱动)等核心组件相继开放 。这使得开发者可以进行白盒调试,清晰地看到工具链的每一步操作,而不是面对一个无法理解的黑盒。
其次是支持自定义算子。平台提供了一种DSL(Domain-Specific Language,领域特定语言) 。通过这种专用的编程语言,客户可以在深度开发模式下,编写自己的自定义算子。这项功能至关重要,它意味着客户可以将自己最核心、最机密的算法IP,直接编译到底层硬件上运行,既能享受NPU的加速,又无需将算法细节暴露给任何人 。
![]()
“周易”NPU Compass AI软件平台
更有趣的是,安谋科技Arm China还提供了一个与硬件比特级精确的仿真器。这个“硅前”(pre-silicon)开发工具,允许客户在拿到物理芯片之前的数个月甚至一年,就开始进行软件开发、算法验证和性能调优 ,从而极大地缩短上市周期。
至此,安谋科技Arm China这场“中庸”的突围完成了严密的逻辑闭环。从应对不确定性的混合计算架构 ,到平衡精度与带宽效率的混合精度设计 ,再到榨干物理极限的带宽优化 ,最后用一套开放的软件生态将其全部赋能给客户。
回看“周易”系列NPU的研发历程,就会发现X3的发布并非一日之功,而是安谋科技Arm China NPU团队长期主义的必然兑现,整套战略背后有一个核心支点,就是安谋科技Arm China对当前市场需求和应用场景的清醒认知。
5.难而正确的“中庸之道”
回顾安谋科技Arm China的NPU布局,可以清晰地看到“周易”系列如何逐步从感知AI时代向认知智能过渡。
![]()
早期的Z1/Z2聚焦于TOPS级的“感知”能力,主要应用于AIoT的基础识别功能(如人脸识别) ;随后的中期(X1/X2)开始支持更复杂的应用,如高级汽车辅助驾驶(ADAS)和AI PC上的AIGC轻量级应用 ;而当前的X3则全面适配Transformer架构的模型需求。
可以看到,“周易”系列的产品迭代一直在围绕市场需求变化推进。“周易”X3的更新同样如此。
只是,就目前端侧AI市场来说,很多端侧用户其实并没有很清晰的算力选型策略。鲍敏祺透露,公司现有客户中可能有30%需求相对明确,而70%的客户仍在观望。这种情况下,芯片IP的架构设计必须“中庸”,不能过于激进。“万一你提前押注某个方向,但有一天忽然发现走不下去了,那基本上你就把客户一起带到沟里去了。”他说。
因此,“中庸”并非平庸。要做到真正的“灵活适配”,不仅考验安谋科技Arm China研发团队的综合实力——包括对前沿算法变化的敏锐判断,以及整个IP设计的工程化思考和执行力,更考验企业决策者的战略定力。这是一条真正困难但正确的路。
“周易”X3的核心价值,就在于它通过层层技术创新,在当前极其碎片化的端侧用户需求中找到了数个平衡点。
![]()
在架构的平衡上,它采用DSP+DSA融合架构,平衡了专用计算的效率与通用算法的灵活,确保硬件能适应未来不可知的算法迭代;在精度的平衡上,通过W4A8/W4A16混合浮点计算,平衡了LLM推理所需的精度与端侧的内存带宽限制。
这紧密关联到带宽的平衡,即通过WDC解压硬件和动态Shape支持,平衡了峰值算力与系统有效效率,解决了困扰端侧大模型的内存瓶颈 。最后,这一切又通过生态的平衡得以闭环。凭借开放的Compass AI软件平台,平衡了IP的易用性与客户的差异化定制需求,同时还保护了客户的核心知识产权。
目前,新一代“周易”X3 NPU IP将端侧智能的边界拓展至更广阔的应用场景,面向基础设施、智能汽车、移动终端、智能物联网四大领域,精准匹配当前爆发的端侧AI需求,可广泛应用于加速卡、智能座舱、ADAS、具身智能、AI PC、AI手机、智能网关、智能IPC等AI设备。
从高性能的智能驾驶到低功耗的物联网设备,每个领域对性能、功耗和成本的诉求都大相径庭,而“周易”X3的架构则给用户提供了一个“进可攻,退可守”的选择。
正如“周易”NPU的命名出处《易经》中所言:“天地交而万物通,上下交而其志同。” “周易”X3使得位于产业链不同环节、不同行业领域的合作伙伴,都能在一个统一的平台上进行开发。当更多生态玩家都能尝试在自己的场景下先迈出一步,高效部署端侧AI的有效路径,或许就会在众人的实践中迅速厘清。
(封面图以及文中配图来源:安谋科技Arm China)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.