网易首页 > 网易号 > 正文 申请入驻

安谋科技发布“周易”X3,一场“中庸”的突围 | 甲子光年

0
分享至




把端侧AI生态,向前推进一小步。

作者|刘杨楠

编辑|栗子

“你们有信心吗!”

11月13日,安谋科技Arm China“周易”X3 NPU IP发布会临近尾声,安谋科技Arm China CEO陈锋低调现身会场后方,作为现场Q&A环节的最后一位“提问者”,向台上的三位演讲者发问。这场精心安排的互动彩蛋,也将整场发布会的情绪推至高潮。

陈锋自今年2月出任CEO以来,便带领公司开启“All in AI”的产品战略,推动公司在AI领域全面投入。其中,端侧AI是安谋科技AI Arm China战略的重要方向。此次发布会主角“周易”X3便是专为端侧AI打造的NPU IP。


可陈锋的问题,或许不只是向台上的同僚提问,更是向整个端侧AI芯片设计市场提问。

当前的端侧AI市场火热之余仍面临巨大的不确定性。算法的快速迭代、市场需求的碎片化、客户对成本与性能的双重苛求,都让芯片厂商如履薄冰。

安谋科技Arm China产品研发副总裁刘浩在发布会上坦言,端侧AI正面临着前所未有的挑战。“首先是大模型的需求,它算力巨大,参数众多,对算力、带宽、存储都提出了极具挑战性的要求,形成了所谓的‘算力墙’‘面积墙’‘功耗墙’。其次是多模态的需求,输入不再只是文字,可能是图像、视频、点云、语音,这要求NPU支持更多异构算子。第三是混合专家系统(MoE)的需求,动态路由、动态任务分配,这些都需要架构具备灵活的算力调度和高带宽互联能力。”刘浩说。


安谋科技Arm China产品研发副总裁刘浩

更令人捉摸不透的,是模型迭代速度。刘浩举了一个生动的例子:“客户在芯片流片成功进入量产之际,他的模型和算法仍然需要两周一次的迭代。这就要求芯片硬件必须有足够的通用性,无论新的算子还是模型出现,硬件都能灵活支持。”

于是,端侧AI芯片IP的设计陷入了两难境地——过于专用化的架构虽然面效比、能效比高,但无法适应快速变化的算法;而过于通用化的架构虽然灵活,但能效比低下,难以满足端侧设备的严格约束。

而安谋科技Arm China在其中找到了一条四两拨千斤的生存法则,他们在进攻与防守之间找到了一个平衡点,并以此为基础,展开了一场“中庸”的突围。

1.DSP+DSA的融合与平衡

在NPU IP的设计哲学中,“灵活性”与“效率”几乎是一对永恒的矛盾 。

为了追求极致的效率,业界一度推崇DSA(Domain-Specific Architecture,专用领域架构)。这是一种为特定任务(如早期的CNN)量身定制的硬件加速器。

在处理CNN网络时,它可以实现极高的能效比,但其缺陷也同样致命,它高效但“脆弱” 。当算法范式从CNN迭代到Transformer时,那些为CNN硬化的DSA可能会几乎瞬间死机。

而与之相对的DSP(Digital Signal Processor,数字信号处理器),则是一种更通用的计算单元。它灵活,能够处理各种算法,但如果用它来硬磕Transformer所需的高密度的矩阵运算,又会显得能效比低下。

因此,“周易”X3在二者间找到了融合共存的平衡,采用了先进的DSP+DSA 融合架构。安谋科技Arm China NPU产品线负责人兼首席架构师舒浩博士将其类比为汽车的“混合动力引擎”。


安谋科技Arm China NPU产品线负责人兼首席架构师舒浩博士

在这个架构中,有两个核心计算单元。

其一是被喻为“武”的AIFF(AI Fixed-Function)引擎 ,它就是DSA的化身,具备专用向量加速能力,负责架构的效率,高效处理那些高频、重度、相对固定的计算任务,例如Transformer中必不可少的矩阵乘法和LayerNorm操作 。其二是被喻为“文”的TEC处理器(Task Execution Cell),它扮演DSP的角色,具备通用向量计算能力,负责整套架构的灵活性。

在当前大模型范式下,尽管Tensor(张量)计算占据了模型约70%的计算量,但剩下的30% Vector(向量)计算其实更为复杂其计算类型的数量约达Tensor计算的四倍以上。

Vector计算的关键在于“灵活性”而非“算力”。如果硬件无法原生支持,就不得不求助于CPU/GPU等异构方案。然而,跨设备的数据传输与同步会带来巨大成本,最终,这20%-30%的Vector工作量很可能成为制约整体性能的瓶颈。

因此,这种融合架构的好处就是兼具灵活性和高效率。对于占比高(约70%)但类型相对固定的计算任务,如矩阵运算、卷积操作等,由AIFF加速器负责,确保高效能;对于占比低(约30%)但种类繁多的计算需求,如激活函数、动态控制流等,由TEC处理器处理,保证灵活性。

同时,安谋科技Arm China提供了图灵完备的指令集,并专门为AI模型设计了约1200条向量指令,以确保功能的完备性,彻底消除此类瓶颈。

这种“文武双全”的协同设计,带来了惊人的性能飞跃。以Transformer模型中极为关键的Softmax算子为例,通过DSP和DSA的深度协同优化,“周易”X3实现了10倍的性能提升 。

更重要的是,这种架构平衡还解决了一个系统级的效率难题——降低不必要的CPU负载。

传统NPU在执行任务时,需要CPU的频繁介入和调度。而“周易”X3集成了专用的硬化调度器。所谓“硬化”,就是将原本需要软件在CPU上执行的调度任务,直接用硬件电路在NPU内部实现。这带来了一个革命性的成果:NPU在并行处理多项AI任务时,对主CPU的资源占用降低至0.5% 。

这使得NPU几乎可以“自给自足”,将宝贵的CPU资源释放给其他应用,真正实现了高效的异构计算。

虽然“DSP+DSA”的混合架构解决了计算灵活性的问题,平衡了专用计算的高效率与通用计算的灵活性。但在真实端侧AI场景中,模型完成一个任务往往需要经过多次推理,如何在高效、灵活度同时,保持足够的准确性,是影响模型在端侧应用效果的关键,这就需要在数据精度上做文章。

2.从定点到混合浮点,让模型更聪明

我们先来厘清两个概念:TOPS(Tera Operations Per Second)和TFLOPS(Tera Floating Point Operations Per Second)。

TOPS通常指的是每秒万亿次定点运算,这是一种低精度、高效率的计算方式,但容易在复杂运算中损失精度;而TFLOPS指的是每秒万亿次浮点运算,浮点计算能够保留小数,精度更高,更适合AI大模型复杂的推理过程。

传统的端侧NPU大多采用INT8定点计算,这种方式虽然能效比高,但在处理复杂大模型时精度损失严重。

因此,“周易”X3大胆地转向了浮点计算,并创新性地采用了W4A8/W4A16的混合精度模式,即模型权重(Weight)采用4位整数,激活值(Activation)采用8位或16位浮点。

安谋科技Arm China产品总监鲍敏祺解释了这一选择的背后逻辑:“大模型90%的带宽消耗来自权重,这意味着,要想模型流畅运行,就要想尽一切办法降低模型权重的比特数,所以我们采用W4低比特来解决存储和带宽问题;而激活值是模型精度的生命线,如果精度太低,经过几次推理后结果就会完全失真,采用浮点计算可以保证模型的‘智能’和准确性,避免出现‘胡说八道’的情况。”


安谋科技Arm China产品总监鲍敏祺

此外,从定点转向浮点,还能让客户省去复杂且耗时的量化过程。“量化”是指将模型从高精度的浮点格式(如FP32)压缩到低精度的定点格式(如INT8)的过程,这个过程费时费力,且常常伴随精度受损的风险 。

然而,纯浮点计算也并非完美方案,其对端侧设备的带宽和功耗而言是难以承受的。

因此,“周易”X3采用了W4A8 / W4A16的低精度混合计算方案。“W4”代表将模型权重压缩至4比特,极大地压缩了模型的体积,同时也降低了数据搬运量;“A8/A16”意味着计算过程中的中间数据被保留在8比特或16比特的浮点格式。

W4A8/A16的混合精度方案,是“周易”X3在模型精度与系统带宽限制之间找到的最佳平衡点 。它在有效降低模型体积和带宽占用的同时,最大限度地保留了LLM的推理精度。


“周易”X3还支持int4 / int8 / int16 / int32 / fp4 / fp8 / fp16 / bf16 / fp32多精度融合计算,强浮点计算,可灵活适配智能手机边缘部署、AI PC推理、智能汽车等从传统CNN到前沿大模型的数据类型需求,平衡性能与能效。

不过,W4A8/W4A16的混合精度固然是一个精妙的取舍,能在有限的硬件资源下实现大模型的高效推理,但对于大模型而言,权重参数动辄数十亿,即使采用低比特压缩,仍需要巨大的内存带宽来支撑数据吞吐。

3.如何打通内存墙,提升有效带宽?

在芯片设计中,算力的提升相对容易,但带宽的增长却受限于物理封装工艺、功耗和成本等因素。

这就导致了一个普遍的尴尬局面:NPU的计算单元,如X3的AIFF引擎快如闪电,但它们大部分时间都在空转,被动地等待数据从缓慢的主内存(DDR)中搬运过来。此时,芯片上再高的纸面算力都只是摆设。

“周易”X3的策略则是不盲目堆砌纸面算力,聚焦于提升有效带宽,榨干硬件的每一分潜力 。

首先,X3在硬件基础上做了扎实的提升。其单Core带宽高达256GB/s,这相较于传统CNN加速器常见的64GB/s,提升整整4倍。但这只是第一步。

真正的“杀手锏”是两项软硬协同的创新。

第一项是安谋科技Arm China自研的硬件解压单元WDC(Weight Decompression Engine,权重解压缩引擎)。它与W4量化协同工作,模型权重(W4)在存入内存时,会先通过软件进行一次无损压缩;当计算单元需要这些数据时,WDC硬件会实时将其解压出来再送去计算。

这能够在不增加物理带宽的情况下,额外获得约15%的等效带宽提升 。正是凭借这项技术,经实测结果显示,在Llama2 7B模型上,“周易”X3的Prefill阶段算力利用率达到72%,Decode阶段在开启WDC的情况下有效带宽利用率超过100%。

第二项创新是动态Shape(Dynamic Shape)支持。

所谓动态 Shape,是指在AI推理过程中,每一次输入的数据量与任务规模都可能不同。传统 NPU 由于缺乏足够的通用性与灵活性,无法在运行时动态调整计算流程,通常采用“对齐”方式,将不同尺寸的输入统一处理成固定格式。这种做法不可避免会引入无效计算,浪费算力,降低整体效率。

而“周易”X3 NPU凭借其内部灵活的架构与通用处理能力,能够实现仅对有效数据执行计算,从而在动态场景下实现更高效率。经实际比对,动态Shape相较于静态定点方式,最高可带来4倍性能提升与近3倍的功耗降低。

通过WDC和动态Shape的软硬协同,X3巧妙化解了内存墙对效率的影响,将纸面算力高效转化为了用户能真实感受到的有效性能。

4.从好用用好的关键在于软件

然而,强大的硬件特性,必须依赖高效、开放的软件工具链才能最终转化为客户价值。

在端侧AI应用碎片化的时代,一个封闭的工具链是致命的。它不仅难以快速适配海量涌现的新模型,更无法满足客户保护自身核心算法、实现差异化竞争的诉求。

“周易”X3的Compass AI软件平台则在易用性和定制化之间,构建了一种动态平衡。


在易用性上,Compass平台让X3变得“好用”。其核心的AIPULLM工具链可以支持开发者从Hugging Face上下载模型,并完成一站式转化和部署,极大降低了开发门槛 。同时,平台还支持GPTQ等大模型主流量化方案 ,让模型的快速适配成为可能。

在定制化上,Compass平台让用户真正“用好”X3。安谋科技Arm China深知,对于客户而言,最高效的算法往往是他们差异化的护城河。为了赋能客户,同时保护他们的知识产权,Compass平台采取了深度的开放策略。

首先是开放核心组件。平台将Parser(模型解析器)、Optimizer(优化器)、Linux Driver(驱动)等核心组件相继开放 。这使得开发者可以进行白盒调试,清晰地看到工具链的每一步操作,而不是面对一个无法理解的黑盒。

其次是支持自定义算子。平台提供了一种DSL(Domain-Specific Language,领域特定语言) 。通过这种专用的编程语言,客户可以在深度开发模式下,编写自己的自定义算子。这项功能至关重要,它意味着客户可以将自己最核心、最机密的算法IP,直接编译到底层硬件上运行,既能享受NPU的加速,又无需将算法细节暴露给任何人 。


“周易”NPU Compass AI软件平台

更有趣的是,安谋科技Arm China还提供了一个与硬件比特级精确的仿真器。这个“硅前”(pre-silicon)开发工具,允许客户在拿到物理芯片之前的数个月甚至一年,就开始进行软件开发、算法验证和性能调优 ,从而极大地缩短上市周期。

至此,安谋科技Arm China这场“中庸”的突围完成了严密的逻辑闭环。从应对不确定性的混合计算架构 ,到平衡精度与带宽效率的混合精度设计 ,再到榨干物理极限的带宽优化 ,最后用一套开放的软件生态将其全部赋能给客户。

回看“周易”系列NPU的研发历程,就会发现X3的发布并非一日之功,而是安谋科技Arm China NPU团队长期主义的必然兑现,整套战略背后有一个核心支点,就是安谋科技Arm China对当前市场需求和应用场景的清醒认知。

5.难而正确的中庸之道

回顾安谋科技Arm China的NPU布局,可以清晰地看到“周易”系列如何逐步从感知AI时代向认知智能过渡。


早期的Z1/Z2聚焦于TOPS级的“感知”能力,主要应用于AIoT的基础识别功能(如人脸识别) ;随后的中期(X1/X2)开始支持更复杂的应用,如高级汽车辅助驾驶(ADAS)和AI PC上的AIGC轻量级应用 ;而当前的X3则全面适配Transformer架构的模型需求。

可以看到,“周易”系列的产品迭代一直在围绕市场需求变化推进。“周易”X3的更新同样如此。

只是,就目前端侧AI市场来说,很多端侧用户其实并没有很清晰的算力选型策略。鲍敏祺透露,公司现有客户中可能有30%需求相对明确,而70%的客户仍在观望。这种情况下,芯片IP的架构设计必须“中庸”,不能过于激进。“万一你提前押注某个方向,但有一天忽然发现走不下去了,那基本上你就把客户一起带到沟里去了。”他说。

因此,“中庸”并非平庸。要做到真正的“灵活适配”,不仅考验安谋科技Arm China研发团队的综合实力——包括对前沿算法变化的敏锐判断,以及整个IP设计的工程化思考和执行力,更考验企业决策者的战略定力。这是一条真正困难但正确的路。

“周易”X3的核心价值,就在于它通过层层技术创新,在当前极其碎片化的端侧用户需求中找到了数个平衡点。


在架构的平衡上,它采用DSP+DSA融合架构,平衡了专用计算的效率与通用算法的灵活,确保硬件能适应未来不可知的算法迭代;在精度的平衡上,通过W4A8/W4A16混合浮点计算,平衡了LLM推理所需的精度与端侧的内存带宽限制。

这紧密关联到带宽的平衡,即通过WDC解压硬件和动态Shape支持,平衡了峰值算力与系统有效效率,解决了困扰端侧大模型的内存瓶颈 。最后,这一切又通过生态的平衡得以闭环。凭借开放的Compass AI软件平台,平衡了IP的易用性与客户的差异化定制需求,同时还保护了客户的核心知识产权。

目前,新一代“周易”X3 NPU IP将端侧智能的边界拓展至更广阔的应用场景,面向基础设施、智能汽车、移动终端、智能物联网四大领域,精准匹配当前爆发的端侧AI需求,可广泛应用于加速卡、智能座舱、ADAS、具身智能、AI PC、AI手机、智能网关、智能IPC等AI设备。

从高性能的智能驾驶到低功耗的物联网设备,每个领域对性能、功耗和成本的诉求都大相径庭,而“周易”X3的架构则给用户提供了一个“进可攻,退可守”的选择。

正如“周易”NPU的命名出处《易经》中所言:“天地交而万物通,上下交而其志同。” “周易”X3使得位于产业链不同环节、不同行业领域的合作伙伴,都能在一个统一的平台上进行开发。当更多生态玩家都能尝试在自己的场景下先迈出一步,高效部署端侧AI的有效路径,或许就会在众人的实践中迅速厘清。

(封面图以及文中配图来源:安谋科技Arm China)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太无耻!男子陈某被捕,10天找了5个美女:无非就是想白嫖

太无耻!男子陈某被捕,10天找了5个美女:无非就是想白嫖

潇湘晨报
2025-11-19 09:20:30
不好,开始还钱了!!

不好,开始还钱了!!

TopView
2025-11-18 11:32:38
刘强东三亚敬酒爆火:豪气干一壶酒,这才是大佬最真实的江湖气!

刘强东三亚敬酒爆火:豪气干一壶酒,这才是大佬最真实的江湖气!

商悟社
2025-11-18 14:32:26
靠农业农村部来解决农民规模性返乡返贫?让城市民营经济重焕活力才是唯一解决之道

靠农业农村部来解决农民规模性返乡返贫?让城市民营经济重焕活力才是唯一解决之道

虎说八道1
2025-11-19 07:04:50
10个月违法赚近9000万,最终被罚1.77亿!涉事人疑是DeepSeek创始人旗下公司核心员工

10个月违法赚近9000万,最终被罚1.77亿!涉事人疑是DeepSeek创始人旗下公司核心员工

可达鸭面面观
2025-11-19 08:59:19
嘻哈天王被太妹绿了!

嘻哈天王被太妹绿了!

八卦疯叔
2025-11-19 09:30:03
特朗普:美国当年“愚蠢地”放手,导致台湾现在生产了几乎100%的芯片,太丢脸了

特朗普:美国当年“愚蠢地”放手,导致台湾现在生产了几乎100%的芯片,太丢脸了

极目新闻
2025-11-18 22:18:48
深圳一模特大赛冠军因突破大众审美认知引发争议,有评委发文称“连评分表都没看到”,一联合主办单位回应只赞助了几千块

深圳一模特大赛冠军因突破大众审美认知引发争议,有评委发文称“连评分表都没看到”,一联合主办单位回应只赞助了几千块

极目新闻
2025-11-19 10:38:42
《哈佛深红》丨前哈佛大学校长萨默斯追求中国女性时,爱泼斯坦是他的“僚机”

《哈佛深红》丨前哈佛大学校长萨默斯追求中国女性时,爱泼斯坦是他的“僚机”

邸报
2025-11-18 10:03:34
中方代表:日本毫无资格要求成为安理会常任理事国

中方代表:日本毫无资格要求成为安理会常任理事国

国际在线
2025-11-19 07:07:07
【扫“苗”】插裤兜,非常罕见的送别动作!日方接受吗?

【扫“苗”】插裤兜,非常罕见的送别动作!日方接受吗?

新民周刊
2025-11-19 09:26:23
台湾名师区桂芝大声质问和痛斥国民党“反共”、丧失“中国”党魂

台湾名师区桂芝大声质问和痛斥国民党“反共”、丧失“中国”党魂

文史旺旺旺
2025-11-18 19:36:13
汪峰没想到,女友森林北一张体检结果,让53岁的他里子面子都没了

汪峰没想到,女友森林北一张体检结果,让53岁的他里子面子都没了

冷紫葉
2025-11-18 22:35:54
15号模特广东冠军后续:一身赘肉是何来头?最新回应:会给交代!

15号模特广东冠军后续:一身赘肉是何来头?最新回应:会给交代!

阿纂看事
2025-11-19 09:07:36
打脸!本赛季表现远超预期5大球员:湖人独占两席,基迪比肩乔丹

打脸!本赛季表现远超预期5大球员:湖人独占两席,基迪比肩乔丹

兵哥篮球故事
2025-11-19 11:55:54
几十万香港人到广东买社保医保!参保人:月交898元,退休后领4年就能回本;公立医疗排队动辄两三年,自费比内地贵几倍

几十万香港人到广东买社保医保!参保人:月交898元,退休后领4年就能回本;公立医疗排队动辄两三年,自费比内地贵几倍

每日经济新闻
2025-11-18 23:38:06
16名台湾游客点披萨被骂“狗屎中国人”!市政府“灭火”

16名台湾游客点披萨被骂“狗屎中国人”!市政府“灭火”

意烩
2025-11-18 01:35:04
世界太魔幻,高中学历骗子成我国大学首席科学家,学术圈怎么了?

世界太魔幻,高中学历骗子成我国大学首席科学家,学术圈怎么了?

李将平老师
2025-11-18 20:28:43
意大利哭晕 世界杯附加赛死亡签表浮现 首轮或遇2苦主+决赛碰波兰

意大利哭晕 世界杯附加赛死亡签表浮现 首轮或遇2苦主+决赛碰波兰

我爱英超
2025-11-19 07:14:36
半小时收费4170元!女大学生网购“上门开锁”遭遇天价账单

半小时收费4170元!女大学生网购“上门开锁”遭遇天价账单

潇湘晨报
2025-11-18 23:47:14
2025-11-19 12:11:00
甲子光年
甲子光年
中国科技产业化前沿智库
3248文章数 9253关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

女子参加模特大赛夺"广东冠军" 因突破大众审美引争议

头条要闻

女子参加模特大赛夺"广东冠军" 因突破大众审美引争议

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

又反转!曝喻恩泰出轨美女律师

财经要闻

黄金税改两周,水贝低价神话终结?

汽车要闻

脱胎换骨的优秀底盘Get 新款享界S9动态驾驶体验

态度原创

数码
艺术
时尚
旅游
教育

数码要闻

Keychron发布三款Q HE 8K键盘新品:结合TMR与8000Hz回报

艺术要闻

启功:我是画家,但书名超过了画名

拍照不用露脸也很美!4个心机pose学起来,朋友圈狂收赞

旅游要闻

嘿重庆丨一踏上这条悬空栈桥,要出片的心马上稳了

教育要闻

家里欠债百万,学霸用刷题方法写网文还清债务?这才是降维打击!

无障碍浏览 进入关怀版