(原标题:安谋科技发布“周易”X3 NPU IP,软硬件协同驱动大模型普惠落地)
随着AI加速向设备端渗透,端侧算力正面临前所未有的挑战。单纯追求峰值算力已无法满足复杂AI任务的需求,一个兼具高效计算、超大带宽与成熟软件生态的算力底座,成为产业规模化部署的关键。
为此,安谋科技正式发布其新一代NPU IP“周易”X3。此次升级并非简单迭代,而是一次基于对技术趋势与行业痛点的精准研判,从底层架构上进行革新的重要发布。新产品定位“专为大模型而生”,采用最新的DSP+DSA架构,致力于为基础设施、智能汽车、移动终端、智能物联网四大领域提供核心AI动力,旨在打造端侧AI计算效率的新标杆。

一、架构革新:通用、灵活、高效,决胜大模型算力与带宽
“周易”X3最核心的特点是构建了一个通用、灵活、高效且软硬件紧密协同的计算架构。它成功兼顾了传统CNN与主流的Transformer架构,确保能够满足各类端侧大模型的多元化计算需求。
在硬件性能上,X3实现了多项关键突破:
强劲可扩展算力:单Cluster算力支持8-80 TFLOPS(FP8),可根据应用场景灵活配置。
突破性带宽能力:单核心带宽高达256GB/s,有效打通了大模型运行的“生命线”,确保数据高速吞吐,直接影响模型的响应速度与性能。
先进计算与解压技术:支持W4A8/W4A16等端侧大模型必备的加速模式,并集成自研硬件解压引擎WDC,通过对模型权重的软件无损压缩与硬件解压,可获得额外约15%的等效带宽,显著提升计算效率与密度。

二、系统级优化:超低负载,解锁流畅多任务AI体验
为全面提升端侧设备的整体AI体验,“周易”X3平台进行了一项关键创新:集成了专为AI计算打造的硬件引擎AIFF,并与专用硬化调度器深度协同,构成了高效的AI任务处理核心。
这一组合带来了显著的性能突破。传统方案中,AI任务往往需要CPU频繁介入调度与协调,导致系统资源被大量占用。而“周易”X3通过硬件级的专属调度,将CPU从繁重的协调工作中彻底解放,使其负载得以大幅降低至惊人的0.5%水平。同时,专用硬化调度器实现了极低的调度延迟,确保了AI任务响应的即时性。
这意味着,即使在NPU并行处理语音识别、实时图像增强、环境感知等多重AI任务的复杂场景下,整个系统的资源占用也依然维持在极低水平。用户获得的不再是卡顿或延迟,而是高效、流畅且即时响应的无缝体验。这一根本性的提升,为运行需要同时调用多种AI能力的复杂多模态交互应用扫清了核心障碍,使得在端侧设备上实现如同真人般自然、连续的“听、看、懂、答”一体化交互成为可能,真正开启了全场景智能体验的新篇章。

三、软件生态:“金牌辅助”Compass平台,大幅降低开发门槛
强大的硬件需要同样出色的软件来释放其潜力。“周易”X3与历经多轮迭代的 “周易”NPU Compass AI软件平台紧密协同,构成了端到端的解决方案。该平台被誉为“金牌辅助”,具备以下关键能力:
广泛兼容性:完美兼容TensorFlow、ONNX、PyTorch等主流AI框架,并支持Hugging Face模型库。
全面模型支持:支持LLM、VLM、VLA、MoE等多种模型类型,算子数量超过160个,模型数量超过270个。
先进工具链:提供统一的端到端工具链,支持主流量化方案(如GPTQ)、大模型动态Shape以及用户自定义算子的开发与调试,赋能客户进行差异化设计,显著降低开发门槛。

四、深度协同成效:性能倍增,充分释放硬件潜力
软硬件的深度协同带来了实实在在的性能飞跃。实测数据显示:CNN模型性能相较上一代提升30-50%。在相同算力规格下,AIGC大模型能力提升了约10倍。多核算力线性度达70-80%,大模型Prefill阶段算力利用率提升至72%,尤其是在开启WDC引擎后,Decode阶段的有效带宽利用率超过100%,充分证明了其释放硬件算力潜力的卓越能力。

结语
“周易”X3的发布,不仅是安谋科技在NPU领域长期技术积淀的集中体现,更是对端侧AI算力瓶颈的一次有力回应。通过其架构革新与软硬件协同设计,它为行业提供了一个真正高效、通用且易于开发的算力基石,必将加速智能未来在万千终端设备上的规模化部署与普及。
