11月13日,国内领先的芯片IP设计与服务提供商安谋科技(中国)有限公司(简称“安谋科技Arm China”)在上海发布新一代NPU IP “周易”X3。基于专为大模型而生的最新DSP+DSA架构,“周易”X3 致力于打造端侧AI计算效率新标杆,在性能、功能与易用性等方面全面跃升,面向基础设施、智能汽车、移动终端、智能物联网四大领域,这是安谋科技Arm China“All in AI”产品战略下首款重磅产品,以及“AI Arm CHINA”战略发展方向的关键实践,为加速卡、智能座舱、ADAS(高级驾驶辅助系统)、具身智能、AI PC、AI手机、智能网关、智能IPC(网络摄像机)等设备带来前所未有的AI计算体验。
![]()
前瞻布局,让端侧大模型“跑得稳、答得顺”
在半导体IP领域,“面向未来5年的产品方向进行前瞻布局”已成为行业共识——涵盖IP研发、芯片及终端产品研发量产。安谋科技Arm China前瞻性地在“周易”X3中采用兼顾CNN与Transformer的通用架构设计,支持全算力类型并增强浮点运算FLOPS,助力实现从定点到浮点计算的关键转变,并满足大模型计算需求,为未来5年Gen AI、Agentic AI与Physical AI的端侧落地奠定技术基石。
随着AI大模型技术的飞速发展,智能手机、AI PC和智能汽车等端侧设备正迎来AI能力的爆发性需求。从多模态语音助手到实时图像生成,从智能座舱交互到辅助驾驶决策,端侧设备需要承载越来越复杂的AI计算任务。然而,端侧AI部署面临算力受限、能效要求高、带宽瓶颈、开发门槛高等多重挑战——如何在有限的功耗和算力资源下实现大模型的高效运行,成为行业亟需突破的关键难题。
“周易”X3从计算效率、带宽、精度适配、任务处理四大维度升级,精准解决端侧AI大模型运行难题。其单Cluster最高支持4个Core,拥有8~80 FP8 TFLOPS算力且可灵活配置,单Core带宽高达256GB/s。相较于“周易”X2产品,“周易”X3的CNN模型性能提升30%~50%,多核算力线性度达到70%~80%。在同算力规格下,AIGC大模型能力较上一代产品实现10倍增长,这得益于16倍的FP16 TFLOPS、4倍的计算核心带宽、超过10倍的Softmax和LayerNorm性能提升共同驱动。
![]()
借助这些优化,端侧大模型推理将更高效:在Llama2 7B大模型实测中,“周易”X3 NPU IP在Prefill阶段算力利用率高达72%,并在安谋科技Arm China自研的解压硬件WDC加持下,实现Decode阶段有效带宽利用率超100%,远超行业平均水平,满足大模型解码阶段的高吞吐需求。
“周易”X3在架构层面实现了多项创新,如集成AI专属硬件引擎AIFF(AI Fixed-Function)与专用硬化调度器,实现超低至0.5%的CPU负载与低调度延迟,灵活支持端侧多任务场景和任意优先级调度场景,确保高优先级任务的即时响应。
安谋科技Arm China NPU产品线负责人兼首席架构师舒浩博士介绍:“‘周易’X3的产品优势,源于通用、灵活、高效且软硬协同的系统架构设计,这使其兼具广泛的行业适用性与灵活的边端侧AI应用场景匹配能力。”
软硬协同,Compass AI软件平台提升开发效率
除了高性能硬件,“周易”X3 NPU IP还配套完善易用的“周易”Compass AI软件平台,通过“软硬一体”的协同设计,提升开发者部署效率。
![]()
Compass AI软件平台通过覆盖开发全流程的工具链、易用性优化与开放的生态布局,破解端侧AI开发“适配难、周期长、门槛高”的痛点。作为核心工具,平台中的NN Compiler(神经网络编译器)集成Parser(模型解析)、Optimizer(优化器)、GBuilder(生成器)及AIPULLM(大模型运行工具),可实现主流模型的高效转化、自动化优化与部署配置生成,亮点包括:
l 支持超160种算子与270种模型,兼容TensorFlow、ONNX、PyTorch、Hugging Face等主流AI框架,提供开箱即用的Model Zoo。
l 通过AIPULLM工具链,直接支持Hugging Face格式模型,实现“一站式”转化与部署,极大降低开发门槛。
l 实现业界领先的大模型动态shape支持,高效处理任意长度输入序列;同时提供包括Tensor/Channel/Token Level多样量化方式,以及GPTQ等大模型主流量化方案,并增加对LLM/VLM/VLA及MoE等模型的高性能支持,保障推理精度并实现云到端快速迁移。
l 提供多种开放接口,支持用户模型与自定义算子的开发与调试;配备丰富的调试工具与Bit精度软件仿真平台,支持多层次白盒开发与性能调优,极大简化算法移植与部署。
全面的系统与异构兼容:支持Android、Linux、RTOS、QNX等多种操作系统,并通过TVM/ONNX实现SoC异构计算,高效调度CPU、GPU、NPU等计算资源。
安谋科技Arm China产品总监鲍敏祺指出:“‘周易’X3提供从硬件、软件到售后服务的全链路支持,以前瞻性设计、专业团队交付与深度服务投入,助力客户产品成功与商业化落地。”
端侧AI迈向“全民普及”,打造端侧算力底座
新一代“周易”X3 NPU IP将端侧智能的边界拓展至更广阔的应用场景:
l 基础设施领域:在加速卡场景中,“周易”X3 NPU IP支持CNN与大模型等多样结构的AI模型高效加速,为数据中心及边缘计算节点提供核心算力。
l 智能汽车领域:“周易”X3 NPU IP同时赋能智能驾驶与智能座舱:在ADAS系统中,可为自动泊车等辅助驾驶功能提供高性能AI算力支持;在IVI(车载信息娱乐系统)中,支持基于语音与车内外视频图像输入的智能互动。
l 移动终端领域:在AI PC、AI手机上,“周易”X3 NPU IP可实现超分渲染,提升显示分辨率,并支持基于大模型的AI Agent应用,为用户带来更智能、更流畅的交互体验。
l 智能物联网领域:在智能网关、智能IPC等设备中,“周易”X3 NPU IP支持本地AI推理,实现更快响应与更智能的终端体验,满足边缘设备对实时性与隐私保护的高要求。
![]()
从“周易”Z1的基础感知到“周易”X3的复杂认知,安谋科技Arm China这一技术演进路径表明,端侧AI正在从单一的功能实现,迈向融合多种模型、适应动态场景的“全民普及”新阶段。“周易”X3 NPU IP的设计预判端侧AI的“场景深化”趋势,以极致算力表现破解“多模型融合”的算力需求,以全算力类型并增强浮点运算FLOPS适配“精度动态演变”的场景差异,借助软硬协同的生态打造端侧算力底座。
![]()
安谋科技Arm China产品研发副总裁刘浩表示:“在‘All in AI’战略指引下,我们将持续加大投入,以前瞻性视野整合顶尖研发资源,秉持开放合作理念,为生态伙伴提供业界领先的从硬件、软件到服务的端到端解决方案,全力赋能产品创新和商业化落地。”
安谋科技Arm China为一家独立运营的合资企业,立足本土创新,以自研业务技术创新与Arm技术授权相配合,为中国集成电路产业提供产品组合和解决方案,赋能中国智能计算“芯”生态。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.