网易首页 > 网易号 > 正文 申请入驻

倪亚宇:面向端侧智能应用,国科微打造更高效的NPU与工具链

0
分享至

4月1日,在2026中国IC领袖峰会“边缘AI与算力芯片”垂直技术论坛上,国科微AI算法部部长倪亚宇发表题为《FlashAttention-4:新一代大模型推理NPU流水线范式设计》的主题演讲。



随着大模型加速走向产业落地,推理效率、内存带宽与系统功耗成为端侧部署的关键瓶颈。尤其在Transformer与大型语言模型持续演进的背景下,注意力机制(Attention)的高效实现,已成为芯片架构与工具链优化的重要突破口。

倪亚宇表示,国科微正聚焦FlashAttention等前沿技术在NPU平台上的落地探索,推动构建更适合端侧量产部署的NPU架构与工具链,为自动驾驶、边缘计算、智能终端及AIGC等场景提供高效能算力支撑。

NPU部署“满血版”FlashAttention仍面临挑战

作为大模型中的核心计算结构之一,注意力机制在实际运行中普遍面临访存开销高、流水线效率受限等问题。FlashAttention的提出,为解决这一问题提供了新的路径。

FlashAttention是由斯坦福大学Tri Dao等人于2022年提出的一种快速且内存高效的精确注意力算法。它通过对注意力计算过程进行等价重构,通过分块计算、在线Softmax、重计算与异步流水等方式,将中间计算过程保留在片上缓存中,减少外部存储访问带宽压力,显著提升推理效率。

在刚刚过去的3月中旬,FlashAttention 4.0版本正式发布。倪亚宇指出,FlashAttention从1.0演进至4.0,在并行性、长序列支持、低精度计算及异步执行等方面持续增强。但相较GPU,当前NPU在向量单元算力、异步流水排布、动态调度及超长上下文等能力上仍存差距。倪亚宇指出,要实现“满血版”FlashAttention,需围绕计算流水线、数据复用与系统带宽进行协同设计。



国科微NPU 4.0:构建更高效的推理单元

自2020年起,国科微持续投入NPU自主研发,形成从GKNPU 1.0到4.0的演进路线,产品能力向更高算力、更广模型覆盖与更优能效比升级。目前,国科微AI视觉与车载AI系列芯片已搭载3.0版本NPU,支持0.5T至8T算力,支持视觉、音频、时序等AI模型在端侧芯片应用落地。

在GKNPU 4.0架构设计中,国科微提出面向高效注意力计算的增强型脉动阵列架构,针对性扩展矩阵和向量计算能力,强化对大模型注意力机制中的关键操作的支持,压缩数据搬运路径与流水线开销,增强片上闭环计算能力。该设计旨在减少对外部带宽的依赖,提升推理链路执行效率,有效应对大模型推理中的带宽瓶颈、激活值碎片化及超长上下文的内存压力。

强化工具链,推动高效规模化部署

在NPU架构演进的同时,国科微持续强化工具链能力。新一代GKToolchain 3.0面向端侧异构算力场景,重点提升硬件感知编译、自动分块、自动向量化、异步数据读写与计算流水编排能力,推动模型部署从“可适配”迈向“高效率、可规模化”。

同时,工具链围绕动态内存管理、投机推理加速等前沿方向持续演进,增强对长上下文管理及复杂推理流程的支撑能力,助力客户高效完成从模型到芯片的部署闭环。

随着AI应用从训练侧走向推理侧、从云端走向终端,产业对算力平台的要求正从“高峰值性能”转向“高能效、可量产、易部署”的综合能力。NPU在端侧规模化落地中具备显著的成本与功耗优势。

倪亚宇表示,国科微将持续坚持算法与硬件协同创新,围绕大模型推理核心瓶颈,不断完善NPU架构、产品能力与工具链体系,推动端侧智能计算平台向更高性能、更低功耗、更强工程可落地方向演进,为客户提供更具竞争力的算力方案。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
以色列人痛哭流涕,伊朗的强硬反击,让以色列面临亡国灭种的危机

以色列人痛哭流涕,伊朗的强硬反击,让以色列面临亡国灭种的危机

农夫史记
2026-03-29 21:00:30
孙颖莎真正的对手,不是王曼昱,而是有天赋的年轻球员

孙颖莎真正的对手,不是王曼昱,而是有天赋的年轻球员

子水体娱
2026-04-11 00:12:28
俄军败退基辅四周年!莫斯科竟还让乌克兰主动撤出顿巴斯

俄军败退基辅四周年!莫斯科竟还让乌克兰主动撤出顿巴斯

项鹏飞
2026-04-02 20:36:35
4月10日俄乌:“无人机防线”夺回主动权

4月10日俄乌:“无人机防线”夺回主动权

山河路口
2026-04-10 18:17:42
2025年我国留学回国人数达53.56万

2025年我国留学回国人数达53.56万

澎湃新闻
2026-04-10 10:00:07
56岁女人哭诉:再婚之后,50岁老伴每天不停地折腾我,后悔再婚

56岁女人哭诉:再婚之后,50岁老伴每天不停地折腾我,后悔再婚

惟来
2026-04-09 08:32:57
中央明确:社保最低缴费年限要提高,70、80后早做准备

中央明确:社保最低缴费年限要提高,70、80后早做准备

混沌录
2026-04-10 17:39:15
中方的资本,已经开始不受管控了,政府必须要提高警惕!

中方的资本,已经开始不受管控了,政府必须要提高警惕!

大静吖
2026-02-07 23:30:36
台北市长满意度近七成,国民党支持率却跌破三成。

台北市长满意度近七成,国民党支持率却跌破三成。

吃货的分享
2026-04-09 17:48:49
震惊!有人直接把月供干到了0.44元,直言在职场上彻底没“弱点”

震惊!有人直接把月供干到了0.44元,直言在职场上彻底没“弱点”

火山詩话
2026-03-19 08:38:38
伊丽莎白女王临终合影:最后的48小时,她还在强撑着履行天职

伊丽莎白女王临终合影:最后的48小时,她还在强撑着履行天职

世界王室那些事
2026-04-08 12:07:40
黄志忠牵手柯蓝捧场张国立话剧,男方眼神不自然,拍拖15年不结婚

黄志忠牵手柯蓝捧场张国立话剧,男方眼神不自然,拍拖15年不结婚

黔乡小姊妹
2026-04-10 11:12:10
伊朗凌晨紧急发文,最高领袖决定退让一步,全世界长舒一口气

伊朗凌晨紧急发文,最高领袖决定退让一步,全世界长舒一口气

无人倾听无人倾听
2026-04-08 10:20:41
人类灭亡已成定局?马斯克预言人类灭绝方式,科学家早已算出日期

人类灭亡已成定局?马斯克预言人类灭绝方式,科学家早已算出日期

福建平子
2026-04-06 09:52:06
郑丽文走进人民大会堂前,有两位随行引人瞩目,民进党撒弥天大谎

郑丽文走进人民大会堂前,有两位随行引人瞩目,民进党撒弥天大谎

你得漂亮
2026-04-11 03:04:37
亚锦赛四强出炉:国羽6胜4负,高昉洁职业生涯谢幕

亚锦赛四强出炉:国羽6胜4负,高昉洁职业生涯谢幕

曾蠃爱旅行
2026-04-11 04:30:27
日本电动汽车销量大涨80%,比亚迪却卖不动了?

日本电动汽车销量大涨80%,比亚迪却卖不动了?

热点科技
2026-04-08 13:06:00
中央15个巡视组出手了!36家巡视对象公布,这些领域严查到底!

中央15个巡视组出手了!36家巡视对象公布,这些领域严查到底!

细说职场
2026-04-10 16:54:21
日本刚降级对华关系,被曝53条中日航线全部取消,中方反应很平静

日本刚降级对华关系,被曝53条中日航线全部取消,中方反应很平静

坠入二次元的海洋
2026-04-11 03:45:17
房价将有大变局?若不出意外,2026年开始二手房价将迎5大新走势

房价将有大变局?若不出意外,2026年开始二手房价将迎5大新走势

林子说事
2026-04-10 12:28:49
2026-04-11 06:00:49
爱集微 incentive-icons
爱集微
集微网官方账号
109360文章数 98342关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

李强主持召开经济形势专家和企业家座谈会

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

家居
教育
艺术
健康
本地

家居要闻

复古风格 自然简约

教育要闻

既不惩罚也不骄纵的智慧

艺术要闻

曾熙『仿思翁山水册』

干细胞抗衰4大误区,90%的人都中招

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

无障碍浏览 进入关怀版