北京大学团队在智能计算硬件方面取得领先突破,国际上首次实现了“基于存算一体技术的高效排序架构”(A fast and reconfigurable sort-in-memory system based on memristors),解决了传统计算架构面对复杂非线性排序问题时计算效率低下的瓶颈问题,将为具身智能、大语言模型、智能驾驶、智慧交通、智慧城市等人工智能应用提供更高效算力支持。该成果由北京大学集成电路学院杨玉超教授、人工智能研究院陶耀宇研究员组成的团队完成,已在国际顶级学术期刊《自然∙电子》上发表。
核心技术突破
该成果面向非线性排序这一长期未被攻克的核心问题,首次在国际上实现了其在存算一体架构下的高效加速。科研团队围绕“让数据就地排序”的第一性原理目标,在存算一体架构上攻克了多个核心技术难题。比如,开创性地引入了“忆阻器阵列”,实现了低延迟、多通路的硬件级并行排序电路设计。又如,在算子层面,优化了面向人工智能任务的算法—架构协同路径,同时兼容现有矩阵计算。
技术核心在于:
提出兼容现有存内矩阵计算的排序架构设计,实现了3.3至7.7倍的速度提升;
采用先进的忆阻器件,在能效方面实现了6.23倍至183.5倍的提升,显著降低系统运行成本;支持多数据精度与多通道并行策略,打破传统排序模式下“精度固定”“难以并行”的限制;设计实现从器件到架构的全链条方案,具备完全国产化、自主可控能力。
成果不仅解决了排序这一“硬骨头”问题,更打通了存算一体技术在复杂系统中的应用链条,为推动新质生产力在工业智能、科研自动化和社会服务中的落地提供了关键支撑。
存算一体架构中难啃的“硬骨头”
排序,作为人工智能系统中最常用、最耗时的基础操作之一,广泛存在于自然语言处理、信息检索、图神经网络、智能决策等人工智能相关领域中。在传统的冯·诺依曼计算架构中,处理器与存储器分离的特点导致数据被频繁搬运,严重制约了计算速度和系统能效,因此将存储与计算融合的“存算一体”架构是突破硬件性能的必由之路。
近年来“存算一体”被认为是突破传统硬件架构计算瓶颈的关键技术,已经在矩阵计算等规则性强的数值计算中取得显著成果。然而由于排序存在逻辑复杂、操作非线性、数据访问不规则,缺乏通用、高效的硬件排序原语等诸多障碍,目前国际主流的存算一体架构均无法解决排序问题,这一难题成为了制约下一代人工智能计算硬件发展的前沿焦点与核心卡点问题。
科研团队围绕“让数据就地排序”的第一性原理目标,在存算一体架构上攻克了多个核心技术难题,实现了排序速度与能效的数量级提升。主要突破包括:首先,开发了一套基于新型存内阵列结构的高并行比较机制;第二,开创性地引入了“忆阻器阵列”,实现了低延迟、多通路的硬件级并行排序电路设计;第三,在算子层面,优化了面向人工智能任务的算法-架构协同路径,同时兼容现有矩阵计算;第四,完全自主设计的器件-电路-系统级技术栈整合。
在人工智能系统中,排序通常作为数据预处理或决策中间环节存在,一旦执行效率不高,将成为整个系统的主要瓶颈。论文第一作者、北京大学集成电路学院博士生余连风介绍道,“排序的核心是比较运算,需要精准地实现‘条件判断+数据搬移’,在复杂的应用场景中,要对不同因素的优先级进行比较,因此排序的逻辑非常复杂。一般排序过程需要构建支持多级‘比较-选择’的比较器单元,而传统存算一体架构主要面向‘乘加’、‘累加’等操作,难以支持这样的复杂运算,我们的工作成功解决了这一难题,设计了一种‘无比较器’的存算一体排序架构。”
据实测结果显示,该硬件方案在典型排序任务中提升速度超15倍,面积效率提升超过32倍,具备并行处理百万级数据元素排序任务的潜力,功耗仅为传统CPU或GPU处理器的1/10。在人工智能推理场景中,支持动态稀疏度下的推理响应速度可提升70%以上,特别适用于要求极高实时性的任务环境。
论文通讯作者、北京大学人工智能研究院陶耀宇研究员说,“正因为排序计算在人工智能中是高频、通用、基础且极难处理的一类操作,这一难题的突破意味着存算一体从‘适合特定应用’走向‘可支持更广泛的通用计算’,为人工智能相关任务构建了全链路的底层硬件架构支持。”
为下一代AI技术提供坚实底座
近年来,存算一体架构在科研和产业界都备受关注,并且发展迅速。目前,这一领域的主流研究方向集中在矩阵运算、卷积计算等线性代数操作上,相关技术已经广泛应用于深度学习加速器中。例如,基于忆阻器(RRAM)、相变存储器(PCM)等新型存储器件的阵列结构,能够高效地执行矩阵乘法、向量 - 矩阵乘法等任务,并且在图像识别、语音处理等应用中表现出了出色的性能。
然而,现有的存算一体设计大多依赖规则化的数据流模式和高度结构化的计算任务。一旦遇到涉及复杂控制流和频繁逻辑判断的计算任务,系统的灵活性和性能就会受到严重影响。
排序操作本质上是一种典型的非线性、多分支运算。其核心在于大量的元素比较、条件判断以及数据重排。这些特点使得排序操作难以直接映射到现有的存内计算阵列中,尤其是逻辑操作和数据移动无法像矩阵运算那样依赖稀疏性或并行特性来加速。
因此,排序一直被认为是存算一体技术发展中的一个难题:
控制复杂:需要精确控制比较顺序和条件跳转;
数据重排:涉及动态内存读写以及结果移动;
并行困难:数据之间存在强依赖关系,难以充分发挥存算一体的并行计算能力。
当前,随着人工智能技术正与物理世界加速融合,算力已从“服务算法”演化为“主导能力边界”的战略资源。存算一体超高性能排序加速架构的成功突破,不仅是一次架构创新的胜利,更是将科研成果转化为实际应用、服务国家重大战略需求的重要行动。该成果未来有望广泛应用于国产智能芯片、边缘AI设备、智能制造终端、智慧城市系统等关键领域,为我国在下一代AI技术与智能硬件竞争中提供坚实底座,也为构建安全、高效、自主可控的新一代智能算力体系提供了“加速引擎”。
- End -
AI 浪潮席卷而来,你准备好了吗?
7 月 12 日苏州 ICDIA 2025 创芯展 AI 开发者大会,破解工程化难题,预见未来蓝海!摩尔线程等大咖分享,速来抢占先机,扫码报名。
RISC-V 2030 研究报告
芯榜正撰写《RISC-V 2030 研究报告》白皮书,意义重大,诚邀企业加入共构生态。RISC-V 是中国打破芯片技术封锁、实现自主可控的关键,可降企研发成本。有意者加微信 105887(注明 RISC-V)共筑未来。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.