1000倍提速、百倍能效!北大团队攻克模拟计算高精度难题
长期以来,计算精度一直是模拟计算发展的核心瓶颈。传统数字计算虽精准,却在矩阵运算中面临复杂度高、能耗大的问题;而模拟计算虽然速度极快,却常因噪声和非理想特性受限于“低精度”。尤其在科学计算、人工智能、无线通信等领域中,矩阵方程求解几乎是所有算法的底层核心运算,其精度直接决定了计算结果的可靠性与应用上限。如何在保持模拟计算高并行、高能效的优势下,实现与数字计算媲美的高精度求解,一直是该领域最具挑战性的难题。
近日,北京大学集成电路学院孙仲教授联合黄如院士、蔡一茂教授和王宗巍助理研究员创新提出了一种高精度、可扩展的模拟矩阵方程求解方案,利用阻变存储器(RRAM)阵列和迭代算法,将低精度模拟矩阵求逆与高精度矩阵-向量乘法相结合,在硬件上实现了24位定点精度的矩阵方程求解,精度媲美32位浮点数字处理器(FP32)。研究显示,该方案在信号检测任务中仅需三次迭代即可达到FP32级别性能,吞吐率可提升1000倍,能效提升100倍,为未来类脑模拟计算与6G通信处理器开辟了全新路线。相关成果以“Precise and scalable analogue matrix equation solving using resistive random-access memory chips”为题,发表在《Nature Electronics》上。Pushen Zuo, Qishen Wang为共同第一作者。
![]()
从“矩阵乘法”到“矩阵求逆”的跨越
在这项工作中,作者通过将低精度模拟求逆(LP-INV)与高精度模拟乘法(HP-MVM)迭代耦合,首次实现了“类数字级精度”的模拟矩阵求解(图1a)。该算法可在不依赖数字补偿的情况下,仅通过模拟电路多次迭代即可收敛至高精度结果,真正做到了“全模拟、高精度、可扩展”的矩阵运算。图1展示了模拟矩阵电路在信号处理、科学计算及神经网络训练中的典型应用场景,以及团队提出的混合精度迭代框架。与以往只能处理小规模矩阵或低精度近似的方案不同,该电路采用闭环反馈结构,使矩阵求解可在模拟域中一步完成,为解决“精度-复杂度”矛盾提供了新思路。
![]()
图1:模拟矩阵方程求解电路原理
可在芯片上运行的高精度算法
为实现高精度求解,团队基于商用40 nm工艺,设计并流片了两类RRAM芯片:一枚1兆位(1 Mb)阵列用于高精度乘法(HP-MVM),另一枚8×8阵列构成低精度求逆电路(LP-INV)(图2b)。每个存储单元均为“1晶体管-1电阻(1T1R)”结构,可在八个导电态间切换,对应3-bit分辨率。通过“逐位切片(bit-slicing)”策略,将原始矩阵A分解为若干3-bit子矩阵(A₀–A₃),再分别映射至不同阵列中,从而实现多位精度的累积运算。在算法层面,系统通过迭代更新残差rₖ和增量Δxₖ,实现逐步逼近真实解的过程。每一轮迭代中,低精度求逆电路提供近似解,高精度乘法模块计算残差修正,从而不断提升精度。实验表明(图2e),对于一个4×4矩阵,经过三次迭代后,解的误差已降至10⁻³量级,精度提升超过10倍。值得注意的是,单次低精度模拟求逆的精度仅约2.4 bit,但在迭代优化下,整体结果可稳定达到24 bit,真正实现了模拟硬件的高精度计算。同时,芯片在400个单元测试中实现100%编程成功率,稳定区间电导范围0.5–35 μS,长期稳定性优异(图2c)。这意味着该方案不仅在理论上可行,也具备良好的制造兼容性与工程潜力。
![]()
图2:高精度模拟矩阵运算芯片
从实数到复数:模拟计算的可扩展性
在实际应用中,矩阵方程往往涉及复数运算。例如在无线通信系统中,信号矩阵H通常为复值矩阵。团队提出的高精度模拟求解(HP-INV)同样支持实值与复值系统的处理,并通过“BlockAMC分块算法”实现可扩展求解(图3c)。具体来说,研究者采用“偏置列法”和“对角分离法”将复矩阵转化为可映射的正实矩阵,并在RRAM阵列中分别执行求逆与乘法操作。以一个4×4复矩阵为例(图3d),其等价于8×8实矩阵,经过10次迭代后,整体误差降至10⁻⁷量级,精度高达24 bit(图3e)。更为重要的是,该方案可通过多级分块策略扩展到更大规模(图3f)。团队在实验中成功求解了16×16实值矩阵的逆矩阵,并在硬件上完成了16次高精度迭代运算。这一结果标志着模拟矩阵计算首次在硬件上实现中等规模矩阵的FP32级精度求解,显示了极强的可扩展性与通用性。
![]()
图3:实值与复值矩阵的高精度求解。
助力6G:从理论走向通信系统
为了验证该方案的实际应用潜力,研究团队将高精度模拟求解器(HP-INV)应用于大规模多输入多输出(Massive MIMO)无线通信信号检测。该技术是5G-A和6G通信中的关键核心,涉及对矩阵HHᵀ的快速求逆与信号恢复(图4a)。实验模拟了一个16×4的MIMO系统,传输对象为“北京大学校徽”的100×100二值图像,通过256-QAM调制编码后发送。在仅进行两次迭代后,接收端恢复出的图像已与原图完全一致(图4b);进一步对644个均匀生成的信号点进行检测,所有符号均被正确识别(图4c),无误码发生。更具代表性的是,在128×8的MIMO系统下(图4e),高精度模拟求解仅三次迭代即可达到FP32数字处理器同等误码率(BER)性能。换言之,这一模拟电路方案可在数百倍能效优势下实现数字级通信检测性能,为未来6G基站信号处理芯片提供了潜在替代路径。
![]()
图4:在大规模MIMO通信系统中的应用
千倍吞吐率、百倍能效:模拟计算的新基准
研究团队进一步对模拟矩阵求解的响应速度与能效进行了量化(图5)。实验显示,模拟求逆电路(LP-INV)在120 ns内完成收敛,矩阵乘法(MVM)响应时间仅约60 ns。对于32×32规模矩阵,模拟方案的吞吐率超越GPU与ASIC芯片,在128×128规模下仍保持约10倍性能优势。综合评估表明,若在未来采用高带宽放大器(GBWP=500 MHz)优化电路,其理论能效可提升至现有数字芯片的100倍以上,吞吐率提升达1000倍。这意味着模拟矩阵计算正逐步从“研究概念”走向“可用硬件”,在能耗受限的AI推理与通信场景中展现出巨大潜力。
![]()
图5:性能基准与能效分析
展望:走向类脑时代的“高精度模拟计算”
该研究通过“低精度模拟求逆 + 高精度模拟乘法”的迭代机制,成功解决了模拟计算长期面临的精度与可扩展性难题,首次在硬件中实现了16×16矩阵的24-bit精度求解,并在6G信号检测任务中达到数字级性能。这不仅标志着模拟矩阵计算(AMC)从“低精度加速”迈向“高精度运算”,也为未来的类脑计算芯片、科学仿真及AI推理系统提供了全新的底层架构思路。研究团队表示,下一步将探索将模拟求逆与矩阵乘法模块集成于单芯片,以进一步提升系统规模与稳定性。同时,通过优化放大器带宽与电路结构,有望将响应时间缩短至20 ns级,实现更高能效与并行度。未来,模拟计算或将不再只是“加速器”的角色,而是数字计算体系之外的第三条主线。
来源:高分子科学前沿
声明:仅代表作者个人观点,作者水平有限,如有不科学之处,请在下方留言指正!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.