网易首页 > 网易号 > 正文 申请入驻

华为清华联手,研发28nm存内计算芯片

0
分享至



论文入选ISSCC 2026。

编译 | 程茜

编辑 | Panken

芯东西2月26日消息,2月15日-19日,在被业界誉为“芯片设计国际奥林匹克会议”的国际固态电路大会(ISSCC 2026)上,清华大学、华为等大学与公司的研究人员发表论文,首次提出一款基于HYDAR框架的28nm混合存内计算(CiR)芯片的推荐系统(RecSys)加速器。



这款36M RRAM CiR芯片能实现390K QPS的吞吐率与1574K QPS/W能效比。其构建的多芯片系统可实现百万级实时端到端推荐系统(RecSys)。



▲芯片显微照片与系统概述

在实际推荐系统任务中,CiR通过扩展至576M规模的多芯片系统,QPS提升了66倍,QPS/W提升181倍,准确率与CPU相当



▲芯片性能与当前顶尖设计的对比

该芯片的核心优势包括:采用DL-ADC实现非Top-K计算的早期终止;基于预测的预取调度流水线(PPSP)数据流提升不规则工作负载的吞吐量;由粗到细的检索架构(coarse-to-fine)在保证系统召回精度的同时,可扩展至大规模应用。

推荐系统中的核心运算单元是相似向量检索(SVS),该方式通过计算查询向量与大规模向量库之间的距离,检索出Top‑K最邻近向量。

SVS会占据推荐系统绝大部分的计算时间与功耗,主要原因是外部存储器访问(EMA)开销。其中,采用混合键合技术的DRAM加速器成本高昂,基于NAND TCAM的加速器存在读取延迟高、数据与距离表示精度有限等问题。

针对上述痛点,研究人员提出一种基于RRAM的数模混合存内计算加速器HYDAR,可实现高吞吐量、高能效、高精度的SVS。

基于RRAM的存内计算(Compute-in-RRAM,CiR)因能最大限度减少数据移动、存储密度高、并行度极大,已被公认为深度学习加速的极具前景的技术路线。但将CiR应用于SVS仍会带来额外挑战,如能耗与延迟急剧增加、降低PE利用率与吞吐量、精度降低等。



▲面向高效推荐系统的、基于CiR的SVS加速器的研究动机与设计挑战

HYDAR通过CiR PE(存内计算处理单元)、混合芯片设计与多芯片系统架构协同优化,解决了上述挑战:

首先是带动态延迟ADC(DL‑ADC)的CiR PE,其通过多位模拟CiR PE集成DL‑ADC,用于基于直方图的相似向量检索,可提前将距离与检索阈值比较,并跳过非Top‑K向量,从而降低延迟与功耗。

其次是基于预测的抢占式调度流水线(PPSP),通过这种混合芯片机制,预测每个PE的运行时间、中断不平衡任务、插入短任务来平衡负载,以适应动态SVS工作流,提升利用率与吞吐量。

最后是两步由粗到精的检索架构,其软硬件协同设计框架,先在CiR PE上进行粗粒度检索以保证高吞吐量,再在数字SVS引擎上进行精粒度检索,在保证召回精度的同时最大化吞吐量。

在此基础上,基于HYDAR框架,研究人员采用28nm工艺流片实现了一款CiR原型芯片,包含36M RRAM单元,分为16个并行PE,每个PE包含一个288×4096阵列



▲HYDAR整体架构与核心特性及基于CiR的端到端检索系统

具体来看基于模拟存内计算单元(CiR PE)的直方图相似向量检索(SVS)实现,以及支持计算提前终止的DL‑ADC设计。

其通过查询向量与基础向量之间的距离分布直方图来确定Top‑K检索的截断阈值(CK)。在欧氏距离框架下,距离超过CK的基础向量由双模DL‑ADC过滤,该ADC可动态监测比较结果,实现非Top‑K向量的计算提前终止。

欧氏距离计算可在288×4096的CiR阵列上完成,其中每个2T2R单元表示一个4位维度,每一列代表一个256维基础向量及32维偏置。

本设计中,CiR PE在计算过程中将直方图存入本地直方图存储器,随后同步至跨PE直方图单元(CHU),合并分布式结果以生成CK。该论文设计了三条定制指令来执行该流程。

在DL‑ADC方面,基于逐次逼近寄存器(SAR)的结构支持提前终止模式(ET),将预生成的CK作为输入,与每个周期生成的SAR码一同送入按位比较器。

在迭代调整IDAC以逼近ADC输入电流的过程中,任何一位不匹配都表明计算结果与CK存在差异,触发提前终止,停止计算并输出2位向量掩码(vMask)。

最后,通过将DL‑ADC设置为ET模式,距离计算与过滤可同时执行。



▲基于动态延迟ADC(DL‑ADC)的直方图式SVS的CiR实现

该ET机制在数据库规模扩大时效果显著,平均减少60%的计算时间和71%的功耗,宏单元面积开销增加7%。

其次是面向SVS负载提出的基于预测的抢占式调度流水线(PPSP)。

查询在不同PE间并行计算,而每个PE参与计算的基础向量数量通常不同,这会造成计算周期差异与PE间同步开销,进而引发调度停顿与流水线气泡。

PPSP采用连续抢占式调度与动态任务调度器(DTS)解决了这一问题。

DTS会对各PE上查询执行的完成时间戳进行监测与预测。该论文提出的抢占式调度机制允许新任务抢占那些即将完成的正在运行任务,这可以消除流水线气泡、让任务更早完成、PE更快释放,以服务后续查询。

在接收到指令时,任务会占用一个DTS槽位,并将其PE/段掩码存入任务表,然后作为子任务路由到目标PE的两个待处理缓冲区之一。

DTS同时监控每个任务的预测关键结束时间(PCET),其定义为所有子任务PET的最大值。其中的仲裁器检查PE与正在运行任务的重叠情况,如果新任务的PET可以降低且不影响正在运行任务的PCET,则切换待处理缓冲区以抢占式调度新任务,从而提升吞吐量、降低延迟。

此外,在查询调度期间,DTS会在后端内存分配器中为每个查询预分配地址空间,使得PE可以直接将结果写入输出缓冲区,无需PE间同步,从而实现PE快速释放以处理新查询。



▲面向动态SVS负载的、所提出的基于预测的抢占式调度流水线(PPSP)

通过以上优化,PPSP将PE利用率提升至91%,平均查询延迟降低30%,QPS吞吐量提升1.82倍。

最后是面向SVS、基于CiR的两步检索架构。

为提升系统精度,该架构集成了数字精检索引擎,在高吞吐粗检索结果中精确筛选向量。这使得即使在模拟CiR存在噪声与低精度处理的情况下,仍能保持高召回精度。

该架构还通过多CiR芯片并行扩展了向量库容量,并支持更广泛的并行粗检索,同时采用Thresh‑IVF流程与系统流水线,进一步提升吞吐量。

CiR PE分为三类:质心PE(CPE)存储聚类中心坐标,采样PE(SPE)存储从每个聚类中采样的少量向量,用于表征分布并生成CK;全量库PE(FPE)存储所有基础向量,并全程运行在高能效的DL‑ADC提前终止(ET)模式下,在整个流程中占据92.7%的向量存储。

CiR专用的Thresh‑IVF工作流程包括查询首先送入CPE,通过IT运算计算查询与聚类中心的距离,识别最近的聚类;系统将查询路由到所选聚类的SPE,通过IH在多芯片间生成直方图,进而生成CK;CK被路由到步骤1所确定聚类的所有FPE,通过IC完成粗检索ID生成。

这种系统级基于阈值的粗检索,最小化了每个芯片输出的过滤结果数量,避免了在各芯片上执行相同Top‑K计算带来的冗余ID过滤。最后,少量候选ID被送入数字引擎,以FP16格式进行精检索,使系统级存储带宽需求降低97.44%。



▲两步由粗到精检索系统架构与工作流程

该设计实现了系统级四级流水线并行;同时芯片内不同PE也可并行处理不同任务。相较于传统基于CPU的IVF方案,这种多芯片层级流水线可将延迟降低90.17%。

推荐系统在连接用户与海量内容和服务方面发挥着至关重要的作用,已广泛部署于电商和流媒体平台,但作为其核心运算单元相似向量检索占据了推荐系统绝大部分的计算时间和功耗。

其中采用混合键合技术的DRAM加速器提升了带宽以缓解EMA问题,但其成本高昂,且仍受限于DRAM与逻辑单元之间的数据传输瓶颈;基于NAND TCAM的加速器将计算集成到存储阵列中以减少EMA,但存在读取延迟高、数据和距离表示精度有限的问题。

基于此,这篇最新研究提出了一款高效的SVS加速器,能在保证高吞吐量检索的同时,不牺牲召回精度,进一步降低推荐系统的功耗。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
欧足联解释凯利红牌:其鞋钉猛烈踩到对手脚踝,危及对方安全

欧足联解释凯利红牌:其鞋钉猛烈踩到对手脚踝,危及对方安全

懂球帝
2026-02-26 20:01:20
2-7落后,对手叫暂停!然后王楚钦13-11逆转,那几分钟发生了什么

2-7落后,对手叫暂停!然后王楚钦13-11逆转,那几分钟发生了什么

曹老师评球
2026-02-26 22:13:46
2026春节走访思考:高速服务区取消加油站,真的好吗?

2026春节走访思考:高速服务区取消加油站,真的好吗?

丁道师
2026-02-25 19:04:45
WTT大满贯:国乒7人出局!王曼昱再战张本美和,王楚钦复仇成功

WTT大满贯:国乒7人出局!王曼昱再战张本美和,王楚钦复仇成功

十点街球体育
2026-02-27 00:55:03
梅根为返回英国晒女儿正脸,要求待遇对标凯特,威廉:爱回不回

梅根为返回英国晒女儿正脸,要求待遇对标凯特,威廉:爱回不回

白露文娱志
2026-02-26 10:51:42
青岛市最新人事任免

青岛市最新人事任免

滨州日报
2026-02-26 09:13:04
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
巴拿马总统慌了,他才发现:强吞中国18亿资产,居然是自寻死路

巴拿马总统慌了,他才发现:强吞中国18亿资产,居然是自寻死路

北纬的咖啡豆
2026-02-26 19:33:11
中国音乐家在美国纽约路边换胎时被撞身亡,年仅35岁

中国音乐家在美国纽约路边换胎时被撞身亡,年仅35岁

上观新闻
2026-02-26 12:59:04
广东主持区志航现状:66岁很油腻,转行成行为艺术家,女儿很漂亮

广东主持区志航现状:66岁很油腻,转行成行为艺术家,女儿很漂亮

白面书誏
2026-02-26 19:24:47
终于有专家说实话了!当你的存款达到30万时,千万一定要警惕!

终于有专家说实话了!当你的存款达到30万时,千万一定要警惕!

三农老历
2026-02-27 01:57:08
你家里有铁皮茶叶盒吗?赶紧回家找出来,作用太厉害花钱都难买!

你家里有铁皮茶叶盒吗?赶紧回家找出来,作用太厉害花钱都难买!

妙招酷
2026-02-26 23:48:36
可悲!已经脱离中华百年的外蒙古,正在把中国人40年的努力毁掉!

可悲!已经脱离中华百年的外蒙古,正在把中国人40年的努力毁掉!

王晓爱体彩
2026-02-27 02:43:53
官宣!正式加盟,连续9年全水啊,湖人终于醒目,佩林卡有救了

官宣!正式加盟,连续9年全水啊,湖人终于醒目,佩林卡有救了

球童无忌
2026-02-26 16:01:13
牟宗义被查

牟宗义被查

观察者网
2026-02-26 09:34:05
小鼠研究表明,挖鼻孔与阿尔茨海默病之间存在令人惊讶的联系

小鼠研究表明,挖鼻孔与阿尔茨海默病之间存在令人惊讶的联系

心中的麦田
2026-01-21 20:18:15
民主党在弗吉尼亚遭遇重挫丨美国中期选举观察9

民主党在弗吉尼亚遭遇重挫丨美国中期选举观察9

风阳生
2026-02-26 17:37:41
10球3助攻!曝麦克托米奈无缘回归曼联,意甲MVP将加薪续约留队

10球3助攻!曝麦克托米奈无缘回归曼联,意甲MVP将加薪续约留队

夏侯看英超
2026-02-27 03:10:38
这就是赤裸裸的现实!国家电网的员工估计很难熬到退休了!

这就是赤裸裸的现实!国家电网的员工估计很难熬到退休了!

小虎新车推荐员
2026-02-24 20:16:44
【联播关键词】28日夜间起山东将迎大范围降雨

【联播关键词】28日夜间起山东将迎大范围降雨

闪电新闻
2026-02-26 19:33:29
2026-02-27 06:51:00
芯东西 incentive-icons
芯东西
专注AI芯片、半导体产业媒体
2211文章数 8150关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

美国政府对外交官下令:开始行动

头条要闻

美国政府对外交官下令:开始行动

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

向华强公开表态 财产留给儿媳妇郭碧婷

财经要闻

中国AI调用量超美国 4款大模型霸榜前5

汽车要闻

40岁的吉利,不惑于内外

态度原创

健康
房产
手机
家居
公开课

转头就晕的耳石症,能开车上班吗?

房产要闻

2.2万/m²起!三亚主城性价比标杆 海垦·桃花源实景现房春节被疯抢

手机要闻

折痕几乎看不见:荣耀王飞展示Magic V6折叠屏手机内屏

家居要闻

归隐于都市 慢享自由

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版